He escrito varias funciones de copia en busca de una buena estrategia de memoria en PowerPC. El uso de los registros Altivec o fp con sugerencias de caché (dcb *) duplica el rendimiento en un bucle de
Estoy tratando de escribir una compactación de flujo (tomar una matriz y deshacerse de los elementos vacíos) con SIMD intrínsecos. Cada iteración del ciclo procesa 8 elementos a la vez (ancho SIMD). C