Estoy tratando de confirmar mi comprensión de la diferencia entre 0 reductor y reductor de identidad.hadoop: ¿diferencia entre 0 reductor y reductor de identidad?
- 0 significa reducir reductor se saltará el paso y la salida asignador será el último out
- Identidad reductor significa entonces barajar/clasificación aún llevará a cabo?
Hola Dolan, ¿podrías explicarnos un poco sobre el uso de Identity Reducer para combinar resultados en menos archivos? Me enfrentaba a problemas similares: tener muchos archivos pequeños generados por trabajos solo de mapas. ¿Sería menos eficiente en comparación con los trabajos de solo mapas? –
Yitong: hay gastos indirectos adicionales cuando se usan los Reductores de Identidad para ninguno porque las salidas de Mapper se deben dividir en X segmentos y luego se envían a los reductores X (es decir, donde X es el número deseado de archivos de salida), ordenados, y luego guardado en el directorio de salida en HDFS/S3/etc. Si tiene un montón de datos, deberá tener cuidado con esta sobrecarga adicional porque puede ser significativo en algunos casos. Alternativamente, si guarda en HDFS, puede usar 'hdfs cat' para transmitir la salida de todos los archivos en una ubicación. No sé si S3 tiene un mecanismo de lectura de flujo similar. –