Si están trabajando en el clúster de Hortonworks y quieren fusionar múltiples archivos presentes en la ubicación de HDFS en un único archivo, luego pueden ejecutar el jar 'hadoop-streaming-2.7.1.2.3.2.0-2950.jar' que ejecuta un solo reductor y obtener el archivo fusionado en la ubicación de salida HDFS.
$ hadoop jar /usr/hdp/2.3.2.0-2950/hadoop-mapreduce/hadoop-streaming-2.7.1.2.3.2.0-2950.tarro \
-Dmapred.reduce.tasks=1 \
-input "/hdfs/input/dir" \
-output "/hdfs/output/dir" \
-mapper cat \
-reducer cat
Puede descargar este frasco de Get hadoop streaming jar
Si está escribiendo trabajos de chispa y desea obtener un archivo combinado para evitar múltiples creaciones RDD y cuellos de botella de rendimiento utilizar este pedazo de código antes de la transformación de su RDD
sc.textFile("hdfs://...../part*).coalesce(1).saveAsTextFile("hdfs://...../filename)
Esto se fusionará todos los archivos de piezas en una sola y volver a guardarlo en hdfs ubicación
Debe aceptar una respuesta si su pregunta ha sido contestada. –