Quiero los archivos de salida en el formato 2012117-part-r-00000. Básicamente quiero que el archivo de salida tenga la fecha adjunta, de modo que pueda organizar los archivos según la fecha. Miré OutputFormat y FileOutputFormat, pero no ayuda en mi caso.cómo dar un nombre personalizado a los archivos de salida de hadoop
Respuesta
simplemente me enteré de la nueva API, puedo usar org.apache.hadoop.mapreduce.lib.output.MultipleOutputs y el método addNamedOutput()
No hay mucha flexibilidad en el nombre del archivo de salida del trabajo MR. Use las subclases del MultipleOutputFormat.
Tiene que implementarse el método MultipleOutputFormat#generateFileNameForKeyValue, ignore las entradas de este método y devuelva una cadena en el patrón date + -part-r- + mapred.task.partition
. mapred.task.partition es un int, por lo que tiene que rellenarse previamente con 0 de manera apropiada.
¿No hay manera fácil, en una de las versiones anteriores supongo que tuvimos la opción como FileOutputFormat.setOutputName (JobConf trabajo, nombre de cadena); Además, mi clase de reductor ya está ampliando Reducer, por lo que se deberá ampliar otra clase. – RFT
No veo eso en la API de Hadoop. –
Ok, pero como mencioné mi clase de reducción ya está ampliando otra clase, ¿puedo incluir una clase estática y hacer que esa clase amplíe MultipleOutputFormat y luego llamar a la clase desde algún lugar? – RFT
- 1. ¿Cómo controlo el nombre y el contenido de los archivos de salida de un trabajo de transmisión de Hadoop?
- 2. Generación de archivos de salida independiente en Hadoop Transmisión
- 3. ¿Cómo dar nombre a un hilo invocable?
- 4. Dar nombre a los pasos de compilación - configuración de Jenkins
- 5. ¿Cómo distribuye el método RunJar de Hadoop los archivos clase/jar a través de los nodos?
- 6. cómo dar salida a cada línea en un archivo python
- 7. dar un título a cada consulta SQL de salida
- 8. ejecutar un trabajo Hadoop sin archivo de salida
- 9. Salida intermedia de Hadoop MapReduce
- 10. Cómo dar salida a {nombre} en xml de scala, no convertirlo?
- 11. ¿Alguien puede dar una explicación simple de alto nivel a un principiante sobre cómo funciona Hadoop?
- 12. ¿Cómo puedo configurar el tamaño de bloque de los archivos de salida producidos por un trabajo de Hadoop Streaming?
- 13. Pasando argumentos a los trazadores de Hadoop
- 14. psql -o no es lo que esperaba (cómo dar salida a la respuesta de db a un archivo de salida)
- 15. Cómo dar salida a elementos duplicados usando XSLT?
- 16. cómo dar salida a nombres de archivo rodeados de comillas en una sola línea?
- 17. Hadoop MapReduce - un archivo de salida para cada entrada
- 18. Cómo dar salida a una cadena con comillas dobles?
- 19. Secuencia de archivos en Hadoop
- 20. Dar nombre a la mesa después seleccione
- 21. Cómo dar salida a la consola en C++/Windows
- 22. cómo redirigir una salida de un comando a dos archivos
- 23. ¿Pasar directorios no archivos a hadoop-streaming?
- 24. Dar formato a la salida de la consola C++
- 25. ¿Cómo cambio el nombre de todos los archivos a minúsculas?
- 26. Python hadoop en streaming: Configuración de un nombre de trabajo
- 27. La regla de oro para dar nombre a clases contenedoras
- 28. Archivos comprimidos Hadoop gzip
- 29. ¿Se puede dar un estilo a un botón de Tweet personalizado y utilizar los atributos de datos?
- 30. Cómo dar salida a mi texto de la línea de comando de ruby en diferentes colores
¿es posible cambiar el nombre de los archivos de salida de Sqoop? –