Estoy usando el programa de ejemplo Hadoop WordCount para procesar un gran conjunto de pequeños archivos/páginas web (aproximadamente 2-3 kB). Como esto está muy lejos del tamaño de archivo óptimo para los archivos hadoop, el programa es muy lento. Supongo que es porque el costo de configurar y desgarrar el trabajo es mucho mayor que el trabajo en sí. Dichos archivos pequeños también causan el agotamiento de los espacios de nombres para los nombres de archivo.Procesando un conjunto grande de archivos pequeños con Hadoop
He leído que en este caso debería usar el archivo HDFS (HAR), pero no estoy seguro de cómo modificar este programa WordCount para leer desde este archivo. ¿El programa puede seguir funcionando sin modificaciones o es necesaria alguna modificación?
Incluso si empaqueto muchos archivos en archivos, la pregunta permanece si esto mejorará el rendimiento. Leí que incluso si empaqueté varios archivos, estos archivos dentro de un archivo no serán procesados por un mapeador, sino muchos, que en mi caso (supongo) no mejorarán el rendimiento.
Si esta pregunta es demasiado simple, por favor entienda que soy novato en Hadoop y tengo muy poca experiencia con él.
Supongo que podría, pero como puse la URL/dirección de la página en la primera línea del archivo, sería un poco difícil de reconocer si esa página es nueva, o simplemente un enlace normal a alguna otra página. – Sasa