Tengo un programa "map only" (sin fase de reducción). El tamaño del archivo de entrada es lo suficientemente grande como para crear 7 tareas de mapa y lo he verificado mirando la producción producida (part-000 a part006). Ahora, mi clúster tiene 8 nodos, cada uno con 8 núcleos y 8 GB de memoria y sistema de archivos compartido alojado en el nodo principal.Cómo programar las tareas de Hadoop Map en un clúster de 8 nodos de múltiples núcleos?
Mi pregunta es ¿puedo elegir entre ejecutar todas las tareas 7 mapa de nodo sólo 1 o ejecutar las tareas 7 7 mapas en diferentes nodos esclavos (1) de trabajo por nodo. Si puedo hacerlo, entonces qué cambio en mi código y archivo de configuración es necesario.
Intenté establecer el parámetro "mapred.tasktracker.map.tasks.maximum" en 1 y 7 en mi código solamente, pero no encontré ninguna diferencia de tiempo apreciable. En mi archivo de configuración se establece como 1.