Estoy en un escenario en el que tengo dos trabajos de reducción de mapas. Me siento más cómodo con Python y planeo usarlo para escribir scripts de mapreduce y usar la transmisión de hadoop para el mismo. ¿Existe una manera conveniente de encadenar los dos trabajos siguiendo la forma cuando se usa la transmisión de hadoop?Encadenando múltiples tareas de mapreduce en la transmisión de Hadoop
mapa 1 -> Reduce1 -> Mapa 2 -> Reduce2
He oído un montón de métodos para lograr esto en Java, pero necesito algo para Hadoop streaming.
Hmm, no estoy seguro de cómo va a funcionar. He hecho una pregunta: http://stackoverflow.com/questions/35249753/call-mapper-when-reducer-is-done – gsamaras