Queremos utilizar Amazon Elastic MapReduce sobre nuestro DB actual (estamos usando Cassandra en EC2). En cuanto a las preguntas frecuentes de Amazon EMR, debería ser posible: Amazon EMR FAQ: Q: Can I load my data from the internet or somewhere other than Amazon S3?Configuración de fuente de datos externa para Elastic MapReduce
Sin embargo, al crear un nuevo flujo de trabajo, solo podemos configurar un depósito S3 como origen de datos de entrada.
¿Alguna idea/muestra sobre cómo hacer esto?
Gracias!
P.S .: He visto esta pregunta How to use external data with Elastic MapReduce pero las respuestas realmente no explican cómo hacerlo/configurarlo, simplemente que es posible.