Configuración de fuente de datos externa para Elastic MapReduce

Queremos utilizar Amazon Elastic MapReduce sobre nuestro DB actual (estamos usando Cassandra en EC2). En cuanto a las preguntas frecuentes de Amazon EMR, debería ser posible: Amazon EMR FAQ: Q: Can I load my data from the internet or somewhere other than Amazon S3?Configuración de fuente de datos externa para Elastic MapReduce

Sin embargo, al crear un nuevo flujo de trabajo, solo podemos configurar un depósito S3 como origen de datos de entrada.

¿Alguna idea/muestra sobre cómo hacer esto?

Gracias!

P.S .: He visto esta pregunta How to use external data with Elastic MapReduce pero las respuestas realmente no explican cómo hacerlo/configurarlo, simplemente que es posible.

Trate de usar scp para copiar los archivos a la instancia de EMR:

my-desktop-box$ scp mylocaldatafile my-emr-node:/path/to/local/file

(o utilizar ftp o wget o curl, o cualquier otra cosa que desee)

continuación, inicie sesión en la instancia de EMR con ssh y cargarlo en hadoop:

my-desktop-box$ ssh my-emr-node 
    my-emr-node$ hadoop fs -put /path/to/local/file /path/in/hdfs/file

2013-03-27 05:53:33 Christopher

How are ¿estás procesando los datos? EMR solo está administrado por hadoop. Aún necesita escribir un proceso de algún tipo.

Si está escribiendo un trabajo de Hadoop Mapreduce, entonces está escribiendo java y puede usar Cassandra apis para tener acceso a él.

Si desea utilizar algo como colmena, deberá escribir un manejador de almacenamiento Hive para usar datos respaldados por Cassandra.

2013-06-24 05:46:22 prestomation

Respuesta