Ahora Amazon tiene un contenedor implementado sobre distcp, a saber: s3distcp.
S3DistCp es una extensión de DistCp que está optimizado para trabajar con Amazon Web Services (AWS), particularmente Amazon simple servicio de almacenamiento (Amazon S3). Utiliza S3DistCp agregándolo como un paso en un flujo de trabajo. Con S3DistCp, puede copiar eficientemente grandes cantidades de datos de Amazon S3 a HDFS, donde se pueden procesar siguiendo los pasos subsiguientes en su flujo de trabajo de Amazon Elastic MapReduce (Amazon EMR). También puede utilizar S3DistCp para copiar datos entre cubos de Amazon S3 o desde HDFS a Amazon S3
Ejemplo Copiar los archivos de registro de Amazon S3 para hdfs
Este siguiente ejemplo ilustra cómo copiar los archivos de registro almacenado en un cubo de Amazon S3 en HDFS. En este ejemplo, la opción --srcPattern se usa para limitar los datos copiados a los registros de daemon.
elastic-mapreduce --jobflow j-3GY8JC4179IOJ --jar \
s3://us-east-1.elasticmapreduce/libs/s3distcp/1.latest/s3distcp.jar \
--args '--src,s3://myawsbucket/logs/j-3GY8JC4179IOJ/node/,\
--dest,hdfs:///output,\
--srcPattern,.*daemons.*-hadoop-.*'
sigue recibiendo un error al mover s3 a hdfs con distcp. en mi caso, estoy tratando de mover un archivo muy grande (más de 300 GB) después de mover el 40 o 50%, comienza la forma inicial y no sé por qué. ¿¿alguna idea?? – rht