2012-04-11 28 views
9

Implementé una tarea en Hive. Actualmente funciona bien en mi clúster de nodo único. Ahora planeo desplegarlo en AWS.Amazon EC2 frente a Amazon EMR

No sé nada sobre el AWS. Si planeo desplegarlo, ¿qué debería elegir Amazon EC2 o Amazon EMR?

Quiero mejorar el rendimiento de mi tarea. ¿Cuál es mejor y más confiable para mí? Cómo acercarse a ellos. Escuché que también podemos registrar nuestra configuración de VM tal como está en AWS. ¿Es posible?

Los pls me sugieren tan pronto como sea posible.

Muchas gracias.

+0

¿No es más una pregunta de SysAdmin que una pregunta de programación ...? –

+0

Adivinando desde el "ASAP" al final de su pregunta, tal vez debería intentar enviar la pregunta por correo electrónico al equipo de soporte de la plataforma de su empresa;) –

Respuesta

14

EMR es una colección de instancias EC2 con Hadoop (y opcionalmente Hive y/o Pig) instaladas y configuradas en ellas. Si está utilizando su clúster para ejecutar trabajos Hadoop/Hive/Pig, EMR es el camino a seguir. Una instancia de EMR cuesta un poco más en comparación con una instancia de EC2. Una revisión rápida de los precios de Amazon de hoy revela que una pequeña instancia de EC2 cuesta $ 0.08/hora, mientras que una pequeña instancia de EMR cuesta $ 0.015/hora adicional. En mi opinión, vale la pena pagar ese dinero extra para ahorrarse la molestia de instalar y configurar Hadoop (junto con Hive and Pig), crear y mantener e AMI y usarlo. Además, la versión de EMR de Hadoop y Hive tiene algunos parches que no están disponibles (al menos, todavía no) en Apache Hive. Si utiliza EC2, es probable que sea el uso de Apache Hadoop y Hive (o puede ser, las distribuciones de Cloudera) y no tendría acceso a esos parches (como el soporte nativo para S3 o comandos como ALTER TABLE my_table RECOVER PARTITIONS

Referencias:

+0

Precios de EMR y EC2 https://aws.amazon.com/emr/pricing/ – Saad

5

Sugiero que NO intente implementar su propio clúster Hadoop, a menos que tenga entre 2 y 3 meses de sobra, y tenga a mano un experto en hadoop.

Elastic MapReduce le permitirá comenzar muy rápidamente al proporcionar un entorno de hadoop preconfigurado. Al ver que solo tienes un solo trabajo, debería estar bien.

+0

Eso está bien. En mi caso de uso, quiero usar SQOOP para importar los datos de MS SQL Server. Creé un trabajo para él usando Hive JDBC para procesarlo. Pero tengo datos enormes en MSSQL-SERVER (casi en GB). Si tengo que ejecutar el trabajo diariamente/semanalmente, entonces es eficiente importar de SQL-SERVER diariamente/semanalmente. Si creo que salió este problema y almacené esta información en S3, entonces ¿Cómo puedo hacer un enlace entre HDFS y S3? (Debido a que los datos de la tabla Hive están almacenados en HDFS en el directorio/user/hive/warehouse). –

1

En general, históricamente, REM era bastante lejos detrás de las últimas versiones de los componentes de Hadoop, y algunos eran falta por completo. Esos son los principales reas encendido para usar otra distribución. Por ejemplo, si quería HBase, no estaba en EMR, pero no lo es. Hoy, Spark está ausente de EMR. EMR generalmente se demorará.

Dicho esto, si no está utilizando las últimas y mejores características, vaya con EMR.