2010-12-21 9 views
22

El Namenode en la arquitectura Hadoop es un punto único de falla.Hadoop namenode: punto único de falla

¿Cómo pueden las personas que tienen grandes clústeres Hadoop hacer frente a este problema ?.

¿Hay una solución aceptada por la industria que ha funcionado bien en el que un NameNode secundaria se hace cargo en caso de que la principal falla?

Respuesta

22

Yahoo tiene certain recommendations para la configuración de diferentes tamaños de clúster para tener en cuenta la falla de NameNode. Por ejemplo:

El único punto de falla en un clúster Hadoop es el NameNode. Si bien la pérdida de cualquier otra máquina (de forma intermitente o permanente) no da como resultado la pérdida de datos, la pérdida de NameNode provoca la indisponibilidad del clúster. La pérdida permanente de los datos de NameNode haría que el HDFS del clúster no funcione.

Por lo tanto, otro paso debe ser tomado en esta configuración de copia de seguridad de los metadatos NameNode

Facebook utiliza a tweaked version of Hadoop por sus almacenes de datos; tiene some optimizations que se enfoca en la confiabilidad de NameNode. Además de los parches disponibles en github, Facebook parece usar AvatarNode específicamente para cambiar rápidamente entre NameNodes primario y secundario. Dhruba Borthakur's blog contiene otras entradas que ofrecen información adicional sobre NameNode como punto único de error.

Editar: Further info about Facebook's improvements to the NameNode.

1

Los grandes clústeres de Hadoop tienen miles de nodos de datos y un nodo de nombre. La probabilidad de falla aumenta linealmente con el recuento de la máquina (todo lo demás es igual). Entonces, si Hadoop no soportaba las fallas de los nodos de datos, no escalaría. Como todavía hay un solo nodo de nombre, el Punto de falla único (SPOF) está ahí, pero la probabilidad de falla aún es baja.

Que triste, la respuesta de Bkkbrad acerca de que Facebook está agregando capacidad de conmutación por error al nodo de nombre está justo en.

3

Namenode en hadoop ya no es un SPOF. cheque here para más.

+0

URL actualizada a https://hadoop.apache.org/docs/r2.6.0/hadoop-project-dist/hadoop-hdfs/HDFSHighAvailabilityWithQJM.html –

+0

Este es un típico respuesta de solo-enlace, que no ayuda mucho sin tener y hacer clic en el enlace. En mi perspectiva, se ha vuelto obsoleta por la respuesta publicada por Ravindra. –

3

Alta disponibilidad de Namenode se ha introducido con Hadoop 2.x lanzamiento.

Se puede lograr de dos maneras - With NFS y With QJM

Pero alta disponibilidad con quórum Diario Manager (QJM) es la opción preferida.

En un clúster de HA típico, dos máquinas separadas se configuran como NameNodes. En cualquier punto en el tiempo, exactamente uno de los NameNodes está en estado Activo, y el otro está en estado de Espera. El Active NameNode es responsable de todas las operaciones del cliente en el clúster, mientras que el modo en espera simplemente actúa como esclavo, manteniendo el estado suficiente para proporcionar una conmutación por error rápida si es necesario.

Eche un vistazo a las preguntas a continuación, lo que explica el proceso completo de conmutación por error.

Secondary NameNode usage and High availability in Hadoop 2.x

How does Hadoop Namenode failover process works?

Cuestiones relacionadas