Estoy empezando a aprender Hadoop, y me pregunto lo siguiente: supongamos que tengo un montón de grandes tablas de producción de MySQL que quiero analizar.Extrayendo datos de MySQL en Hadoop
- Parece como si tuviera que volcar todas las tablas en archivos de texto, con el fin de ponerlos en el sistema de archivos Hadoop - si esto es correcto, o hay alguna manera de que la colmena o cerdo o lo pueden tener acceso a los datos de MySQL directamente?
- Si elimino todas las tablas de producción en archivos de texto, ¿debo preocuparme por afectar el rendimiento de producción durante el volcado? (¿Depende de qué motor de almacenamiento utilizan las tablas? ¿Qué debo hacer si es así?)
- ¿Es mejor volcar cada tabla en un solo archivo o dividir cada tabla en 64mb (o lo que sea que mi tamaño de bloque sea) archivos?
1 para SQOOP ref –