paralelo/La computación distribuida = VELOCIDAD < < Hadoop hace que este muy, muy fácil y barato ya que sólo se puede utilizar un montón de máquinas de productos básicos !!!
A lo largo de los años, la capacidad de almacenamiento en disco ha aumentado enormemente, pero las velocidades a las que lees los datos no se han mantenido. Cuantos más datos tenga en un disco, más lenta será la búsqueda.
Hadoop es una ingeniosa variante del enfoque de divide y vencerás para la resolución de problemas. Básicamente se divide el problema en fragmentos más pequeños y se asignan los trozos a varias computadoras diferentes para que realicen el procesamiento en paralelo a acelerando las cosas hasta en lugar de sobrecargar una máquina. Cada máquina procesa su propio subconjunto de datos y el resultado se combina al final. Hadoop en un solo nodo no le dará la velocidad que importa.
Para ver el beneficio de hadoop, debe tener un clúster con al menos 4 - 8 máquinas básicas (según el tamaño de sus datos) en el mismo estante.
Ya no es necesario ser un ingeniero de sistemas en paralelo supergenio para aprovechar la informática distribuida. Solo sé hadoop con Hive y listo.
¿Qué rendimiento aspecto de hadoop es de su interés? –