2011-06-15 24 views
23

Planeo utilizar ElasticSearch para indexar mi base de datos de Cassandra. Me pregunto si alguien ha visto los límites prácticos de ElasticSearch. ¿Las cosas se vuelven lentas en el rango de petabytes? Además, ¿alguien ha tenido problemas al usar ElasticSearch para indexar a Cassandra?Límites prácticos de ElasticSearch + Cassandra

Respuesta

24

Consulte this thread de 2011, que menciona las configuraciones de ElasticSearch con 1700 fragmentos cada uno de 200 GB, que estarían en el rango de 1/3 petabyte. Esperaría que la arquitectura de ElasticSearch soportaría una escalabilidad horizontal casi ilimitada, porque cada índice de fragmentos trabaja por separado de todos los demás fragmentos.

Los límites prácticos (que se aplicarían a cualquier otra solución también) incluyen el tiempo necesario para cargar realmente esa cantidad de datos en primer lugar. La gestión de un clúster de Cassandra (o cualquier otro almacén de datos distribuido) de ese tamaño también implicará una gran carga de trabajo solo para mantenimiento, equilibrio de carga, etc.

+2

Gracias ADN por su respuesta. Fue bastante útil. – Henry

12

Sonian es la empresa a la que alude kimchy en ese hilo. Tenemos más de un petabyte en AWS en varios clústeres de ES. No existe una limitación técnica sobre qué tan horizontalmente puede escalar ES, pero como se mencionó en el ADN hay problemas prácticos. El más grande por el momento es la red. Se aplica a cada almacenamiento de datos distribuidos. Solo puedes moverte tanto por el cable a la vez. Cuando ES tiene que recuperarse de una falla, tiene que mover los datos. La mejor opción es utilizar fragmentos más pequeños en más nodos (más transferencias simultáneas), pero corre el riesgo de una mayor tasa de fallas y un costo desorbitado por byte.

0

AS DNA mencionó, 1700 fragmentos, pero no son 1700 fragmentos pero hay 1700 índices cada uno con 1 fragmento y 1 réplica. Por lo tanto, es muy posible que estos 1700 índices no estén presentes en una sola máquina, sino que estén divididos en varias máquinas. Así que esto no es un problema

0

Actualmente estoy empezando trabajando con Elisandra (Elasticsearch + Cassandra)

Soy también, tener problemas para indexar Cassandra con elasticsearch. Mi problema es básicamente la configuración del nodo.

Haciendo $ nodetool status se puede ver Host ID y luego arruinando:

curl -XGET http://localhost:9200/_cluster/state/?pretty=true

Se puede comprobar que uno de los node: es el mismo nombre que Host ID