Planeo utilizar ElasticSearch para indexar mi base de datos de Cassandra. Me pregunto si alguien ha visto los límites prácticos de ElasticSearch. ¿Las cosas se vuelven lentas en el rango de petabytes? Además, ¿alguien ha tenido problemas al usar ElasticSearch para indexar a Cassandra?Límites prácticos de ElasticSearch + Cassandra
Respuesta
Consulte this thread de 2011, que menciona las configuraciones de ElasticSearch con 1700 fragmentos cada uno de 200 GB, que estarían en el rango de 1/3 petabyte. Esperaría que la arquitectura de ElasticSearch soportaría una escalabilidad horizontal casi ilimitada, porque cada índice de fragmentos trabaja por separado de todos los demás fragmentos.
Los límites prácticos (que se aplicarían a cualquier otra solución también) incluyen el tiempo necesario para cargar realmente esa cantidad de datos en primer lugar. La gestión de un clúster de Cassandra (o cualquier otro almacén de datos distribuido) de ese tamaño también implicará una gran carga de trabajo solo para mantenimiento, equilibrio de carga, etc.
Sonian es la empresa a la que alude kimchy en ese hilo. Tenemos más de un petabyte en AWS en varios clústeres de ES. No existe una limitación técnica sobre qué tan horizontalmente puede escalar ES, pero como se mencionó en el ADN hay problemas prácticos. El más grande por el momento es la red. Se aplica a cada almacenamiento de datos distribuidos. Solo puedes moverte tanto por el cable a la vez. Cuando ES tiene que recuperarse de una falla, tiene que mover los datos. La mejor opción es utilizar fragmentos más pequeños en más nodos (más transferencias simultáneas), pero corre el riesgo de una mayor tasa de fallas y un costo desorbitado por byte.
AS DNA mencionó, 1700 fragmentos, pero no son 1700 fragmentos pero hay 1700 índices cada uno con 1 fragmento y 1 réplica. Por lo tanto, es muy posible que estos 1700 índices no estén presentes en una sola máquina, sino que estén divididos en varias máquinas. Así que esto no es un problema
Actualmente estoy empezando trabajando con Elisandra (Elasticsearch + Cassandra)
Soy también, tener problemas para indexar Cassandra con elasticsearch. Mi problema es básicamente la configuración del nodo.
Haciendo $ nodetool status
se puede ver Host ID
y luego arruinando:
curl -XGET http://localhost:9200/_cluster/state/?pretty=true
Se puede comprobar que uno de los node:
es el mismo nombre que Host ID
- 1. SQLite: ¿cuáles son los límites prácticos?
- 2. Límites prácticos de la trama de datos R
- 3. Solandra vs. ElasticSearch
- 4. Límites prácticos del sistema de archivos efímero de Cedar en Heroku
- 5. Usos prácticos de TypedReference
- 6. jQuery .each() - ¿Usos prácticos?
- 7. Usos prácticos de MethodRental Class?
- 8. ElasticSearch Stemming
- 9. IU de Elasticsearch
- 10. ¿Cuáles son los límites prácticos sobre el número de instancias de FileSystemWatcher que puede manejar un servidor?
- 11. Límites de los solucionadores SMT
- 12. ¿Usos prácticos para tipos estructurales?
- 13. ¿Usos prácticos de serialización de objetos?
- 14. Ejemplos prácticos de uso de NLTK
- 15. Necesito más ejemplos prácticos de Ninject
- 16. algunos usos prácticos de mem_fn & bind
- 17. Cassandra UnavailableException()
- 18. configurando elasticSearch con Postgresql
- 19. Elasticsearch actuaciones esperables
- 20. Analizadores en elasticsearch
- 21. Script en elasticsearch
- 22. elasticsearch doble faceta
- 23. Elasticsearch y zonas horarias
- 24. Elasticsearch - Asignar fragmentos
- 25. Elasticsearch, Tire & Asociaciones
- 26. Configuración de borrosidad en ElasticSearch
- 27. elasticsearch número de facetas devueltas
- 28. Cassandra - soporte de transacciones
- 29. Disponibilidad de Cassandra
- 30. ImageView Pinch-zoom Límites de escala y límites de panorámica
Gracias ADN por su respuesta. Fue bastante útil. – Henry