2012-01-12 15 views
6

Soy un usuario de Apache Solr alrededor de un año. Utilicé solr para herramientas de búsqueda simples, pero ahora quiero usar solr con 5 TB de datos. Supongo que los datos de 5TB serán de 7TB cuando Solr lo indexe de acuerdo con el filtro que uso. Y luego agregaré casi 50MB de datos por hora al mismo índice.Puede Apache Solr Manejar datos grandes TeraByte

1- Si hay algún problema al usar un solo servidor solr con datos de 5TB. (Sin fragmentos)

  • a- Puede Solr servidor responde a las consultas en un tiempo aceptable

  • b- lo que es el momento esperado por cometer 50 MB de datos en el índice de 7 TB.

  • c- ¿Hay un límite superior para el tamaño de índice.

2- ¿cuáles son las sugerencias que usted ofrece

  • a- ¿Cuántos fragmentos debo usar

  • b- ¿Debo usar Solr núcleos

  • c- ¿Cuál es la frecuencia de compromiso que ofreces? (Es de 1 hora OK)

3- ¿existen resultados de las pruebas de este tipo de datos de gran tamaño


No hay datos disponibles 5TB, sólo quiero para estimar cuál será el resultado.

Nota: Puede suponer que los recursos de hardware no son un problema.

+1

Una pregunta para usted. Asumiendo que está indexando 5TB de datos sin procesar, ¿por qué crees que crecerá a 7TB? ¿Debo entender que esto significa que también está almacenando el contenido completo del documento en el índice, en lugar de simplemente almacenar los campos de búsqueda? Si es así, sugeriría almacenar solo lo que necesita para buscar en Solr. Los documentos en bruto pertenecen en otro lugar. – rfeak

Respuesta

3

si sus tamaños son para texto, en lugar de archivos binarios (cuyo texto sería generalmente mucho menos), entonces no creo que pueda pretender hacer esto en una sola máquina.

Esto suena como Logly y usan SolrCloud para manejar esa cantidad de datos.

ok si todos son documentos ricos, entonces el tamaño total del texto para indexar será mucho más pequeño (para mí es aproximadamente el 7% de mi tamaño inicial). De todos modos, incluso con esa cantidad reducida, creo que todavía tienes demasiados datos para una sola instancia.

+0

Pero 50MB por hora significa aproximadamente no 0.75TB por mes, es 0.075TB lo que significa 75GB por mes – Mustafa

+0

lo siento, no estoy seguro de cómo hice mis cálculos tan mal. De todos modos, los datos iniciales son demasiado grandes para una sola solución, creo ... – Persimmonium

+0

En su opinión, ¿cuál es el tamaño de datos óptimo para el servidor de servidor único – Mustafa

Cuestiones relacionadas