2012-01-24 23 views
12

Actualmente estoy trabajando en algunos proyectos con MongoDB y Apache Cassandra respectivamente. También estoy usando Solr mucho y estoy manejando "montones" de datos con ellos (aproximadamente 1-2 TB). He oído hablar de Greenplum y Vertica la primera vez en la última semana y no estoy muy seguro de dónde ponerlos en mi cerebro. Me parecen soluciones de Dataware House (DWH) y realmente no he trabajado DWH. Y parecen costar mucho dinero (por ejemplo, $ 60k para almacenamiento de 1TB en Greenplum). Yo actualmente no estoy manejando petabyte de datos y no haré lo que creo, pero los productos como Cassandra también parecen ser capaces de manejar esteVentajas de bases de datos como Greenplum o Vertica en comparación con MongoDB o Cassandra

Cassandra es el líder reconocido NoSQL cuando se trata de cómodamente escalar a terabytes o petabytes de datos.

través http://www.datastax.com/why-cassandra

Así que mi pregunta: ¿Por qué la gente use Greenplum & Co? ¿Hay una gran ventaja en comparación con estos otros productos?

Gracias.

Respuesta

7

Hemos estado trabajando en Hadoop para 4 años, y Vertica para 2. Tuvimos problemas masivos de carga y de indexación con nuestras tablas en MySQL. Estábamos corriendo en humos con nuestra solución de fragmentación local. Podríamos haber invertido mucho en el desarrollo de una solución de fragmentación más sofisticada, lo que habría sido bastante doloroso, imo. Podríamos haber pensado más sobre qué datos necesitábamos mantener en una base de datos SQL.

Pero al final del día, el cambio de MySQL a Vertica fue lo que elegimos. Vertica patrones de rendimiento son muy diferentes de de MySQL, que viene con sus propios dolores de cabeza. Pero puede cargar una gran cantidad de datos muy rápidamente, y es bueno en consultas pesadas que harían girar la cabeza a MySQL.

De la manera en que lo veo, Vertica es una solución cuando ya está invertido en SQL y necesita una base de datos SQL más resistente. No soy un experto, así que no podría decirle cómo habría sido una transición a Oracle o DB2 en comparación con Vertica, ni en términos de esfuerzo de integración ni de costo monetario.

Vertica ofrece muchas características que apenas hemos examinado. Esos pueden ser muy atractivos para otros con casos de uso diferentes a los nuestros.

6

Soy un DBA de Vertica y antes de eso era un desarrollador con Vertica. Michael Stonebreaker (el tipo detrás de Ingres, Vertica y otras bases de datos) tiene algunas críticas de NoSQL que vale la pena escuchar.

Básicamente, aquí son las ventajas de Vertica como las veo:

  • es bastante rápido en grandes cantidades de datos
  • su rendimiento es similar (por lo que he entendido) a otras soluciones de almacenamiento de datos, pero su ventaja es la agrupación y el hardware básico. Para que pueda escalar agregando más hardware básico. Parece barato en términos de costo general por TB. (Pasar de la memoria no es una cita exacta.)
  • Nuevamente, es para almacenamiento de datos.
  • Llegas a utilizar SQL y tablas tradicionales. Está bajo el capó que es diferente.

No puedo hablar de los otros productos, pero estoy seguro de que muchos de ellos también están bien.

Editar: Aquí está una charla de Stonebreaker: http://www.slideshare.net/Dataversity/newsql-vs-nosql-for-new-oltp-michael-stonebraker-voltdb

2

Hay una gran confusión acerca de cuándo utilizar una base de datos de fila como MySQL u Oracle o una base de datos columnar como Infobright o Vertica o una variante NoSQL o Hadoop . Escribimos un libro blanco para intentar ayudar a determinar qué tecnologías son las más adecuadas para cada caso de uso: puede descargar Emerging Database Landscape (desplazarse hasta la mitad) o mirar on-demand webinar on the same topic.

Esperanza cualquiera es útil para usted

+0

Cabe mencionar que Vertica puede ingerir datos de Hadoop. No son mutuamente excluyentes. – geoffrobinson

+1

Ninguno de los enlaces provistos funciona. The Emerging Data Landscape muestra 404 y el seminario web bajo demanda no muestra ningún video. ¿Te importa actualizar los enlaces? – Kingz

+0

Aquí está el enlace actualizado: http://tdwi.org/whitepapers/2011/10/users-guide-to-the-emerging-database-landscape-row-vs-columnar-vs-nosql.aspx – user398039

40

Cassandra, Greenplum y Vertica todas manejar grandes cantidades de datos, pero de maneras muy diferentes.

Algunos casos de uso compuestos donde cada base de datos tiene sus puntos fuertes:

Uso cassandra para:

tweets.insert(key:user, data:blob); 
tweets.get(key:user) 

Uso Greenplum para:

begin; 
update account set balance = balance - 10 where account_id = 1; 
update account set balance = balance + 10 where account_id = 2; 
commit; 

Uso Vertica para:

select sum(balance) 
over (partition by region order by account rows unbounded preceding) 
from transactions; 
+0

Awesome answer! –

11

Trabajo en la industria de las telecomunicaciones. Trabajamos con grandes conjuntos de datos y complejos modelos de EDW (data warehouse empresarial). Empezamos con Teradata y estuvo bien durante algunos años. Luego, los datos aumentaron exponencialmente, y como saben, la expansión en Teradata es costosa. Por lo tanto, evaluamos EMCs a saber, Green Plum, Oracle Exadata, HP Vertica e IBM netteza.

En velocidad, generación de informes 20 era la siguiente: 1. Vertica, 2. Netteza, 3. ciruela verde, 4. oráculo

En relación de compresión: Vertica tenía una ventaja natural. Entre otros, IBM también es bueno. Lo peor según los puntos de referencia es emc y Oracle. Como siempre se esperaba ya que ambos quieren vender toneladas de almacenamiento y hardware.

Escalabilidad: Todos escalan bien.

Tiempo de carga: emc es el mejor aquí, otros (teradata, Vertica, oracle, IBM) también son buenos.

Consulta de usuario simultáneo: Vertica, emc, ciruela verde, luego solo IBM. Oracle exadata es lento en cualquier tipo de caso de consulta comparativamente, pero mucho mejor que su vieja escuela 10g.

Precio: Teradata> Oracle> IBM> HP> EMC

Nota: Es preciso comparar apple a manzana, igual no de núcleos, la memoria RAM, el volumen de datos y los informes

Elegimos Vertica para el hardware independiente modelo de fijación de precios, precios más bajos y buen rendimiento. Ahora los más de 40 usuarios están felices de generar informes sin esperar y todo encaja en los servidores hp dl380 de bajo costo. es ideal para el caso de uso olap/edw.

Todo este análisis es solo para edw/analytics/olap case. Todavía soy un fanático de los oráculos para todos los oltp, ricos plsql, conectividad, etc. en cualquier hardware o sistema.Exadata ofrece una carga de trabajo mixta decente, pero irracional en relación precio/rendimiento y aún necesita migrar el código 10g para exadatar las mejores prácticas (tipo de MMP, procesamiento masivo, etc., y consume mucho tiempo de lo que afirman.

3

Pivotal, anteriormente, Greenplum, es una filial bien financiada de EMC, VMware y GE. El mercado de Pivotal son empresas (y agencias de ciberseguridad de Homeland) con bases de datos de varios Petabytes que necesitan análisis complejos y ETL de alta velocidad.El origen de Greenplum es una DB PostgreSQL rediseñada para Map Reduced . MPP, con adiciones posteriores para columnar-apoyo y HDFS Se casa el mejor de SQL + NoSQL hacer NewSQL

Características:

.

  • En 2015H1, la mayor parte de su código, incluido Greenplum DB & HAWQ, irá a Código abierto. Algunas características de rendimiento de gestión avanzada & en la parte superior de la pila seguirán siendo propiedad.
  • MPP (Massively Parallel Processing) sin compartir base de datos RDBMS diseñada para entornos multi-terrabyte a multi-petabyte.
  • Cumplimiento de SQL completo: compatible con todas las versiones de SQL: '92, '99, 2003 OLAP, etc. 100% compatible con PostgreSQL 8.2. • Solo SQL sobre HADOOP capaz de manejar todas las 99 consultas utilizadas por el estándar de referencia TPC-DS sin reescribir. La competencia no puede hacer muchos de ellos y es significativamente más lenta. Libro blanco SIGMON.
  • Cumplimiento con ACID.
  • Admite datos almacenados en archivos HDFS, Hive, HBase, Avro, ProtoBuf, Texto delimitado y Secuencia.
  • Integración de Solr/Lucene para la búsqueda multilingüe de texto completo incrustado en el SQL.
  • Incorpora software de fuente abierta: Spring, Cloud Foundry, Redis.io, RabbitMQ, Grails, Groovy, Open Chorus, Pig, ZooKeeper, Mahout, MADlib, MapR. Algunos de estos se utilizan en EBSCO.
  • Conectividad nativa a HBase, que es una popular tecnología similar a la tienda en columna para Hadoop.
  • La participación de VMware en una inversión de $ 150m en MongoDB probablemente conducirá a la integración de archivos XML a escala petabyte.
  • La especificación tabla por tabla de las claves de distribución le permite diseñar sus esquemas de tablas para aprovechar las uniones locales de nodos y grupos bys, pero funcionará incluso sin esto.
  • Almacenamiento de datos orientados por filas y/o columnas. Es la única base de datos donde una tabla puede ser polimórfica con las particiones tanto columnares como basadas en filas definidas por el DBA.
  • Una tabla column-store puede tener un algoritmo de compresión diferente por columna porque los diferentes tipos de datos tienen diferentes características de compresión para optimizar su almacenamiento.
  • Advanced Map-Reduce-like CBO Query Optimizer: las consultas se pueden ejecutar en cientos de miles de nodos.
  • Es la única base de datos con un modelo de ejecución de canal dinámico distribuido para el procesamiento de consultas. Mientras que las bases de datos antiguas dependen de la ejecución materializada, Greenplum no tiene que escribir datos en el disco con cada paso de consulta intermedio. Transmite datos a la siguiente etapa de un plan de consulta en la memoria, y nunca tiene que materializar los datos en el disco, por lo que es mucho más rápido que lo que cualquiera ha demostrado en Hadoop.
  • Las consultas complejas en grandes conjuntos de datos se resuelven en segundos o incluso en segundos.
  • Gestión de datos: proporciona estadísticas de tabla, seguridad de tabla.
  • Analítica profunda, que incluye minería de datos o algoritmos de aprendizaje automático utilizando MADlib. Análisis textual semántico profundo usando GPText.
  • Análisis gráfico: base de datos y algoritmos de gráficos en memoria distribuidos en mil millones utilizando GraphLab.
  • Integración de SQL, índices de Solr, GPText, MADlib y GraphLab en una única consulta para análisis sintáctico masivo y análisis de afinidad gráfica/matriz para análisis de búsqueda profunda.
  • Totalmente compatible con ODBC/JDBC.
  • Tasa de ETL distribuida de 16 TB/hr !! Integración con Talend disponible.
  • Soporte en la nube: Pivotal planea empaquetar su software Cloud Foundry para que pueda ser utilizado también para alojar Pivotal encima de otras nubes, incluido el EC2 de Amazon Web Services. La administración de datos fundamental estará disponible para su uso en una variedad de configuraciones de nube y no dependerá de un sistema propietario de VMware. Apuntará a OpenStack, vSphere, vCloud Director o marcas privadas. IBM anunció que se ha estandarizado en Cloud Foundry para su PaaS. Página de Confluencia.
  • Dos ofertas de "dispositivos" de hardware: Isilon NAS & Greenplum DCA.
Cuestiones relacionadas