Estoy tratando de averiguar exactamente qué son realmente estas nuevas tiendas de datos como bigtable, hbase y cassandra.almacenando datos masivos ordenados de series de tiempo en derivados de bigtable
Trabajo con enormes cantidades de datos bursátiles, miles de millones de filas de datos de precios/cotizaciones que pueden sumar 100 gigabytes por día (aunque estos archivos de texto a menudo se comprimen por lo menos en un orden de magnitud). Esta información es básicamente un puñado de números, dos o tres cadenas cortas y una marca de tiempo (generalmente, un nivel de milisegundos). Si tuviera que elegir un identificador único para cada fila, tendría que elegir toda la fila (ya que un intercambio puede generar múltiples valores para el mismo símbolo en el mismo milisegundo).
Supongo que la forma más sencilla de asignar estos datos a bigtable (incluyendo sus derivados) es por nombre de símbolo y fecha (que puede devolver una serie de tiempo muy grande, más de millón de puntos de datos no es desconocida) . Después de leer sus descripciones, parece que se pueden usar múltiples claves con estos sistemas. También estoy asumiendo que los números decimales no son buenos candidatos para las claves.
Algunos de estos sistemas (Cassandra, por ejemplo) dicen ser capaces de hacer consultas de rango. ¿Sería capaz de consultar de manera eficiente, por ejemplo, todos los valores de MSFT, para un día determinado, entre las 11:00 a.m. y la 1:30 p.m.?
¿Qué sucede si quiero buscar TODOS los símbolos para un día determinado y solicito todos los símbolos que tienen un precio entre $ 10 y $ 10.25 (entonces busco los valores y deseo que se devuelvan las claves)?
¿Qué pasa si quiero obtener dos series, restar una de la otra, y devolver las dos series y su resultado, tendré que hacer su lógica en mi propio programa?
La lectura de documentos relevantes parece mostrar que estos sistemas no son muy adecuados para los sistemas masivos de series temporales. Sin embargo, si los sistemas como google maps se basan en ellos, creo que las series de tiempo también deberían funcionar. Por ejemplo, piense en el tiempo como el eje x, los precios como eje y y los símbolos como ubicaciones con nombre: de repente parece que bigtable debería ser el almacén ideal para series temporales (si se puede almacenar toda la tierra, recuperada) , ampliada y anotada, los datos bursátiles deberían ser triviales).
¿Puede algún experto señalarme en la dirección correcta o aclarar cualquier malentendido?
Gracias
cuando dice "puede decirle a Cassandra que encuentre todas las claves que comienzan con MSFT-ahora y terminan con MSFT-ahora + 1 hora" - ¿Quiere decir RowSclice Query? Quiero decir, si le pregunto a Casandra, dame todas las teclas de fila entre t1 y t2, siendo t una marca de tiempo, ¿es eficiente? He oído que RowSlices no son tan eficientes como las secciones de columna en Cassandra. – Peter