2010-01-21 15 views
15

¿Alguien sabe cómo se organizan los datos en Google Analytics? Difícil selección de grandes cantidades de datos que realizan muy, muy rápido, ¿qué estructura de base de datos es?Base de datos de Google Analytics

+1

Supongo que la mayoría de los desarrolladores que trabajan para Google han chamuscado algún tipo de acuerdo de confidencialidad y no pueden hablar de ello. – Kolky

+0

Las respuestas a continuación son informativas, pero aún me pregunto cómo organizan esa información. ¿Están utilizando mapas/reducciones en tiempo real, o todos los puntajes ya están precalculados? Si esto último, nuevamente, ¿cómo organizan eso, porque la API permite filtros complejos y agrupa hasta 7 dimensiones? –

Respuesta

11

yo sepa Google Analytics se deriva de Urchin. Como se ha dicho, es posible que, desde ahora, Analytics sea parte de la familia de Google y esté utilizando MapReduce/BigTable. Puedo suponer que Google había integrado el antiguo formato de Urchin DB con el nuevo BigTable/MapReduce.

Encontré este enlace que habla sobre Urchin DB. Probablemente algunas de las cosas todavía están en uso en este momento.

http://www.advanced-web-metrics.com/blog/2007/10/16/what-is-urchin/

esto dice:

[snip] ... todavía utilizar una base de datos propia para almacenar los datos de informes, lo que hace ad hoc consulta un poco más limitado, ya que se debe utilizar Herramientas desarrolladas por Urchin en lugar de las herramientas SQL más flexibles.

http://www.urchinexperts.com/software/faq/#ques45

¿Qué tipo de base de datos no utilizar Urchin?

Urchin utiliza una base de datos de archivos planos patentada para el almacenamiento de datos de informe. La arquitectura de base de datos de alto rendimiento maneja sitios de mucho tráfico de manera eficiente. Algunas de las ventajas de la arquitectura de base de datos incluyen:

* Small database footprint approximately 5-10% of raw logfile size 
* Small number of database files required per profile (9 per month of historical reporting) 
* Support for parallel processing of load-balanced webserver logs for increased performance 
* Databases are standard files that are easy to back up and restore using native operating system utilitiesv 

Más información sobre Urchin

http://www.google.com/support/urchin45/bin/answer.py?answer=28737

hace

mucho tiempo yo solía tener un rastreador y en su sitio que estaban discutiendo sobre la normalización de datos : http://www.2enetworx.com/dev/articles/statisticus5.asp

Allí puede encontrar un poco de información sobre cómo reducir los datos en DB y quizás sea un buen comienzo en la investigación.

3

BigTable

Google publicación: Chang, Fay, et al. "Bigtable: A distributed storage system for structured data." ACM Transactions on Computer Systems (COT) 26,2 (2008):

Bigtable es utilizado por más de sesenta productos y proyectos de Google, incluyendo Google Analytics, Google Finance, Orkut, personalizado búsqueda, Writely, y Google Earth.

Cuestiones relacionadas