2008-10-01 17 views
13

Tengo una gran cantidad de datos de mysql de los que necesito generar informes. Se trata principalmente de datos históricos, por lo que no cambiará mucho, pero pesa entre 20 y 30 gigabytes fácilmente y se espera que crezca. Actualmente tengo una colección de scripts php que harán algunas consultas complejas y generarán archivos csv y excel. También uso phpMyAdmin con consultas marcadas. Los edito manualmente para cambiar los parámetros. La cantidad de datos está creciendo y la cantidad de personas que necesitan acceder a ella también está creciendo, así que estoy haciendo un tiempo para mejorar esta situación.¿Hay marcos de almacenamiento de datos?

Empecé a leer sobre data warehousing el otro día y parece que esta es un área que se relaciona con lo que tengo que hacer. He leído somegoodarticles y estoy incluso esperando en un libro. Creo que estoy entendiendo qué hacen estos tipos de sistemas y qué es posible.

La creación de un sistema de informes para mis datos siempre ha estado en una lista de tareas pendientes, pero hasta hace poco, pensé que sería una empresa de programación altamente especializada. Como ahora sé que el almacenamiento de datos es una cosa común, creo que debe haber algún tipo de marcos de informes/almacenamiento disponibles para facilitar el desarrollo. Con mucho gusto me saltaría las interfaces de escritura y los guiones para programar y enviar informes por correo electrónico y cosas por el estilo, y me atengo a la redacción de consultas y el establecimiento de relaciones.

He sido principalmente un tipo de lámpara, pero no estoy por encima de cambiar de idiomas o plataformas. Solo necesito una solución más robusta ya que mis scripts únicos no se escalan bien.

Entonces, ¿dónde es un buen lugar para comenzar?

Respuesta

7

Voy a discutir algunos puntos en el {presupuesto, función de utilidad de negocio, marco de tiempo} espectro por ahí. Para mayor comodidad, vamos a seguir la conceptualización arquitectura se ha vinculado a por lo

    WikipediaDataWarehouseArticle

  • capa de base de datos operativa
    La fuente de datos para el almacén de datos - normalizada para en un solo lugar único mantenimiento de datos

  • Capa de acceso a los datos
    Transformación de los datos de origen en la capa de acceso a la información.
    Las herramientas de ETL para extraer, transformar, cargar datos en el almacén caen en esta capa.

  • capa de acceso Informativo
      • Informe que facilitan la estructura de datos
          datos no se mantiene aquí.Es simplemente un reflejo de los datos de origen
          Por lo tanto, desnormalizado estructuras (que contiene duplicado, pero los datos obtenidos de forma sistemática)
          son por lo general más eficaz aquí
      • herramientas de Información
          Cómo de hecho permite que sus usuarios accedan a los datos
          • informes pre-enlatados (simple)
          • métodos rebanada-y-dados de acceso más dinámicos

        Los datos de acceso para analizar datos de informes y el análisis y las herramientas para la presentación de informes y
        entran en esta capa. Y las diferencias de Inmon-Kimball sobre la metodología de diseño,
        que se tratan más adelante en el artículo de Wikipedia, tienen que ver con esta capa.

  • capa de metadatos (facilita la automatización, organización, etc.)

liar (gama baja)
a muy bajo costo fuera de su bolsillo, simplemente reconociendo la necesidad de que el estructuras no normalizados pueden comprar los que no lo están utilizando algunas eficiencias

Entra en el juego de pelota (algunos gastos necesarios)
no es necesario que nos e toda la funcionalidad de una plataforma desde el principio.
OMI, sin embargo, que quieren estar en una plataforma que sabe que crecer, y en el entorno de BI altamente competitivo y consolidación, que parece ser una de las cuatro empresas mega-vendedores (mi opinión)

  • Microsoft (la plataforma de nuestra firma 110 empleados)
  • SAP
  • Oracle
  • IBM

    BiMarketStateArticle

Mi firma es en esta etapa, el uso de algunas de las capacidades ETL ofrecido por SQL Server Integration Services (SSIS) y un cierto uso alternativo de la fuente abierta, pero en la licencia de práctica que requiere el producto Talend en la "capa de acceso de datos" , una estructura de informes desnormalizada (implementada completamente en la base de datos básica de SQL Server) y SQL Server Reporting Services (SSRS) para automatizar en gran medida (según su habilidad) la producción de informes preespecificados. Tenga en cuenta que un "informe" de SSRS es simplemente una configuración/especificación XML (escalable) que se representa en tiempo de ejecución a través del motor SSRS. Las opciones como exportar a un archivo de Excel son opciones simples.

compromiso serio (algún compromiso humana significativa requerido)
Aviso anterior que aún tenemos que utilizar la minería de datos rebanar/dinámico/dados capacidades de SQL Server Analysis Services. Estamos trabajando para eso, , pero ahora nos enfocamos en mejorar la calidad de nuestra limpieza de datos en la "Capa de acceso a datos".

Espero que esto te ayude a tener una idea de por dónde empezar a buscar.

3

Pentaho ha reunido un conjunto bastante completo de productos. Los productos son "gratuitos", pero prepárese para la venta habitual habitual una vez que se desvía de su información de identificación.

No he tenido la oportunidad de realmente estirarlos, ya que somos una tienda de Microsoft de un lado triste al otro.

+0

¿Qué usas en tu tienda de microsoft? – reconbot

3

Creo que primero debería comprobar Kimball e Inmon y ver si desea acercarse a su almacén de datos de una manera particular. Kimball, en particular, establece un muy buen marco para el modelado y la construcción del almacén.

+1

Los libros de Data Warehouse de Kimball son probablemente uno de los pocos libros que necesitará. – Codewerks

+0

¡Lo es! Tengo The Data Warehouse Toolkit y es increíble. – reconbot

1

No se ha actualizado en mucho tiempo, pero hay un buen paquete Data Warehousing/ETL Ruby llamado ActiveWarehouse.

Pero me gustaría ver el Pentaho products como Nick mencionó en otra respuesta. Debe manejar fácilmente el volumen de datos que tiene y puede proporcionarle más formas de dividir y dividir sus datos de lo que nunca hubiera imaginado.

+0

Los chicos de Active Warehouse se vinculan a un gran artículo de Anothy Eden que ya no funciona, aquí está el archivo. http://web.archive.org/web/20070510141152/http://anthonyeden.com/2006/12/20/activewarehouse-example-with-rails-svn-logs – reconbot

0

Kimball es el método más simple para el almacenamiento de datos.

Utilizamos Informatica para mover datos, pero no hace cosas de DW como la indexación por defecto.
Me gusta la idea de Wherescape RED, como una herramienta DW y el uso de Servidores enlazados de MS SQL para obviar la necesidad de una herramienta ETL.

3

Hay una serie de herramientas que intentan realizar el proceso de diseño, implementación y administración/operación de un Almacén de Datos y cada una de ellas tiene sus puntos fuertes y sus puntos débiles y, a menudo, puntos de precio muy diferentes. Debajo de las coberturas, siempre serás mejor si tienes un buen conocimiento de los principios de enclaustramiento de guerra de los campos Kimball y/o Inmon.

Además de herramientas como Kalido y Wherescape RED (que hacen cosas similares de maneras muy diferentes), muchas de las plataformas ETL ahora tienen un buen soporte integrado para el trabajo de implementación: componentes SCD, etc. y seguimiento de linaje.

Lo mejor es ver todo esto como herramientas para ser usadas en las manos de usted, el artesano, hacen ciertas cosas fáciles aún más fáciles (o incluso triviales), algunas cosas difíciles son más fáciles pero algunas cosas simplemente se ponen en camino de mi humilde opinión;) Primero aprende la metodología y los principios y entérate bien de ellos y luego sabrás qué herramientas aplicar desde tu kitbag y cuándo ...

1

El mejor marco que puedes obtener actualmente es Anchor Modeling.
Puede parecer bastante complejo debido a su estructura genérica y capacidad incorporada para historizar datos.
También la técnica de modelado es bastante diferente de ERD.
pero termina en marcha con el código SQL para generar todos los objetos de base de datos, incluyendo vistas 3NF y:

  • inserción/actualización manejadas por disparadores
  • consulta cualquier punto/rango en la historia
  • le desarrolladores de aplicaciones no lo hará ver el modelo de anclaje 6NF subyacente.

La tecnología es de código abierto y por el momento es inmejorable.

Si tuviera una pregunta AM, es posible que desee preguntar sobre esa etiqueta .

Cuestiones relacionadas