Metodologia De Kimball
geanbaila17 de Octubre de 2013
3.415 Palabras (14 Páginas)675 Visitas
Rivadera: La Metodología de Kimball para el Diseño de almacenes…
56
La metodología de Kimball para el diseño de almacenes de
datos (Data warehouses)
Gustavo R. Rivadera*
grivadera@ucasal.net
Resumen
Los almacenes de datos (data warehouses en inglés) toman cada
día mayor importancia, a medida que las organizaciones pasan de
esquemas de sólo recolección de datos a esquemas de análisis de los
mismos. Sin embargo a pesar de la gran difusión de los conceptos
relacionados con los almacenes de datos, no existe demasiada
información disponible en castellano en cuanto a las metodologías para
implementarlos. En este breve artículo intentaremos brindar una
explicación general de una de las metodologías más usadas, la
metodología de Kimball.
Palabras Claves: Metodologías de implementación de almacenes de
datos- Almacenes de datos - Metodología de Kimball
1. Introducción
Un almacén de datos (data warehouse, DW) según Inmon (Inmon
02, Imhoff & Galemmo 03), es una colección de datos orientada a un
determinado ámbito (empresa, organización, etc.), integrado, no volátil y
variable en el tiempo, que ayuda a la toma de decisiones en la entidad
en la que se utiliza. Se trata, sobre todo, de un historial completo de la
organización, más allá de la información transaccional y operacional,
almacenado en una base de datos diseñada para favorecer el análisis y
la divulgación eficiente de datos (especialmente con herramientas
OLAP, de procesamiento analítico en línea). Por otra parte Kimball
(Kimball 98) la define como “una copia de los datos transaccionales
estructurados específicamente para consultas y análisis”. Actualmente
* Ingeniero en Computación, desarrollador independiente de software, analista del Ministerio
Público de la Provincia de Salta, docente de las Cátedras de Modelos y Simulación, Análisis
Estratégico de Datos y Bases de Datos III, en la Facultad de Ingeniería e Informática, UCASAL.
Actualmente cursa la Maestría en Ingeniería del Software en el Instituto Tecnológico de Buenos
Aires (ITBA).
Cuadernos de la Facultad n. 5, 2010
57
uno de los mayores impedimentos para construir este tipo de
almacenes de datos es la falta de conocimiento de metodologías
adecuadas para su implementación, y la disciplina para cumplirlas. En
este breve artículo describiremos la metodología más utilizada
actualmente: la metodología de Kimball†.
2. Metodologías actuales
Existen muchas metodologías de diseño y construcción de DW.
Cada fabricante de software de inteligencia de negocios busca imponer
una metodología con sus productos. Sin embargo, se imponen entre la
mayoría dos metodologías, la de Kimball y la de Inmon. Para
comprender la mayor diferencia entre estas dos metodologías, debemos
explicar además de la noción de DW mencionando en la introducción, la
idea de Data mart. Un Data mart (Kimball et al 98) es un repositorio de
información, similar a un DW, pero orientado a un área o departamento
específico de la organización (por ejemplo Compras, Ventas, RRHH,
etc.), a diferencia del DW que cubre toda la organización, es decir la
diferencia fundamental es su alcance.
Desde el punto de vista arquitectónico, la mayor diferencia entre
los dos autores es el sentido de la construcción del DW, esto es
comenzando por los Data marts o ascendente (Bottom-up, Kimball) o
comenzando con todo el DW desde el principio, o descendente (Top-
Down, Inmon).
Por otra parte, la metodología de Inmon se basa en conceptos
bien conocidos del diseño de bases de datos relacionales (Inmon 02,
Imhoff & Galemmo 03); la metodología para la construcción de un
sistema de este tipo es la habitual para construir un sistema de
información, utilizando las herramientas habituales, al contrario de la de
Kimball, que se basa en un modelado dimensional (no normalizado)
(Kimball et al 98, 08).
3. ¿Cuál metodología adoptar?
Pensamos que la metodología más acorde a los negocios de
nuestra región es la de Kimball, por cuanto proporciona un enfoque de
menor a mayor, muy versátil, y una serie de herramientas prácticas que
† En este artículo se han consultado las siguientes referencias técnicas para la metodología de
Kimball: Mundy & Thornthwaite 2006, Kimball et al 1998, Kimball & Caserta 2004, Kimball & Ross
2002, Kimball & Merz 2000, Kimball & Ross 2010.
Rivadera: La Metodología de Kimball para el Diseño de almacenes…
58
ayudan a la implementación de un DW. Es acorde a nuestras empresas
porque se pueden implementar pequeños datamarts en áreas
especificas de las mismas (compras, ventas, etc.), con pocos recursos y
de poco irlos integrándolos en un gran almacén de datos. Por tanto,
detallaremos esta metodología en lo que resta de este artículo.
4. La metodología de Kimball en detalle
La metodología se basa en lo que Kimball denomina Ciclo de Vida
Dimensional del Negocio (Business Dimensional Lifecycle) (Kimball et al
98, 08, Mundy & Thornthwaite 06). Este ciclo de vida del proyecto de
DW, está basado en cuatro principios básicos:
Centrarse en el negocio: Hay que concentrarse en la identificación
de los requerimientos del negocio y su valor asociado, y usar
estos esfuerzos para desarrollar relaciones sólidas con el negocio,
agudizando el análisis del mismo y la competencia consultiva de
los implementadores.
Construir una infraestructura de información adecuada: Diseñar
una base de información única, integrada, fácil de usar, de alto
rendimiento donde se reflejará la amplia gama de requerimientos
de negocio identificados en la empresa.
Realizar entregas en incrementos significativos: crear el almacén
de datos (DW) en incrementos entregables en plazos de 6 a 12
meses. Hay que usa el valor de negocio de cada elemento
identificado para determinar el orden de aplicación de los
incrementos. En esto la metodología se parece a las metodologías
ágiles de construcción de software.
Ofrecer la solución completa: proporcionar todos los elementos
necesarios para entregar valor a los usuarios de negocios. Para
comenzar, esto significa tener un almacén de datos sólido, bien
diseñado, con calidad probada, y accesible. También se deberá
entregar herramientas de consulta ad hoc, aplicaciones para
informes y análisis avanzado, capacitación, soporte, sitio web y
documentación.
Cuadernos de la Facultad n. 5, 2010
59
La construcción de una solución de DW/BI
(Datawarehouse/Business Intelligence) es sumamente compleja, y
Kimball nos propone una metodología que nos ayuda a simplificar esa
complejidad. Las tareas de esta metodología (ciclo de vida) se muestran
en la figura 1.
Planificación
del Proyecto
Definición de
Requerimientos del
Negocio
Diseño De La
arquitectura
técnica
Selección de
Productos e
Implementación
Modelado
Dimensional
Especificación
de aplicaciones
de BI
Diseño Físico
Diseño e
Implementación
del Subsistema
de ETL
Implementación
Crecimiento
Mantenimiento
Administración del Proyecto de DW/BI
Desarrollo de
aplicaciones de
BI
Fig. 1: Tareas de la metodología de Kimball, denominada Business
Dimensional Lifecycle (Kimball et al 98, 08, Mundy & Thornthwaite 06)
De la figura 1, podemos observar dos cuestiones. Primero, hay
que resaltar el rol central de la tarea de definición de requerimientos.
Los requerimientos del negocio son el soporte inicial de las tareas
subsiguientes. También tiene influencia en el plan de proyecto (nótese
la doble fecha entre la caja de definición de requerimientos y la de
planificación). En segundo lugar podemos ver tres rutas o caminos que
se enfocan en tres diferentes áreas:
Tecnología (Camino Superior). Implica tareas relacionadas con
software específico, por ejemplo, Microsoft SQL Analysis Services.
Datos (Camino del medio). En la misma diseñaremos e
implementaremos el modelo dimensional, y desarrollaremos el
subsistema de Extracción, Transformación y Carga (Extract,
Transformation, and Load - ETL) para cargar el DW.
Aplicaciones de Inteligencia de Negocios (Camino Inferior). En
esta ruta se encuentran tareas en las que diseñamos y
desarrollamos las aplicaciones de negocios para los usuarios
finales.
Rivadera: La Metodología de Kimball para el Diseño de almacenes…
60
Estas rutas se combinan cuando se instala finalmente el sistema.
En la parte de debajo de la figura se muestra la actividad general de
administración del proyecto. A continuación describiremos cada una de
las
...