Datawarehouse
Enviado por scairer • 26 de Septiembre de 2013 • 2.113 Palabras (9 Páginas) • 337 Visitas
1 INTRODUCCIÓN Y MOTIVACIONES
1.1 Introducción
En el mundo de la información en el que vivimos hoy en día, la información es poder.
Actualmente las organizaciones poseen muchos datos pero frecuentemente carecen de
información. Estos datos adquieren la categoría de información cuando se analizan para
dotarlos de una estructura inteligente. En la actualidad, poseer un conocimiento basado
en información comprensible, detallada y relevante es crucial para lograr y sostener una
ventaja competitiva. Para transformar los datos y convertirlos en información y a su vez,
transformar ésta para convertirla en conocimiento, se utilizan distintas técnicas y
procesos. A todo este proceso se le denomina Business Intelligence y el data warehouse
es uno de sus grandes pilares.
Inmon, uno de los iniciadores de la teoría de data warehouse, definió en sus comienzos
un data warehouse como: “Una colección de datos orientada a un dominio, integrado,
no volátil y variable en el tiempo que ayuda en la toma de decisiones en una
organización” [Inmon92]. Esta definición sigue siendo válida hoy en día, y debido al
gran auge que han tenido estos sistemas podría completarse diciendo que: “Es un
conjunto integrado de bases de datos que se diseña y utiliza para apoyar en la toma de
decisiones y en él cada unidad de datos es relevante en algún instante de tiempo,
además, contiene información no sólo de bases de datos relacionales, sino de otras
fuentes relacionadas con la actividad de la organización y cuya finalidad no sólo se
centra en el almacenamiento de esos datos, sino en su análisis y procesamiento mediante
los procesos encargados de su gestión para la obtención de información estructurada y
en definitiva útil para la toma de decisiones” [Delgado99].
Uno de los problemas que ha suscitado mayor interés en los últimos tiempos para
adquirir información de negocio es el problema de categorización de consultas lanzadas
a los motores de búsqueda (search engines) de los sites. Dar solución a este problema
requiere por un lado un soporte de datos robusto y por otro lado disponer de procesos de
Diseño del catálogo de metadatos para la automatización del proceso de carga de un data webhouse
3
análisis de la información cargada y enriquecida en esa base de datos o data warehouse.
A este tipo de data warehouse que almacenan información relativa a la web se les
denomina webhouse.
Un data warehouse no es solo la base de datos de soporte sino que está formado por
distintos componentes conformando una arquitectura integrada y flexible. En términos
generales, son tres los componentes que conforman la arquitectura del data warehouse:
i) el proceso de extracción, transformación y carga de los datos necesarios en el data
warehouse denominado en inglés ETL (Extract, Transform and Load), ii) los procesos
de gestión de datos, encargados de almacenar y procesar los datos en el data warehouse
y iii) los servicios de consulta y acceso a la información almacenada.
Desde la aparición del data warehouse en los años 80 el volumen de datos y el nivel de
detalle almacenado ha ido aumentando de forma exponencial y continúa creciendo. Dos
son al menos los factores que han favorecido este aumento, por un lado el desarrollo de
la tecnología y por otro la automatización de los procesos en las organizaciones. Esto
hace que aumenten los datos operacionales asociados a dichos procesos y
consecuentemente los datos que se pueden analizar y almacenar en estas bases de datos.
El enfoque tradicional que asume que el analista de datos está presente en el proceso de
carga del data warehouse no siempre es válido. El análisis de grandes volúmenes de
información hace que sea inviable la presencia del factor humano durante el proceso de
carga, por lo que hace necesario automatizar en la medida de lo posible los procesos que
manejan datos. Para automatizar estos procesos los sistemas deben disponer del
conocimiento necesario. En el ámbito de Data Mining, donde el objetivo de esta técnica
es la extracción de patrones a partir de grandes cantidades de información, no siempre
es posible realizar un análisis en tiempo real por parte del analista. Un ejemplo de esto
es el análisis de los datos que se generan como consecuencia de la navegación a través
de páginas Web por parte de los usuarios. En muchos casos la interacción con el usuario
depende en cierta medida de realizar un correcto análisis de estos datos y éste debe ser
un proceso automático. Esto supone extraer un conocimiento que se utilizará para tomar
Diseño del catálogo de metadatos para la automatización del proceso de carga de un data webhouse
4
decisiones respecto a los usuarios en el sentido de mejorar el servicio ofrecido, por
...