ClubEnsayos.com - Ensayos de Calidad, Tareas y Monografias
Buscar

DEFINICION DATA WAREHOUSING


Enviado por   •  26 de Junio de 2019  •  Tareas  •  2.601 Palabras (11 Páginas)  •  96 Visitas

Página 1 de 11

DEFINICION DATA WAREHOUSING

El término lo acuñó W. H. Inmon, quien describió un almacén de datos como “una colección de datos orientada a sujeto, integrada, no volátil, variable en el tiempo que se utiliza principalmente en toma de decisiones organizacionales” (Inmon, 2002).

Un almacén de datos se establece para aplicaciones que apoyan decisiones, y no para procesamiento de transacciones ordinarias. Está optimizado para recuperación de datos, en oposición a procesamiento de transacciones.

Los almacenes de datos soportan  el procesamiento analítico en línea (OLAP) que es la forma en la que toman sus decisiones.

Los datos en un almacén de datos se pueden llevar directamente de bases de datos operativas múltiples, en diferentes periodos (datos históricos) y también pueden incluir datos de otras fuentes, datos resumidos y metadatos. Las fuentes pueden tener distintos modelos o estándares, pero el almacén de datos integra los datos de modo que los usuarios ven un modelo consistente. El almacén de datos por lo general contiene una cantidad muy grande de datos, y está optimizado para procesamiento eficiente de consultas y presentación de resultados para apoyo de decisiones. Las actualizaciones no son tan frecuentes como lo son en las bases de datos operativas, pero se realizan de manera periódica.

Las aplicaciones OLAP por lo general deben pasar a través de grandes cantidades de datos para producir resultados. Los analistas examinan los datos almacenados en el almacén usando consultas complejas, que generalmente involucran operadores de agrupación y agregación. Pueden hacer análisis en series de tiempo usando datos históricos.

El minado de datos es el proceso de descubrir nueva información mediante búsqueda de grandes cantidades de datos. El propósito es descubrir patrones o tendencias en los datos que serán útiles para la organización.

        

        

ARQUITECTURA DE UN ALMACÉN DE DATOS

Un almacén de datos debe diseñarse para apoyar consultas ad hoc y nuevos
y no anticipados tipos de análisis.

        Arquitectura típica de un almacén de datos[pic 1]

Los datos se toman de fuentes de datos, que pueden incluir bases de datos operativos múltiples, otras entradas como archivos independientes y datos ambientales como información geográfica o datos financieros. Los datos se deben extraer de las fuentes con el empleo de herramientas externas al sistema que puedan acomodar las diferencias entre las fuentes heterogéneas. Los datos se reformatean en un formato consistente.

Los datos también se pueden verificar para integridad y validez, un proceso llamado limpieza de datos, para asegurar su calidad antes de cargarlos en el almacén. Luego los datos se ponen en el modelo de datos para el almacén y carga. El proceso de carga es una transacción larga, pues por lo general está involucrado un gran volumen de datos, de modo que el sistema debe usar herramientas de gestión de transacción para garantizar recuperación adecuada en el evento de falla durante la transacción de carga. El sistema de gestión de base de datos que soporta al almacén de datos tiene un catálogo de sistema que almacena metadatos, así como otros componentes del sistema de la base de datos. Luego el almacén de datos se usa para soportar consultas para OLAP, con el fin de proporcionar información para sistemas de apoyo de decisiones que usan los administradores para toma de decisiones estratégicas, y a fin de proporcionar los datos para las herramientas de minado de datos que descubren nueva información acerca de patrones en los datos. Ciertos segmentos de los datos están organizados en subconjuntos llamados data marts (“mercado” de datos, subconjunto de información de un DatawareHouse), que se enfoca en sujetos específicos. Todos estos usos pueden resultar en nuevo conocimiento, que luego se puede usar como una fuente de datos desde la que se pueden formatear datos y ponerlos en el almacén. Los datos de todas las fuentes se deben refrescar de manera periódica. Si hay suficiente espacio de almacenamiento, los nuevos datos simplemente se agregan al almacén existente, y los datos antiguos se mantienen en tanto sean útiles. De otro modo, los datos que ya no se usan más se purgan de manera periódica, y se agregan nuevos datos. La frecuencia y ámbito de las actualizaciones depende del entorno. Los factores que se deben considerar para decidir la política de actualización incluyen cuánto almacenamiento está disponible, si el almacén necesita datos recientes, si puede estar fuera de línea durante la regeneración, y cuánto tardará el proceso para transmitir los datos, limpieza, formateo, carga y construcción de índices. La política usual es hacer una regeneración parcial de manera periódica.

CUBOS MULTIDIMENSIONALES

El almacén de datos en sí debe usar un solo modelo consistente que aloje las necesidades de los usuarios. Los almacenes de datos generalmente usan un modelo multidimensional. Los datos se pueden considerar como residentes en una matriz multidimensional llamada cubo de datos figura 1.1.

Cubo de datos tridimensional llamado Ventas.[pic 2][pic 3]

En el frente, la cara visible del cubo, se ven cifras de ventas para el mes de junio en cuatro departamentos (lácteos, abarrotes, vegetales, farmacia) en tres supermercados (store 1, store 2, store 3). Note que todas las tiendas tienen estos mismos cuatro departamentos. Las cifras pueden representar ventas en miles de dólares. Los datos de ventas para cada mes aparecen en forma de hoja de cálculo, que es un estilo de presentación que sería familiar para muchos usuarios. La tercera dimensión en este ejemplo es el tiempo, como se indica mediante las etiquetas para los meses de junio, julio, agosto, septiembre y octubre. Las cifras de ventas de cada mes para cada departamento en cada supermercado aparecen en una celda en la matriz tridimensional. Los usuarios pueden ver los datos por cualquier dimensión de interés para ellos.

Por ejemplo, si un usuario quiere ver datos acerca de las ventas para cada departamento, el cubo puede pivotear o rotar para mostrar una dimensión de interés diferente, como se muestra en la figura 1.2. [pic 4][pic 5]

Aquí, la cara visible del cubo muestra las ventas del departamento de lácteos para los meses de junio a octubre para cada uno de los tres supermercados. Si rota sobre otro eje, podría examinar datos para cada tienda. La cara frontal del cubo mostraría, para una sola tienda, las ventas para cada departamento durante cada mes.

...

Descargar como (para miembros actualizados)  txt (16.4 Kb)   pdf (267.5 Kb)   docx (272.2 Kb)  
Leer 10 páginas más »
Disponible sólo en Clubensayos.com