ClubEnsayos.com - Ensayos de Calidad, Tareas y Monografias
Buscar

DATA MINING Y DATA WAREHOUSE

random0516 de Junio de 2015

3.716 Palabras (15 Páginas)256 Visitas

Página 1 de 15

DATA MINING Y DATA WAREHOUSE

TECNOLOGIA OLAP (ON-LINE ANALYSIS PROCESING)

INTRODUCCIÓN

La explotación de sistemas DataWarehouse a través de datos obtenidos directamente de sistemas transaccionales, OLTP (On-line Transaction Processing), se basa fundamental y básicamente en estructuras agrupadas o información previamente pre-calculada y procesada. La información reportada está compuesta y gestionada desde conceptos basados en datos agregados y coeficientes de gestión, que los cuadros directivos de la organización pueden definir y consultar según las dimensiones de negocio que se definan o el área a la que pertenezca.

Implementar un sistema de business intelligence significa encontrar el punto de equilibrio entre dos extremos: implementación independiente de las unidades de la organización y la arquitectura de almacenamiento de datos definida por los IT departamentales. Por un lado los IT departamentales deben aceptar que el hecho de que ellos no puedan suministrar las visiones del usuario final con la premura requerida sin incorporar tecnología OLAP. Por otro lado los directivos deben aprender a reconocer el valor de tener un ‘repositorio común’ del que leer todos los indicadores y toda la terminología que cruza todos los datos de todos los departamentos. Únicamente un DataWarehouse puede proveer esta consistencia.

DEFINICION

El procesamiento analítico en línea (OLAP, Online Analytical Processing) es una tecnología que se usa para organizar grandes bases de datos empresariales y admitir la inteligencia empresarial. Las bases de datos OLAP se dividen en uno o más cubos. Cada cubo lo organiza y diseña un administrador de cubos para que se adapte a la forma en la que recupera y analiza los datos con el fin de que sea más fácil crear y usar los informes de las tablas dinámicas y los gráficos dinámicos que necesite.

CARACTERISTICAS

Los sistemas de soporte a la decisión usando tecnologías de DataWarehouse, se llaman sistemas OLAP (On Line Analytical Processing). En general, estos sistemas OLAP deben:

• Soportar requerimientos complejos de análisis

• Analizar datos desde diferentes perspectivas

• Soportar análisis complejos contra un volumen ingente de datos

La principal características de los sistemas OLAP es que son entornos especialmente diseñados para la ejecución de análisis multidimensionales de los datos corporativos, que soportan amigablemente los análisis de cualquier usuario así como las posibilidades de navegación, seleccionando la información a obtener, permitiendo el análisis de datos segmentados y que permiten ir reduciendo el conjunto de datos reportados.

Este tipo de selecciones se refleja en la visualización de la estructura multidimensional, mediante unos campos de selección que nos permitan elegir el nivel de agregación (jerarquía) de la dimensión, y/o la elección de un dato en concreto, pudiendo con ello realizar, entre otras, las acciones de rotar, bajar atributos, navegar, expandir o colapsar los datos mostrados

PRODUCTOS OLAP

Este es resumen de la historia de los productos OLAP

Año Evento

1962 Publication of A Programming Language by Ken Iverson

1984 Metaphor Launched

1990 Cagnos PowerPlay Launched

1992 Essbase Launched

1995 Oracle Acquired Express

2000 XML for Analysis Announced

2003 The year of consolidation

2005 Microsoft to ship the much-delayed SQL Server 2005

VENTAJAS

• Menos Tráfico de Datos y Latencia—Con Oracle OLAP ya no es necesario replicar los datos en un servidor autónomo OLAP de propiedad exclusiva, porque todos los datos multidimensionales se almacenan directamente en el motor relacional de Oracle Database. Quienes toman las decisiones disfrutan de un acceso mucho más rápido a información de mayor calidad.

• Menos Costos y Complejidad de TI—Oracle OLAP le permite reducir los costos y simplificar drásticamente su entorno informático. Con Oracle OLAP desaparece la necesidad de adquirir más hardware, sólo hay que mantener un único servidor y modelo de seguridad. Oracle OLAP también permite el acceso SQL a tipos de datos multidimensionales, lo que permite rentabilizar la inversión anterior en herramientas, aplicaciones y conocimientos de SQL.

• Análisis a Escala—Empresarial con Grid Computing—Simplemente proporcionar acceso a datos a los encargados de las decisiones no tiene sentido si los datos no están disponibles. Oracle OLAP y Oracle Real Applications Clusters combinados constituyen los cimientos de las grandes bases de datos multidimensionales (VLDM), que suministran acceso continuo a la información a miles de usuarios a la vez.

OPERACIONES EN OLAP

1. Vistas multidimensionales. Manejo y organización conceptual y física de la información en forma multidimensional.

2. Transparencia. Capacidad para acceder a datos de otras fuentes (por ejemplo planillas de cálculo), de manera sencilla y transparente.

3. Accesibilidad. Habilidad para obtener información completa y estructurada de fuentes externas de datos tales como bases de datos relacionales, archivos planos, etc.

4. Desempeño y consistencia. El número de dimensiones utilizadas en el sistema no debe degradar el desempeño del sistema, ni tampoco afectar la consistencia de la información.

5. Cliente/servidor. Las herramientas deben poder operar en ambientes cliente/servidor.

6. Dimensionalidad genérica. Cada dimensión deberá ser tratada de igual manera.

7. Uso eficiente del almacenamiento. Manejo eficiente de la porosidad (sparseness) de la base multidimensional, para ocupar la mínima cantidad de espacio. Por "porosidad" se entiende la manera en la que herramienta maneja el espacio requerido para almacenar la información multidimensional; este punto es muy importante ya que, debido a la estructura de los datos en las bases multidimensionales se cuenta con muchos "celdas" o campos vacíos. Un buen manejo de la porosidad implica que la herramienta es capaz de detectar las celdas vacías, y hacer eficiente el espacio que éstos requieren.

8. Soporte a múltiples usuarios. Permitir el acceso de múltiples usuarios al mismo tiempo al mismo modelo.

9. Operaciones entre dimensiones sin límite. Capacidad para realizar operaciones entre varias dimensiones sin ningún tipo de restricción.

10. Manipulación intuitiva de datos. Capacidad de navegación a través de los datos, dimensiones y jerarquías de la base mediante una interfaz de usuario fácil de usar.

11. Producción flexible de reportes. Utilitarios para la creación rápida de reportes, consultas y gráficos.

12. Capacidad ilimitada para dimensiones y relaciones (jerarquías). Capacidad para manejar un número ilimitado de jerarquías, relaciones y dimensiones de los datos.

EJEMPLOS

Por ejemplo, un cálculo con nombre que defina un valor booleano para resolver incidentes calcula el valor como verdadero si el estado de un incidente es resuelto o cerrado. Mediante el cálculo con nombre, Service Manager puede definir una medida para mostrar información útil, como el porcentaje de incidentes resueltos, el número total de incidentes resueltos y el número total de incidentes no resueltos.

Otro ejemplo rápido de un cálculo con nombre es Releases Implemented On Schedule. Este cálculo con nombre proporciona una comprobación rápida del estado de mantenimiento en el número de registros de versión donde la fecha de finalización real es inferior o igual a la fecha de finalización programada.

BIBLIOGRAFIA

http://www.informatica-hoy.com.ar/telefonos-celulares/Cubo-OLAP-una-base-de-datos-multidimensional.php

http://todobi.blogspot.com/2005/11/la-historia-de-los-productos-olap.html

http://www.informatica-hoy.com.ar/telefonos-celulares/Cubo-OLAP-una-base-de-datos-multidimensional.php

http://exa.unne.edu.ar/depar/areas/informatica/SistemasOperativos/OLAP.pdf

ROLAP

INTRODUCCION

La arquitectura ROLAP, accede a los datos almacenados en un Data Warehouse para proporcionar los análisis OLAP. La premisa de los sistemas ROLAP es que las capacidades OLAP se soportan mejor contra las bases de datos relacionales.

Después de que el modelo de datos para el Data Warehouse se ha definido, los datos se cargan desde el sistema operacional. Se ejecutan rutinas de bases de datos para agregar el dato, si así es requerido por el modelo de datos.

Se crean entonces los índices para optimizar los tiempos de acceso a las consultas.

Los usuarios finales ejecutan sus análisis multidimensionales, a través del motor ROLAP, que transforma dinámicamente sus consultas a consultas SQL. Se ejecutan estas consultas SQL en las bases de datos relacionales, y sus resultados se relacionan mediante tablas cruzadas y conjuntos multidimensionales para devolver los resultados a los usuarios.

La arquitectura ROLAP es capaz de usar datos precalculados si estos están disponibles, o de generar dinámicamente los resultados desde los datos elementales si es preciso. Esta arquitectura accede directamente a los datos del Data Warehouse, y soporta técnicas de optimización de accesos para acelerar las consultas. Estas optimizaciones son, entre otras, particionado de los datos a nivel de aplicación, soporte a la desnormalización y joins múltiples.

...

Descargar como (para miembros actualizados) txt (26 Kb)
Leer 14 páginas más »
Disponible sólo en Clubensayos.com