Colaborativo 3
nookien1428 de Noviembre de 2012
3.726 Palabras (15 Páginas)374 Visitas
301125A – BASES DE DATOS AVANZADA
301125A – BASES DE DATOS AVANZADA
TRABAJO COLABORATIVO 2
Grupo 17
Edwin Alfredo Galeano Barajas. Código 80223319
Julian Andres Miranda Código 80157461
Luis Fernando Muriel Delgado Código
William Harlington Hita Mendoza Código 80252572
Director
Anivar Néstor Cháves
UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA - UNAD
FACULTAD DE CIENCIAS BÁSICAS E INGENIERÍA
BOGOTA D.C.
2012
Tabla de contenido
INTRODUCCIÓN 3
1. MARCO DE REFERENCIA 4
1.1 Bodegas de datos 4
1.2 Minería de Datos: 5
2. DESCRIPCIÓN DEL SISTEMA ACTUAL 6
3. SISTEMA PROPUESTO………………………………………………………………9
3.1. Descripción del sistema propuesto……………………………………………..9
3.2. Objetivos…………………………………………………………………………..9
3.3. Ventajas para la organización….………………………………………………9
3.4. Metodología de implementación de la bodega de datos……………………10
3.5. Aplicación de minería de datos………………………….……………………13
3.6. Presupuesto……………………………………………………………………..16
3.7. Cronograma……………………………………………………………………..16
4. Conclusiones…………………………………………………………………………17
BIBLIOGRAFIA.………………………………………………………………...……18
INTRODUCCIÓN
El presente trabajo colaborativo tiene el propósito de afianzar los conocimientos adquiridos en los tres capítulos de la unidad 2 del módulo correspondientes a bodega de datos, minerías y herramientas de minería, con el fin que el estudiante interiorice los conceptos a través del análisis de un ejemplo práctico tomado en el trabajo colaborativo 1 de una droguería.
Para esto se desarrollará un modelo entidad relación del caso y realizará los análisis de la información de las tablas para realizar la fragmentación, réplica y almacenamiento local de la información, realizando los siguientes pasos:
• Descripción del problema actual, donde se establecen cuales son las desventajas y coyunturas que muestra el sistema utilizado para la toma de decisiones y de los riesgos que se tienen con el procesamiento de bases de datos distribuidas, como también del costo que genera poder contar con esta estructura en línea.
• Sistema propuesto, donde se establecen las notorias ventajas que permite manejar y tomar decisiones con una herramienta de business inteligencie, reduciendo la carga laboral al momento de armar informes para toma de decisiones, ofreciendo datos oportunos y exactos.
1. MARCO DE REFERENCIA
1.1 Bodegas de datos
Una bodega de datos (Data WareHouse) es un repositorio de datos de muy fácil acceso, alimentado de numerosas fuentes, transformadas en grupos de información sobre temas específicos de negocios, para permitir nuevas consultas, análisis, reporteador y decisiones.
La ventaja principal de este tipo de sistemas se basa en su concepto fundamental, la estructura de la información. Este concepto significa el almacenamiento de información homogénea y fiable, en una estructura basada en la consulta y el tratamiento jerarquizado de la misma, y en un entorno diferenciado de los sistemas operacionales.
El Data WareHouse se caracteriza por:
Integrado: los datos almacenados en el Data Warehouse deben integrarse en una estructura consistente, por lo que las inconsistencias existentes entre los diversos sistemas operacionales deben ser eliminadas. La información suele estructurarse también en distintos niveles de detalle para adecuarse a las distintas necesidades de los usuarios.
Temático: sólo los datos necesarios para el proceso de generación del conocimiento del negocio se integran desde el entorno operacional. Los datos se organizan por temas para facilitar su acceso y entendimiento por parte de los usuarios finales. Por ejemplo, todos los datos sobre clientes pueden ser consolidados en una única tabla del Data Warehouse. De esta forma, las peticiones de información sobre clientes serán más fáciles de responder dado que toda la información reside en el mismo lugar.
Histórico: el tiempo es parte implícita de la información contenida en un Data Warehouse. En los sistemas operacionales, los datos siempre reflejan el estado de la actividad del negocio en el momento presente. Por el contrario, la información almacenada en el Data Warehouse sirve, entre otras cosas, para realizar análisis de tendencias. Por lo tanto, el Data Warehouse se carga con los distintos valores que toma una variable en el tiempo para permitir comparaciones.
No volátil: el almacén de información de un Data Warehouse existe para ser leído, y no modificado. La información es por tanto permanente, significando la actualización del Data Warehouse la incorporación de los últimos valores que tomaron las distintas variables contenidas en él sin ningún tipo de acción sobre lo que ya existía.
1.2 Minería de Datos:
La minería de datos es una actividad que está a medio camino entre la Informática, la Estadística y la Documentación, y que se ha estado utilizando en numerosas disciplinas para el análisis de grandes cantidades de datos.
La minería de datos es el proceso de detectar la información procesable de los conjuntos grandes de datos. Utiliza el análisis matemático para deducir los patrones y tendencias que existen en los datos. Normalmente, estos patrones no se pueden detectar mediante la exploración tradicional de los datos porque las relaciones son demasiado complejas o porque hay demasiado datos.
Estos patrones y tendencias se pueden recopilar y definir como un modelo de minería de datos. Los modelos de minería de datos se pueden aplicar en escenarios como los siguientes:
Pronóstico: cálculo de las ventas y predicción de las cargas del servidor o del tiempo de inactividad del servidor.
Riesgo y probabilidad: elección de los mejores clientes para la distribución de correo directo, determinación del punto de equilibrio probable para los escenarios de riesgo, y asignación de probabilidades a diagnósticos y otros resultados.
Recomendaciones: determinación de los productos que se pueden vender juntos y generación de recomendaciones.
Búsqueda de secuencias: análisis de los artículos que los clientes han introducido en el carrito de la compra y predicción de posibles eventos.
Agrupación: distribución de clientes o eventos en grupos de elementos relacionados, y análisis y predicción de afinidades.
La generación de un modelo de minería de datos forma parte de un proceso mayor que incluye desde la formulación de preguntas acerca de los datos y la creación de un modelo para responderlas, hasta la implementación del modelo en un entorno de trabajo. Este proceso se puede definir mediante los seis pasos básicos siguientes:
a. Definir el problema: consiste en definir claramente el problema y considerar formas de usar los datos para proporcionar una respuesta para el mismo.
b. Preparar los datos: consiste en consolidar y limpiar los datos identificados en el paso Definir el problema.
c. Explorar los datos: consiste en explorar los datos preparados.
d. Generar modelos: consiste en generar el modelo o modelos de minería de datos. Usará los conocimientos adquiridos en el paso Explorar los datos para definir y crear los modelos.
e. Explorar y validar los modelos: consiste en explorar los modelos de minería de datos que ha generado y comprobar su eficacia.
f. Implementar y actualizar los modelos: consiste en implementar los modelos que funcionan mejor en un entorno de producción.
2. Descripción del Sistema Actual
Resaltar las limitaciones del sistema basado en bases de datos distribuidas y las necesidades de crear una bodega de datos y aplicar minería de datos.
Limitaciones del sistema de bases de datos distribuido:
2.1 El rendimiento puede ser peor para el procesamiento distribuido que para el procesamiento centralizado.
Depende de la naturaleza de la carga de trabajo, la red, el DDBMS y las estrategias utilizadas de concurrencia y de falla, así como las ventajas del acceso local a los datos y de los procesadores múltiples, ya que éstos pueden ser abrumados por las tareas de coordinación y de control requeridas.
Tal situación es probable cuando la carga de trabajo necesita un gran número de actualizaciones concurrentes sobre datos duplicados, y que deben estar muy
...