Mineria De Datos
gergarcia2130 de Mayo de 2012
3.265 Palabras (14 Páginas)766 Visitas
La minería de datos, consistente en la extracción de información oculta y predecible de grandes bases de datos, es una poderosa tecnología con gran potencial para ayudar a las compañías a concentrarse en la información más importante de sus bases de información.
Estas herramientas exploran las bases de datos en busca de patrones ocultos, encontrando información que un experto humano difícilmente encontraría, estableciendo relaciones y patrones de las cuales las empresas pueden obtener grandes beneficios.
El nombre de minería de datos deriva de las similitudes entre la búsqueda de valiosa información de negocios en grandes bases de datos y el hecho de minar una montaña para encontrar una veta de metales valiosos. Ambos procesos requieren examinar una inmensa cantidad de material, o investigar inteligentemente hasta encontrar exactamente dónde residen los valores.
Con sólo la ventaja de no duplicar la información y almacenar dicho cubo en disco; y las desventajas de buscar optimizar los tiempos necesarios para su cálculo, que dependería de la región de interés a analizar y el algoritmo que definiese el área de almacenamiento temporal.
Esto es un problema que se mantiene vigente y necesario de resolver [MingJiawei]. Aunado a este desafío existen otros como el de generar en forma automática los algoritmos de los procesos de extracción y carga de datos a la base de datos que se usa para la minería.
2. BODEGA DE DATOS ( Data Warehouse )
Es un conjunto de datos integrados o orientados a una materia, que varían con el tiempo y que no son transitorios, los cuales soportan el proceso de toma de decisiones de la administración y esta orientada al manejo de grandes volúmenes de datos provenientes de diversas fuentes o diversos tipos.
Estos datos cubren largos períodos de tiempo lo que trae consigo que se tengan diferentes esquemas de los datos fuentes, La concentración de esta información esta orientada a su análisis para apoyar la toma de decisiones oportunas y fundamentadas, Previo a su utilización se debe aplicar procesos de análisis, selección y transferencia de datos seleccionados desde las fuentes.
RIESGOS.
- Desactualización de esquemas a nuevas necesidades del negocio.
- Acceso no restringido a objetos de Data Warehouese.
- Respaldo de los datos almacenados
SISTEMA OPERATIVO
La bodega de datos se encuentra sobre la plataforma del sistema operativo. La seguridad representada en la disponibilidad, confidencialidad y controles de accesos y privilegios sobre las áreas de almacenamiento y procesamiento están en gran medida dependientes de esta plataforma.
Etapas
Definición de requerimientos
Definición de arquitectura
Presentación del proyecto
Análisis de proveedores,
Construcción RFP
Envío RFP
Evaluación
Contratación
Capacitación
Implementación
Ventajas:
1. Proporciona información clave para la toma de decisiones empresariales.
2. Mejora la calidad de las decisiones tomadas.
3. Especialmente útil para el medio y largo plazo.
4. Son sistemas relativamente sencillos de instalar si las fuentes de datos y los objetivos están claros.
5. Muy útiles para el almacenamiento de análisis y consultas de históricos.
6. Proporciona un gran poder de procesamiento de información.
7. Permite una mayor flexibilidad y rapidez en el acceso a la información.
8. Facilita la toma de decisiones en los negocios.
9. Las empresas obtienen un aumento de la productividad.
10. Proporciona una comunicación fiable entre todos los departamentos de la empresa.
11. Mejora las relaciones con los proveedores y los clientes.
12. Permite conocer qué está pasando en el negocio, es decir, estar siempre enterado de los buenos y malos resultados.
13. Transforma los datos en información y la información en conocimiento
14. Permite hacer planes de forma más efectiva.
15. Reduce los tiempos de respuesta y los costes de operación.
Datawarehouse proporciona una información de gestión
accesible, correcta, uniforme y actualizada. Proporciona un menor coste en la toma de decisiones, una mayor flexibilidad ante el entorno, un mejor servicio al cliente y permite el rediseño de los procesos.
Desventajas:
1. No es muy útil para la toma de decisiones en tiempo real debido al largo tiempo de procesamiento que puede requerir. En cualquier caso la tendencia de los productos actuales (junto con los avances del hardware) es la de solventar este problema convirtiendo la desventaja en una ventaja.
2. Requiere de continua limpieza, transformación e integración de datos.
3. Mantenimiento.
4. En un proceso de implantación puede encontrarse dificultades ante los diferentes objetivos que pretende una organización.
5. Una vez implementado puede ser complicado añadir nuevas fuentes de datos.
6. Requieren una revisión del modelo de datos, objetos, transacciones y además del almacenamiento.
7. Tienen un diseño complejo y multidisciplinar.
8. Requieren una reestructuración de los sistemas operacionales.
9. Tienen un alto coste.
10. Requieren sistemas, aplicaciones y almacenamiento específico.
Las empresas que utilizan data warehouse son fundamentalmente aquellas que manejan grandes volúmenes de datos relativos a clientes, compras, marketing, transacciones, operaciones. como lo son las empresas de telecomunicaciones, transporte, Turismo, fabricación de bienes de consumo masivo etc.
Caracterisitcas:
No volatil
Variable en el tiempo
Orientado a temas
Integrado- Datos consistentes
Favorece el analisis y divulgacion de datos especialmente OLAP ( procesamiento analitico en linea )
3¿Qué es una base de datos Centralizada?
Una base de datos centralizada es una base de datos almacenada en su totalidad en un solo lugar físico, es decir, es una base de datos almacenada en una sola maquina y en una sola CPU, en donde los usuarios trabajan en terminales "tontas" que solo muestran resultados.
Los sistemas de bases de datos centralizadas son aquellos que se ejecutan en un único sistema informático sin interaccionar con ninguna otra computadora. Tales sistemas comprenden el rango desde los sistemas de bases de datos mono usuarios ejecutándose en computadoras personales hasta los sistemas de bases de datos de alto rendimiento encuitándose en grandes sistemas.
Características de las bases de datos centralizadas.
Entre las características más resaltantes de las bases de datos centralizadas se encuentran las siguientes:
Se almacena completamente en una localidad central, es decir, todos los componentes del sistema residen en un solo computador o sitio.
No posee múltiples elementos de procesamiento ni mecanismos de intercomunicación como las bases de datos distribuidas.
Los componentes de las bases de datos centralizadas son: los datos, el software de gestión de bases de datos y los dispositivos de almacenamiento secundario asociados.
El problema de seguridad es inherentemente fácil en estos sistemas de bases de datos.
4
Una Base de Datos Distribuida es, una base de datos construida sobre una red computacional y no por el contrario en una máquina aislada.
La información que constituye la base de datos esta almacenada en diferentes sitios en la red,y las aplicaciones que se ejecutan accesan datos en distintos sitios. •
Una Base de Datos Distribuida entonces es una colección de datos que pertenecen lógicamente a un sólo sistema, pero se encuentra fisicamente esparcido en varios “sitios” de la red. •Un sistema de base de datos distribuidas se compone de un conjunto de sitios, conectados entre sí mediante algún tipo de red de comunicaciones, en el cual :
1. cada sitio es un sistema de base de datos en sí mismo, pero
2. los sitios han convenido en trabajar juntos ( si es necesario ) con el fin de que un usuario de cualquier sitio pueda obtener acceso a los datos de cualquier punto de la red tal como si todos los datos estuvieran almacenados en el sitio propio del usuario.
En consecuencia, la llamada “base de datos distribuida” es en realidad una especie de objeto virtual, cuyas partes componentes se almacenan físicamente en varias bases de datos “reales” distintas ubicadas en diferentes sitios. De hecho, es la unión lógica de esas bases de datos.
En otras palabras, cada sitio tiene sus propias bases de datos “reales” locales, sus propios usuarios locales, sus propios DBMS y programas para la administración de transacciones ( incluyendo programas de bloqueo, bitácoras, recuperació, etc ), y su propio administrador local de comunicación de datos ( administrador DC ).
En particular un usuario dado puede realizar operaciones sobre los datos en su propio sitio local exactamente como si ese sitio no participara en absoluto en el sistema distribuido ( al menos, ése es uno de los objetivos ). Así pues, el sistema de bases de datos distribuidas puede considerarse como una especie de sociedad entre los DBMS individuales locales de todos los sitios.
Un nuevo componente de software en cada sitio ( en el aspecto lógico, una extensión del DBMS local ) realiza las funciones de sociedad necesarias; y es la combinación de este
...