Mineria De Datos
ppbanana18 de Febrero de 2013
17.500 Palabras (70 Páginas)816 Visitas
Mineria de Datos
Vision general
Antes de entrar de lleno al tema de Mineria de datos(o Data Mining) tenemos que conocer el concepto de Data Warehouse que es la base para la minería de datos.
Las bases de datos de una empresa utilizan ordenadores como medio para organizar de forma ordenada sus datos o información deuna manera que sea comprensible para las personas ya que esta es un elemento principal para la toma de desiciones. Este proceso se llama Dara Warehousing. Se trata, sobre todo, de un expediente completo de una organización, más allá de la información transaccional y operacional, almacenado en una base de datos diseñada para favorecer el análisis y la divulgación eficiente de datos. El almacenamiento de los datos no debe usarse con datos de uso actual. Los almacenes de datos contienen a menudo grandes cantidades de información que se subdividen a veces en unidades lógicas más pequeñas dependiendo del subsistema de la entidad del que procedan o para el que sean necesario. La definición más conocida para el DW, fue propuesta por Bill Inmon en 1992: “Un DW es una colección de datos orientados a temas, integrados, no-volátiles y variante en el tiempo, organizados para soportar necesidades empresariales”.Dentro del proceso Data Warehousin se encuentra la minería de datos.
La minería de datos es la extracción de información oculta en grandes volúmenes de datos .A continuación otras deficniciones:
"La minería de datos es un proceso no trivial de identificación válida, novedosa, potencialmente útil y entendible de patrones comprensibles que se encuentran ocultos en los datos" según Usama Fayyad en 1996.
"Es la integración de un conjunto de áreas que tienen como propósito la identificación de un conocimiento obtenido a partir de las bases de datos que aporten un sesgo hacia la toma de decisión" segun Luis Carlos Molina .
Un concepto mas concreto seria que Data Mining o mineria de datos es el análisis de archivos y bitácoras de transaciones,trabaja a nivel de conocimiento obtenedo con el fin de descubrir patrones, relaciones, reglas, asociaciones o incluso excepsiones utiles para la toma de decisiones.
La minería de datos revela patrones o asocioaciones que usualmente eran desconocidos, a esto le podemos llamar “Descubrimiento de Conocimiento” ,que tiene sus inicios en el Aprendizaje Automatico , Estadistica, Inteligencia Artificial, entre otros.
Antecedentes
Desde los años sesenta los estadísticos manejaban términos como data fishing, data mining o data archaeology con la idea de encontrar correlaciones sin una hipótesis previa en bases de datos con ruido.
En los ochenta, Rakesh Agrawal, Gio Wiederhold, Robert Blum y Gregory Piatetsky-Shapiro, entre otros, empezaron a consolidar los términos de Data Mining. A finales de los años ochenta sólo existían un par de empresas dedicadas a esta tecnología; en 2002 existen más de 100 empresas en el mundo que ofrecen alrededor de 300 soluciones.
Estructura
Técnicas de MD
Análisis Preliminar de datos usando Query tools: el primer paso en un proyecto de data mining sería siempre un análisis de los datos usando query tools, aplicando una consulta SQL a un conjunto de datos, para rescatar algunos aspectos visibles antes de aplicar las técnicas. La gran mayoría de la información (un 80 %) puede obtenerse con SQL. El 20 % restante, mas importante, la información oculta requiere técnicas avanzadas.
Este primer análisis en SQL es para saber cual es la distribución de los valores posibles de los atributos. Recién después podemos ver la performance del algoritmo correspondiente.
Técnicas de Visualización: estas son buenas para ubicar patrones en un conjunto de datos y puede ser usado al comienzo de un proceso de data mining para tomar un feeling de la calidad del conjunto de datos.
Árbol de Decisión: son estructuras en forma de árbol que representan conjuntos de decisiones. Estas decisiones generan reglas para la clasificación de un conjunto de datos. Para poder predecir el comportamiento de un cliente es necesario poder contar con una clasificación previa esto implica una predicción de que un cliente pertenece a cierto grupo de clientes. La complejidad es de n (Log n).
Métodos específicos de árboles de decisión incluyen:
- CART Árboles de clasificación y regresión: técnica usada para la clasificación de un conjunto da datos. Provee un conjunto de reglas que se pueden aplicar a un nuevo (sin clasificar) conjunto de datos para predecir cuáles registros darán un cierto resultado. Segmenta un conjunto de datos creando 2 divisiones. Requiere menos preparación de datos que CHAID.
- CHAID Detección de interacción automática de Chi cuadrado: técnica similar a la anterior, pero segmenta un conjunto de datos utilizando tests de chi cuadrado para crear múltiples divisiones.
Reglas de Asociación: establece asociaciones en base a los perfiles de los clientes sobre los cuales se está realizando el data mining. Las reglas de Asociación están siempre definidas sobre atributos binarios. No es muy complicado generar reglas en grandes bases de datos. El problema es que tal algoritmo eventualmente puede dar información que no es relevante. Data Mining envuelve modelos para determinar patterns a partir de los datos observados. Los modelos juegan un rol de conocimiento inferido. Diciendo cuando el conocimiento representa conocimiento útil o no, esto es parte del proceso de extracción de conocimiento en bases de datos (Knowledge Discovery in Databases-KDD).
Algoritmos Genéticos: son técnicas de optimización que usan procesos tales como combinaciones genéticas, mutaciones y selección natural en un diseño basado en los conceptos de evolución.
Redes Bayesianas: buscan determinar relaciones causales que expliquen un fenómeno en base a los datos contenidos en una base de datos. Se han usado principalmente para realizar predicción.
Procesamiento Analítico en Línea (OLAP): estas herramientas ofrecen un mayor poder para revisar, graficar y visualizar información multidimensional, en características temporales, espaciales o propias. Se valen de lenguajes menos restringidos y estructurados como lo es SQL. Requieren todavía de una alta participación de un usuario humano, pues son interactivas y requieren la guía del experto.
Redes neuronales artificiales: son modelos predecibles, no lineales que aprenden a través del entrenamiento y semejan la estructura de una red neuronal biológica.
Método del vecino más cercano: una técnica que clasifica cada registro en un conjunto de datos basado en una combinación de las clases de k registro/s más similar/es a él en un conjunto de datos históricos. Algunas veces se llama la técnica del vecino k-más cercano.
Regla de inducción: la extracción de reglas if-then de datos basados en significado estadístico.
La técnica usada para realizar estas hazañas en Data Mining se llama Modelado: es simplemente el acto de construir un modelo en una situación donde usted conoce la respuesta y luego la aplica en otra situación de la cual desconoce la respuesta.
La minería de datos, es un proceso que invierte la dinámica del método científico, dado que se generan hipótesis a partir de los datos colectados.
Las técnicas de Minería de datos combinan la tecnología de bases de datos y “data warehousing”, con técnicas de aprendizaje automático y de estadística.
La estadística es una herramienta poderosa, y es un elemento crucial en el análisis de datos. Sin embargo, a veces enfrentamos problemas muy serios en la interpretación de sus resultados, dado que no recordamos que estos resultados se aplican a grupos y no a individuos. Estos peligros se ven amplificados en el uso de software de Minería de Datos.
La Minería de Datos es una herramienta explorativa y no explicativa. Es decir, explora los datos para sugerir hipótesis. Es incorrecto aceptar dichas hipótesis como explicaciones o relaciones causa-efecto. Es necesario coleccionar nuevos datos y validar las hipótesis generadas ante los nuevos datos, y después descartar aquellas que no son confirmadas por los nuevos datos.
La Minería de Datos no puede ser experimental. En muchas circunstancias, no es posible reproducir las condiciones que generaron los datos (especialmente si son datos del pasado, y una variable es el tiempo).
Las Bases de Datos proporcionan la infraestructura necesaria para almacenar, recuperar y manipular datos. La construcción y mantenimiento de una Bodega de Datos (Data Warehouse), a pesar de que esta es una Base de Datos, su modo de operar es muy distinto, para soportar transacciones y la actividad de negocio en línea, además hace viable la revisión y el análisis de su información para el apoyo a las decisiones ejecutivas. Típicamente, el Data Warehouse almacena y resume información sobre transacciones cotidianas a lo largo del tiempo. Puede que contenga información que ya no es posible reproducir del sistema para la operación cotidiana, es información arcaica pero útil por su crónica histórica del funcionar. Las consultas a la bodega no son tan sistemáticas como las transacciones y usualmente demandan más recursos de cómputo. Resulta incluso conveniente separar los equipos y sistemas de la operación cotidiana de transacciones en línea de la Bodega de Datos. Ir a Contenido
Algoritmos de Minería de Datos
Se clasifican en dos grandes categorías: supervisados o predictivos y no supervisados o de descubrimiento del conocimiento [Weiss y Indurkhya,
...