Minería De Datos: Conceptos Y Aplicaciones

vezuritam22 de Enero de 2015

2.464 Palabras (10 Páginas)227 Visitas

Página 1 de 10

Recibido: 21 de enero de 2013. Aceptado: 15 de abril de 2013.

Resumen Se presenta la miner´ıa de datos como un conjunto de t´ecnicas para obtener informaci´on u´til y no evidente en datos de diversos tipos. Primero se revisa el concepto y su evoluci´on, para repasar varias de las aplicaciones actuales y describir su potencial. Especialmente en Internet. La conclusi´on principal es la importancia de su desarrollo y la formaci´on de profesionales en esta ´area.

Palabras clave: miner´ıa de datos, bases de datos, inteligencia artiﬁcial.

1. Introduccio´n En el an˜o 1889, Herman Hollerit patento´ en los Estados Unidos de Am´erica una m´aquina tabuladora autom´atica, que le´ıa tarjetas perforadas. Los patrones registrados en las tarjetas disingu´ıan los diferentes aspectos en los registros de personas. El objetivo del invento fue procesar la informaci´on del censo de 1890 en ese pa´ıs, gracias a lo cual fue posible realizar esta tarea en un an˜o en lugar de casi una d´ecada que se requer´ıa en el procesamiento manual. Esta referencia la podemos considerar como el primer desarrollo de una herramienta maquinal para procesar gran cantidad de datos, lo cual constituye uno de los principios fundamentales de la miner´ıa de datos.

Como concepto, la miner´ıa de datos se utiliza de la manera que se entiende en la actualidad hasta principios de 1990. Pretende una analog´ıa con el proceso de extraer materiales valiosos en una mina: En ´esta hay gran cantidad de materiales (datos), que se procesan de forma extensa para obtener esas menores cantidades de material precioso buscado y que no era visible en el conjunto original (informacio´n u´til). En el caso de la m´aquina de Hollerit, la miner´ıa, en su estado primitivo, consistio´ en llegar a conclusiones num´ericas b´asicas, con la ventaja del tiempo que fue posible obtenerlas. La tabla 1 resume la evoluci´on de las tecnolog´ıas utilizadas y las caracter´ısticas del concepto desde 1960. La caracter´ıstica actual de ser prospectiva se reﬁere a su utilizacio´n para prever resultados futuros, lo cual es de sumo inter´es para la toma de decisiones en mercados dina´micos y de alta competencia, como los que se desarrollan en Internet. Como se describira´ en la secci´on 3, los desarrolladores y empresas que funcionan en la red Internet tienen gran inter´es en los resultados que estas t´ecnicas pueden ofrecer.

El proceso de miner´ıa de datos es visto como una evoluci´on natural de la tecnolog´ıa de la informaci´on, en el que la informaci´on se extrae de bases y almacenes de datos. La funcionalidad de los resultados buscados con ´esta se pueden clasiﬁcar en dos grandes categor´ıas [1]:

1. Funcionalidades descriptivas: Enfocadas en buscar patrones en los datos que puedan ser interpretables por el ser humano. Por ejemplo, caracterizaciones (generalidades de los datos), an´alisis de asociaciones (reglas presentes en el conjunto) o de agrupamientos (subconjuntos semejantes de datos) no evidentes. 2. Funcionalidades predictivas: Enfocadas en buscar predicciones basadas en inferencias, generalmente sobre modelos abstractos. Por ejemplo, clasiﬁcaci´on y regresi´on (modelos que describan y distingan subconjuntos de datos).

En la secci´on 3 se detallan varios ejemplos concretos de cada uno de estos tipos.

Una distincio´n que plantea el obtener datos adicionales, a manera de informaci´on u´til, de tener solamente los datos, es el valor que ´estos tienen. Contar con gran cantidad de datos, por ejemplo un banco sobre sus clientes, no garantiza que sea de utilidad para alcanzar o mejorar los objetivos de la entidad, a menos que se pueda extraer de esa informaci´on algo u´til sobre lo que se pueda tomar decisiones y despu´es evaluarlas. La cantidad de informaci´on puede ser m´as bien un obsta´culo si no se cuenta con las t´ecnicas y capacidad adecuada para procesarla para pasar de solo informaci´on a conocimiento en la forma de informaci´on u´til.

2. Implementacio´n y metodologı´a Las t´ecnicas utilizadas en miner´ıa van desde herramientas estad´ısticas hasta herramientas de inteligencia artiﬁcial. De estas u´ltimas, cuatro de las principales utilizadas son [3]:

1. Redes Neuronales: Son modelos no-lineales inspirados en las redes de neuronas. En principio consisten en un conjunto de nodos organizados en capas con determinados enlaces entre ellos. Tanto la conﬁguracio´n de los nodos como los valores en sus enlaces se ajustan, buscando una conﬁguracio´n ´optima que permita obtener valores acertados en problemas de clasiﬁcacio´n y prediccio´n. La conﬁguracio´n ´optima se realiza en un ajuste llamado entrenamiento, que utiliza los datos para determinar la estructura y caracter´ısticas de

62 ContactoS 91, 60–65 (2014)

Tabla 1: Evoluci´on de la miner´ıa de datos 1960 a la actualidad. Evoluci´on Tecnolog´ıas presentes Caracter´ısticas Colecciones de datos (1960-) Computadoras, cintas, discos Manipulaci´on estad´ıstica. Acceso a datos (1980-) Bases de datos relacionales, Resultados din´amicos lenguajes de bu´squeda de bu´squeda a nivel estructurados (SQL) de registros. Almacenes de datos (1990-) Bases de datos Resultados din´amicos multidimensionales, de bu´squeda en almacenes de datos mu´ltiples niveles Miner´ıa de datos (2000-) Algoritmos avanzados, Informaci´on prospectiva computadoras multiprocesador. y proactiva.

Fuente: Aldana, 2000 [2]

la red que mejores prestaciones dara´ al proceso buscado. Tienen la ventaja de que no pretenden establecer un modelo cerrado sobre un conjunto de datos, sino un modelo que pueda ajustarse y que utilice solamente los datos [4]. 2. Arboles de decisi´on: Son estructuras en forma de ´arbol, con nodos organizados de forma jer´arquica, y que representan conjuntos de decisiones capaces de generar reglas para la clasiﬁcacio´n de los datos. Existen diversas t´ecnicas para construirlos y optimizarlos, pues es cr´ıtico la eﬁciencia en cuanto al tiempo en que puedan realizar la clasiﬁcacio´n, la cual depende del algoritmo utilizado y el taman˜o del ´arbol [5]. Un ejemplo de ´arbol de decisi´on se muestra en la ﬁgura 1.

Figura 1: Ejemplo de ´arbol de decisi´on. Fuente: Barrientos et al. 2009.[6]

La importancia de los ´arboles para clasiﬁcacio´n de datos radica en que una vez establecidos, un conjunto grande de datos puede ser proceso de forma autom´atica y obtener resultados en tiempos relativamente cortos. En la ﬁgura 1 anterior, consis

tir´ıan en una clasiﬁcacio´n -1, +1. 3. Algoritmos gen´eticos: Son modelos inspirados en la evoluci´on de las especies y que se aplican generalmente en problemas de optimizacio´n. Parte de la abstracci´on de individuos como cadenas de nu´meros, y se establecen reglas para caracter´ısticas como el cruce y mutaci´on. Tienden a la optimizacio´n en la bu´squeda de los mejores resultados en bu´squeda y obtencio´n de soluciones, pues es an´alogo a la teor´ıa darwinista de la evoluci´on en el sentido de la supervivencia de los individuos m´as aptos (mejores soluciones) como preferencia a los menos aptos [7]. 4. Vecinos m´as cercanos: Se denomina as´ı a la t´ecnica de agrupaci´on de datos que permite clasiﬁcarlos de acuerdo con su similitud, utilizando una medida de cercan´ıa que puede partir de la representacio´n de los puntos en una gra´ﬁca [8]. Existen diferentes maneras de realizarlo, y de forma semejante a las anteriores, la intencio´n principal es establecerlo como algoritmo que pueda ser programado en computadora, para poder automatizarlo. En la ﬁgura 2 se muestra un ejemplo de agrupamiento por vecinos m´as cercanos, para el caso de tres grupos claramente diferenciados en su representacio´n gra´ﬁca en dos dimensiones, pero que puede no ser evidente a partir del conjunto de datos original. Es posible que el conjunto original tenga dimensi´on mayor a dos y que haya sido necesario aplicar m´etodos de reducci´on de dimensi´on, lo cual agregar´ıa complejidad al establecimiento de los grupos. 5. Reglas de inducci´on: Se trata de extraer reglas de la forma si-entonces de un conjunto de datos, combinadas e incluso utilizando variables negadas. [9]

En principio, estas t´ecnicas no son espec´ıﬁcas para un tipo de datos, y tienen aplicaciones diversas

Miner´ıa de datos: concepto y aplicaciones. Marvin Coto-Jim´enez.

...

Descargar como (para miembros actualizados) txt (17 Kb)

Leer 9 páginas más »

Leer documento completo Guardar

Disponible sólo en Clubensayos.com