Minería Base De Datos: Una Perspectiva De Rendimiento
sulamitatrrs11 de Enero de 2014
8.576 Palabras (35 Páginas)354 Visitas
Minería base de datos: una perspectiva de rendimiento
Resumen Presentamos nuestra perspectiva de la minería de base de datos como conSECuencia de aprendizaje automático técnicas y el énfasis rendimiento de la tecnología de base de datos. Se describen tres clases de problemas de minería de bases de datos que implican clasi caci, asociaciones y secuencias, y argumentar que estos problemas se pueden ver de manera uniforme como que requiere descubrimiento de reglas incrustados en datos masivos. Se describe un modelo y algunas operaciones básicas para el proceso de la regla descubrimiento. Se muestra cómo los problemas de minería de bases de datos que consideramos mapa para este modelo y cómo pueden ser resueltos mediante el uso de las operaciones básicas que proponemos. Damos un ejemplo de un algoritmo para la clasificación de cationes obtiene mediante la combinación de las operaciones básicas de descubrimiento de reglas. Este algoritmo no sólo es e? Ciente en el descubrimiento de reglas de clasi caci pero también tiene una precisión comparable a ID3, uno de los actuales mejores ERS clasi.
Términos de indexación. base de datos de minería, descubrimiento de conocimiento, clasi cación, las asociaciones, las secuencias, los árboles de decisión.
introducción
La tecnología de base de datos se ha utilizado con gran éxito en el procesamiento de los datos de negocio tradicional. Hay un creciente deseo de utilizar esta tecnología en nuevos campos de aplicación. Uno de tales dominio de aplicación que pueda adquirir considerable signi cancia en un futuro próximo es la base de datos la minería [12] [3] [5] [8] [9] [11] [15] [16] [18] [19]. Un número creciente de organizaciones están la creación de bases de datos ultra-grandes (medido en gigabytes e incluso terabytes) de datos empresariales, tales como los datos de consumo, historiales de transacciones, registros de ventas, etc Esta información constituye un potencial mina de oro de información comercial valiosa.
Desafortunadamente, los sistemas de base de datos de hoy en día o? Poca funcionalidad er para apoyar este tipo de aplicaciones \ mineras ". Al mismo tiempo, las técnicas de aprendizaje estadístico y la máquina suelen realizar mal cuando se aplica a los conjuntos de datos de gran tamaño. Esta situación es probablemente la razón principal por la que grandes cantidades de datos son todavía en gran parte inexplorado y son almacenadas principalmente en una o? Ine almacenar o están a punto de ser tirado. Presentamos en este trabajo nuestra perspectiva de la minería como base de datos con la uencia de la máquina técnicas y el énfasis rendimiento de la tecnología de base de datos de aprendizaje. Sostenemos que una número de problemas de minería de bases de datos puede ser visto de manera uniforme como que requiere descubrimiento de reglas incrustado en los datos masivos. Se describe un modelo y algunas operaciones básicas para el proceso de descubrimiento regla. También se muestra cómo estos problemas de minería de bases de datos se asignan a este modelo y cómo
pueden ser resueltos mediante el uso de las operaciones básicas que proponemos.
Nuestra vista de la minería de bases de datos y complementa la visión presentado en [ 9 , 19 ] . Ambos estos documentos argumentan a favor de un proceso para la minería con un ser humano en el bucle iterativo . El usuario comienza con una hipótesis y utiliza los datos para refutar o con rmar la hipótesis. La hipótesis es re Ned , dependiendo de la respuesta y este proceso continúa hasta que una teoría satisfactoria tiene sido obtenido . El énfasis en [ 19 ] es en tener un lenguaje declarativo que hace que sea más fácil formular y revisar las hipótesis. El énfasis en [9 ] es proporcionar un gran ancho de banda entre la máquina y humano para que el usuario de interés se mantiene entre iteraciones sucesivas . Aunque no discutimos este aspecto en detalle en este documento , se admite la posibilidad de ser humano intervención en el proceso minero. Esta intervención puede ser en la forma de conocimiento de dominio para guiar el proceso de la minería , o el conocimiento adicional que las normas se extraen . Se ha trabajado en la cuantificación de la \ utilidad "o \ interestingness " de una regla [ 17 ] . Estas ideas pueden ser construido como ltros en la parte superior del núcleo de las técnicas de descubrimiento de reglas. El resto del trabajo se organiza de la siguiente manera. En la Sección 2 , se presentan tres tipos de problemas de minería de bases de datos que implican clasi cación , asociaciones y secuencias. En la sección 3, presentar un marco unificador y mostrar cómo estas tres clases de problemas pueden ser uniformemente visto como que requiere descubrimiento de reglas . En el punto 4 , introducimos las operaciones que pueden constituir la núcleo computacional para el proceso de descubrimiento regla. Se muestra cómo los problemas de minería de bases de datos bajo consideración pueden ser resueltos mediante la combinación de estas operaciones . Para que la discusión concreta , consideramos que el problema de clasi caci en detalle en la Sección 5 , y presenta un hormigón algoritmo para problemas de cationes clasi obtenidos mediante la combinación de estas operaciones . Se demuestra que la clasificación er así obtenida no sólo es e? ciente , pero tiene una precisión comparable a la clasi caci la conocida clasificación er ID3 [ 14 ] . Presentamos nuestras conclusiones y orientaciones para el trabajo futuro en
Sección 6 .
2 Problemas minería de bases de datos
Se presentan tres tipos de problemas de minería de bases de datos que tenemos identi cados mediante el examen de algunos de las aplicaciones a menudo citados de minería de datos . Estas clases ciertamente no agotan todas las aplicaciones de minería de bases de datos , pero sí capturar una interesante subconjunto de ellos.
En la Sección 3 , presentaremos un marco unificador para el estudio y la solución de estos problemas.
2.1 Clasi cación
El problema clasi caci [ 6 ] [ 10 ] [ 11 ] [ 18 ], contiene normas Nding que dividir los datos dados en grupos disjuntos . Como un ejemplo de un problema de cationes clasificación , considerar el problema de localización de la tienda . Se supone que el éxito de la tienda está determinado por las características del vecindario , y la empresa está interesada en la identificación de los barrios que deberían ser los principales candidatos para una mayor investigación para la ubicación de una nueva tienda propuesta . La empresa tiene acceso a una base de datos vecindario. Se clasifica primera de sus tiendas actuales en éxito , promedio y tiendas sin éxito . Con base en los datos del vecindario de estas tiendas, que luego desarrolla un profesional le para cada categoría de tiendas , y utiliza el per l para las tiendas exitosas para recuperar candidato los barrios. Otras aplicaciones que implican clasi caci incluyen la aprobación del crédito , la determinación treatmentappropriateness , etc Una variación del problema de clasi caci on es el problema BestN [
1 ] . Una empresa puede ser
interesados en nding los mejores candidatos N al que un paquete de esquí debe ser enviada por correo . primero un número pequeño de paquetes de esquí se envía por correo a una muestra seleccionada de la población y luego un per l de los posibles encuestados positivos se obtiene . Un profesional le Dicha generalmente se construye como una disyunción de conjunciones de valor de atributo rangos caracterizar individuos de la población . Por ejemplo , el per l de los posibles encuestados para el paquete de esquí puede ser la unión de todas las personas con la edad entre 30 y 40 y de los ingresos por encima de 40K al año con todas las personas que conducen un coche deportivo. Observe que ambas condiciones generan reglas que tienen la condición dada como el antecedente de la regla y \ respuesta positiva ", como el consecuente. El factor de con anza asociado a cada término de la disyunción puede ser utilizado para desarrollar un orden en el que los términos en la disyunción se aplican a los datos para la obtención de las N mejores candidatos .
2.2 Asociaciones
Considere la posibilidad de un ajuste de supermercado donde los registros de base de datos de artículos comprados por un cliente en una sola vez como una transacción . El departamento de planificación puede estar interesado en nding \ " asociaciones entre conjuntos de elementos con alguna mínima especi cado con cia . Un ejemplo de tal una asociación es la afirmación de que 90 % de las transacciones de compra que el pan y la mantequilla también comprar leche . El antecedente de esta norma consiste en pan y la mantequilla y la consecuente consiste en leche sola . El número de 90 % es el factor de con anza de la regla. Por lo general , el planificador estará interesado no en una sola norma, sino más bien en series de normas que cumplan alguna especificación inicial -
cationes . Estos son algunos otros ejemplos del problema de las asociaciones Nding ( hemos omitido dencia con el factor de especi caci ) :
? Encuentra todas las reglas que tienen \ Diet Coke ", como consecuencia . Estas reglas pueden ayudar a planificar lo que la tienda debe hacer para aumentar la venta de Coca-Cola Light .
3 ? Encuentra todas las reglas que tienen \ panecillos "en el antecedente. Estas reglas pueden ayudar a determinar qué productos pueden verse afectados si la tienda suspende la venta de rosquillas . ? Buscar todas las reglas que tienen \ salchicha "en el antecedente y \ mostaza " en el consecuente. Este consulta
...