Resumen de Data mining

Francisca GonzalezEnsayo3 de Enero de 2016

1.216 Palabras (5 Páginas)565 Visitas

Página 1 de 5

Resumen PEP Data

Definiciones Data Mining:

Transformación de datos en información valiosa, decisiones y productos, usando algoritmos matemáticos y estadísticos → CENTRADO EN NEGOCIOS
Proceso de extracción de información útil y relevante a partir de grandes volúmenes de datos → CENTRADO EN PROCESOS
Proceso de análisis y exploración de datos por medio de técnicas estadísticas y matemáticas para encontrar patrones, relaciones y tendencias ocultos en bases de datos → CENTRADO EN PREDICCIONES

Fundamentos de Data Mining

Estadística
Inteligencia Artificial → Algoritmos
Técnicas BBDD → Base de Datos

Razones de crecimiento de Data Mining

El explosivo aumento en recolección de datos
El almacenamiento de datos en data warehouses
La disminución ostensible en el costo de almacenamiento de información
Más poder en los computadores
El desarrollo de software de DM
Fuerte interés en CRM (administración de relaciones con el cliente)

Tareas de Data Mining

CLASIFICACIÓN → ESTIMAR CATEGORIAS

Elaboración de un modelo predictivo en función variable categórica→ pronostica la clase a la cual pertenece una observación en virtud de sus atributos.
Uso de variables Categóricas
Cuando se encuentra modelo, se concluyen nuevos sujetos (variables) asignados a alguna de las clases predefinidas.
Los árboles de decisión son adecuados para las tareas de clasificación. También sirven las redes neuronales artificiales, SVM, KNN y Redes Bayesianas.

ESTIMACIÓN → ESTIMAR NUMEROS ACTUALES

Elaboración de un modelo predictivo en función variable numérica
variable objetivo es numérica en vez de ser categórica.
La regresión múltiple (MICO) y los árboles de decisión (CRT) son adecuados para hacer estimaciones. También sirven las redes neuronales artificiales y KNN.
Permite la creación de modelos a partir de Algoritmos (Grafico Dispersión, Correlación Lineal, R2, P-value)

PREDICCIÓN → ESTIMAR NUMEROS FUTUROS

Elaboración de un modelo predictivo donde el resultado se da en el futuro.
La predicción entrega como resultado un número.
Se pueden usar las redes neuronales artificiales para predecir series de tiempo. También se puede recurrir a la estadística clásica de series de tiempo como asimismo modelos ARIMA.

CLUSTERING → ESTIMAR DIFERENTES CLASES

El clustering o segmentación, consiste en encontrar, dentro de una población heterogénea, un número determinado de subgrupos homogéneos o clusters.
En clustering, a diferencia de la clasificación, no hay clases definidas.
Los sujetos son agrupados en forma conjunta en función de su grado de similitud.
Existe numerosos algoritmos para segmentación: Clustering jerárquico, K Medias, EM, etc.

ASOCIACIÓN → ESTIMAR RELACIONES ENTRE VARIABLES

Trabajo de encontrar qué atributos “van juntos” → encontrar atributos a partir de conclusiones
Expresan patrones de comportamiento entre atributos.
Estas reglas son usadas por los retailers en el layout de las góndolas o en los catálogos. Además se pueden usar para identificar oportunidades de cross-selling y para diseñar atractivos “packs”.
Las reglas de asociación son de la forma “Si antecedente, entonces consecuente”. A => B. “Si compra pañales, entonces compra cerveza”.
Uno de los algoritmos más famosos para encontrar reglas de asociación es A priori. Otro es el PT Growth.

Tipos de Aprendizaje

SUPERVISADO

Se pretende entrenar a un modelo para que sea capaz de predecir una clase o bien un valor numérico.
Ya se conoce la clase o el valor numérico que el modelo debe aprender a predecir, por lo tanto, se cuenta con un “tutor” que detecta los fallos y aciertos.

NO SUPERVISADO

No hay clases o valores numéricos que predecir, por lo tanto, en este caso, al algoritmo debe buscar un patrón oculto pero sin tener una idea clara de lo que está buscando.
No tiene un objetivo que cumplir como en el supervisado.
Es una Búsqueda de patrones y relaciones → Entregar información sin conclusión.
Un ejemplo clásico de aprendizaje no supervisado es clustering analysis.

Proceso de Transformación Data Mining

Datos → Datos Duros
Información → Datos en Contexto
Conocimiento → Datos en contexto que permite conclusiones
Decisiones → Conclusiones, Aplicaciones de Negocios y Toma de decisiones.

Programas de Data Mining

Open Source (Gratis)

Knime
Rapid Miner
Weeka
R Proyect
Orange
Tanagra

Licenciados

Tipos de Datos

I = Interjer → Dato Numérico → Variable Numérica
S = String → Dato Alfanumérico → Variable Categórica
D = Double → Dato Numérico Decimal → Variable Numérica

Metodologías para Data Mining

CRISP-DM → Uso en Negocios (software SPSS)

Comprensión del negocio

- Determinar Objetivos del Negocio

- Evaluar la situación del negocio → Inventario, Requerimientos, Costos y beneficio.

- Determinar objetivos de la minería de datos

- Construir plan del proyecto

Comprensión de los Datos

- Recopilación inicial de datos.

- Descripción de datos

- Exploración de datos

- Verificar la calidad de los datos

Preparación de Datos

- Selección de datos

- Integración de datos

- Limpieza de datos

- Construcción y transformación de datos

- Formato de datos

Modelación

- Seleccionar la técnica de modelado

- Generar el diseño de test

...

Descargar como (para miembros actualizados) txt (8 Kb) pdf (257 Kb) docx (117 Kb)

Leer 4 páginas más »

Leer documento completo Guardar

Disponible sólo en Clubensayos.com