Business intelligence Business Intelligence Midterm

sbastiasApuntes29 de Octubre de 2017

1.672 Palabras (7 Páginas)333 Visitas

Página 1 de 7

Business Intelligence Midterm

Business Intelligence and analytics (PPT 1)

→ Machine Learning: Aprendizaje automático o aprendizaje de las máquinas. Es una rama de la inteligencia artificial cuyo objetivo es desarrollar técnicas que permitan a las computadoras aprender. Es un proceso de inducción de conocimientos (Motores de búsqueda, diagnósticos médicos, detección de fraude en el uso de Tarjetas de Crédito, etc).

→Tipos de algoritmos: Aprendizaje supervisado (clasificación): Existe correspondencia entre las entradas y salidas deseadas del sistema.

Aprendizaje no supervisado: todo el proceso de modelado se lleva a cabo sobre un conjunto de ejemplos formado solo por entradas al sistema. El sistema debe ser capaz de reconocer patrones para poder etiquetar las nuevas entradas.

Aprendizaje semisupervisado: Combina los dos anteriores. Considera los datos marcados como los no marcados.

→ Aplicación: Ciencias; Negocios (CRM, detección de fraudes, e-commerce, segmentación de marketing, etc); Web (motores de búsqueda, publicidad, minería de datos); Gobierno (vigilancia, detección de crímenes).

→ Text Mining: proceso en que los documentos son convertidos en datos estructurados donde cada documento es descrito a través de una serie de atributos llamados conceptos. Pueden ser representados en filas y/o columnas de excel, lo que se conoce como documento.

→ Aplicación: a través de la ocurrencia de palabras se puede: Encontrar grupos de documentos que son similares entre sí (clustering); Aprender a distinguir tipos de documentos (clasificación); Asignación de puntajes basados en criterios (Niveles de “X” en un texto); Encontrar pares de palabras que co-ocurren con cierta probabilidad (Reglas de asociación); etc.

[pic 1]

→Data Mining para modelación de clientes (Aplicación para el cliente): Predicción de fuga; Marketing dirigido (Segmentación por afinidad, ventas cruzadas, segmentación, atracción de nuevos clientes, análisis de clientes); Detección de fraudas; Predicción de impagos; Análisis de sentimientos; Percepción de marca; etc.

→ Análisis de patrones: Reglas de asociación (cerveza + pañales)

→ Segmentación de mercado: Clustering (grupos en común)

→ Clasificación/Predicción: Árboles de decisión (se debe ofrecer?Es moroso? Var. Dummy) REGLAS DE DECISIÓN: SI X ENTONCES Y

→Data Mining aplicado en finanzas: Variables que repercuten en la decisión de cometer default en la deuda de hogares chilenos; capacidad de predicción de un horizonte de tiempo al alza o a la naja de la liquidez; determinantes de rating crediticio (arboles de decisión); características de las personas que no se encuentran en el fondo deseado de las afp (clustering); Clasificación de hechos (Estimación de datos utilizando Bayes); etc.

Machine learning CRISP-DM

BI es la recolección y análisis de grandes cantidades de datos con el objetivo de encontrar patrones significativos que permitan apoyar decisiones negocios (estratégicas. Tácticas y operacionales).

--> Knowledge Discovery in Databases (KDD)

[pic 2]

Modelo CRISP-DM

[pic 3]

PPT 3

Las técnicas de Data Mining son usadas para encontrar patrones en la data que no son fáciles de identificar, que no son observables, o datos donde hay muchos patrones.

La detección automática de clúster (ACD) es útil para encontrar clústers que son mejor comportados dentro de una base de datos mayor. Los clúster están formados en relación a ítems que son más o menos similares entre sí.

El clustering por algoritmo K-Medias depende de una interpretación geométrica de los datos.

ACD es una herramienta utilizada principalmente para la minería de datos no clasificados de una base, y donde no hay distinción entre variable dependiente e independiente. También se usa para una minería de datos directa. Los clústers de marketing se conocen como segmentos, la segmentación de clústers es una aplicación popular de clustering.

→ K-Medias: Es un algoritmo de clustering para agrupar objetos basados en atributos/variables en un número k (Z>0) de grupos. EL agrupamiento está hecho minimizando la suma de los cuadrados de las distancias entre las variables y el correspondiente centróide (centro del clúster) del clúster. Así, el propósito del clustering K-Medias es agrupar los datos.

Cómo funciona?

1° El algoritmo selecciona K puntos en los datos aleatoriamente, llamados semillas (sedes)
2° Asigna a cada uno de los puntos restantes a uno de los K clústeres
3° Calcula los centroides de cada uno de los clústers (usa la media de cada dimensión para todos los registros en cada clúster para hacer esto)
4° El centroide se convierten las semillas para las próximas iteraciones (paso 2). Continúa hasta que los clusters restantes no cambien.

El sistema ACD es un software siempre para datos y clusters distribuidos en el mapa. Sin embargo, ciertos puntos de negocios no están distribuidos en el mapa (llamadas telefónicas, viajes en avión, registros de autos, etc.) estos puntos no tienen una conexión obvia entre ellos en el mapa. El clustering de estos puntos en el mapa requiere de cierta noción natural de asociación de los datos.

Para el data mining (DM) software, este concepto de asociación debe ser traducido en una métrica numérica de grados de similitud. La traducción más común es traducir los valores de la data en valores numéricos, así pueden ser tratados como valores en el espacio. Si dos puntos están cerca en un sentido geométrico, entonces estos representan valores similares en la base de datos.

...

Descargar como (para miembros actualizados) txt (11 Kb) pdf (351 Kb) docx (127 Kb)

Leer 6 páginas más »

Leer documento completo Guardar

Disponible sólo en Clubensayos.com