ClubEnsayos.com - Ensayos de Calidad, Tareas y Monografias
Buscar

En este módulo se familiarizará con herramientas y técnicas desarrolladas para dotar de sentido a los datos no estructurados


Enviado por   •  8 de Enero de 2023  •  Informes  •  3.025 Palabras (13 Páginas)  •  217 Visitas

Página 1 de 13

DESCRIPCIÓN GENERAL

Actualmente, casi todo en nuestras vidas puede cuantificarse con datos. Ya se trate de los resultados de motores de búsqueda, del uso de redes sociales, de rastreadores meteorológicos, de automóviles o de deportes, siempre se recopilan datos con el objetivo de mejorar nuestra calidad de vida. Pero ¿cómo se consiguen trasladar todos estos datos en bruto a una mejora del nivel de rendimiento?

¡Encontrará la respuesta en este módulo de introducción!

En este módulo se familiarizará con herramientas y  técnicas desarrolladas para dotar de sentido a los datos no estructurados y descubrir patrones ocultos en ellos. En concreto, los temas principales que se tratarán son:

1. Aprendizaje supervisado y no supervisado, y las principales técnicas correspondientes a cada uno (clasificación y clusterización, respectivamente).

2. Una mirada en profundidad al algoritmo K-medias (K-Means en inglés).

3. Reducción de dimensionalidad y técnicas espectrales (clusterización en redes, ACP [análisis de componentes principales (PCA en inglés)], vectores propios, encajes y otras técnicas especiales de clusterización).

Stefanie Jegelka y Tamara Broderick impartirán este módulo. Ambas son parte del faculty del Department of Electrical Engineering & Computer Science de MIT y del Center for Statistics del Institute for Data Systems and Society de MIT. Sus especialidades laborales cubren sistemas de machine learning para datos comunicacionales, aprendizaje bayesiano no paramétrico y métodos para el aprendizaje no supervisado.

Metas

1. Comprender las múltiples técnicas que se utilizan para descubrir patrones en un conjunto de datos.

2. Conocer el momento en el que usar cada una de las técnicas anteriores, en función de la información que se tenga.

3. Entender claramente el algoritmo K-medias.

Objetivos

Al terminar el módulo, los participantes deberán ser capaces de conocer:

1. La diferencia entre el aprendizaje supervisado y el aprendizaje no supervisado.

2. Cómo aplicar técnicas de clasificación y clusterización.

3. Cómo funciona el algoritmo K-medias y cómo implementarlo.

4. Qué son los modelos de pertenencia mixta y la asignación de atributos.

5. Qué es el análisis de componentes principales (ACP) y cómo calcularlo a través de los vectores propios.

6. Qué es el agrupamiento espectral y la modularidad, así como el término "encajes".

1.14 red de datos complejos

Recursos que entregan información de los datos o cuando k media no se puede usar.

Recordar que en clusterizacion los datos aparecen como puntos de datos.

Punto de datos= a vector de atributos

Es una secuencia de números que cada uno representa un atributo.

Ejemplo correo: el número es las  vecs que aparece la palabra en el correo. Es por ello que se puede usar K medias.

Pero NO siempres es fácil. Ejemplos tales como

Los vectores de atributos traen ruido, info irrelevante muchas veces. O aveces no existen vectores.

Por lo tanto se pueden crear nuevos atributos

Ejemplo el dato puede contener muchas medicones, o sea cada punto de datos es un vector con muchos elementos. Si una persona fuese un punto de datos,  las descripciones serian las variaciones de su genoma. Pueden ser muchas.

Otro ejemplo es en una colección de retratos o fotos de personas. Cada imagen es un punto de datos, descrito por cientos de pixeles. Algunos pixeles serán unos mas relevantes que otros.

Pregunta importantes en que difiere una imagen de otras imágenes. Incluso el nuemro de variaciones podría ser hasta menor que el número de pixeles. Decbdo a que los pixeles  suelen variar en conjunto

Las variaciones de los usuarios se entienden mejor con patrones. Al descubrir los patrones se reduce la complejidad del dato, se aisla la tendencia, relevates se reduce ruido y los comprime etc.

En caso que  o existan vectores ( ejemplo documental de monjes de los 60) y su relación de amistad…. Se puede usar  k media? No se puede ya que  existe vectores de atributos.

Solo se muestra quien se lleva bien con quien. Podemos armar un graf ( con puntos y líneas de relación). Las líneas son aristas, los monjes son nodos.

Crear nuevos atributos que represenytan puntos de datos, mostrando así la estructura subdyancente de los datos

1.15 Busqueda de los coponentes principales

 EL método mas usado para encontrar patrones, es Análisis de componentes principales covara, se una cuando cada punto de datos contiene muchas mediciones y no todas son relevantes o exisitiese covarancia en las mediciones

ACP, describe los datos resumiéndolos en patrones típicos

Un ejemplo es la matriz de valorización que las personas dan a sus destinos de vacaciones.

Se determinan patrones, que son los principales componentes y a su vez son vectores.

Los patrones explicarían las valoraciones de las personas,  el ACP encuentra el eje de mayor entre los datos. PATRONES, es cuando cada punto de dato se puede expresar como una combinación lineal de estos patrones o componentes

Otro ejemplo es tatar la imagen como vector

Eigen caras, son componentes ( ES LA MAGIA)

El coeficiente es importante para la compresión de la imagen y entender los espacios de los retratos.

Otro ejemplo Estudios generticos

Se puede saber el origen de una persona con su ADN?  

Se describe Cada persona por su variación genética

Los componentes principales reúnen patrones relevantes y cada punto de dato s eexpresa a treves de estos componentes principales. Así se ha creado nuevos atributos. Habitualmente con algunos componentes basta. Si cada componente describe un atributo, se reduce el numero de atributos= REDUCCION de DIMENSIONALIDAD.

...

Descargar como (para miembros actualizados)  txt (19.8 Kb)   pdf (78.6 Kb)   docx (15.5 Kb)  
Leer 12 páginas más »
Disponible sólo en Clubensayos.com