En este módulo se familiarizará con herramientas y técnicas desarrolladas para dotar de sentido a los datos no estructurados
katulorInforme8 de Enero de 2023
3.025 Palabras (13 Páginas)281 Visitas
DESCRIPCIÓN GENERAL
Actualmente, casi todo en nuestras vidas puede cuantificarse con datos. Ya se trate de los resultados de motores de búsqueda, del uso de redes sociales, de rastreadores meteorológicos, de automóviles o de deportes, siempre se recopilan datos con el objetivo de mejorar nuestra calidad de vida. Pero ¿cómo se consiguen trasladar todos estos datos en bruto a una mejora del nivel de rendimiento?
¡Encontrará la respuesta en este módulo de introducción!
En este módulo se familiarizará con herramientas y técnicas desarrolladas para dotar de sentido a los datos no estructurados y descubrir patrones ocultos en ellos. En concreto, los temas principales que se tratarán son:
1. Aprendizaje supervisado y no supervisado, y las principales técnicas correspondientes a cada uno (clasificación y clusterización, respectivamente).
2. Una mirada en profundidad al algoritmo K-medias (K-Means en inglés).
3. Reducción de dimensionalidad y técnicas espectrales (clusterización en redes, ACP [análisis de componentes principales (PCA en inglés)], vectores propios, encajes y otras técnicas especiales de clusterización).
Stefanie Jegelka y Tamara Broderick impartirán este módulo. Ambas son parte del faculty del Department of Electrical Engineering & Computer Science de MIT y del Center for Statistics del Institute for Data Systems and Society de MIT. Sus especialidades laborales cubren sistemas de machine learning para datos comunicacionales, aprendizaje bayesiano no paramétrico y métodos para el aprendizaje no supervisado.
Metas
1. Comprender las múltiples técnicas que se utilizan para descubrir patrones en un conjunto de datos.
2. Conocer el momento en el que usar cada una de las técnicas anteriores, en función de la información que se tenga.
3. Entender claramente el algoritmo K-medias.
Objetivos
Al terminar el módulo, los participantes deberán ser capaces de conocer:
1. La diferencia entre el aprendizaje supervisado y el aprendizaje no supervisado.
2. Cómo aplicar técnicas de clasificación y clusterización.
3. Cómo funciona el algoritmo K-medias y cómo implementarlo.
4. Qué son los modelos de pertenencia mixta y la asignación de atributos.
5. Qué es el análisis de componentes principales (ACP) y cómo calcularlo a través de los vectores propios.
6. Qué es el agrupamiento espectral y la modularidad, así como el término "encajes".
1.14 red de datos complejos
Recursos que entregan información de los datos o cuando k media no se puede usar.
Recordar que en clusterizacion los datos aparecen como puntos de datos.
Punto de datos= a vector de atributos
Es una secuencia de números que cada uno representa un atributo.
Ejemplo correo: el número es las vecs que aparece la palabra en el correo. Es por ello que se puede usar K medias.
Pero NO siempres es fácil. Ejemplos tales como
Los vectores de atributos traen ruido, info irrelevante muchas veces. O aveces no existen vectores.
Por lo tanto se pueden crear nuevos atributos
Ejemplo el dato puede contener muchas medicones, o sea cada punto de datos es un vector con muchos elementos. Si una persona fuese un punto de datos, las descripciones serian las variaciones de su genoma. Pueden ser muchas.
Otro ejemplo es en una colección de retratos o fotos de personas. Cada imagen es un punto de datos, descrito por cientos de pixeles. Algunos pixeles serán unos mas relevantes que otros.
Pregunta importantes en que difiere una imagen de otras imágenes. Incluso el nuemro de variaciones podría ser hasta menor que el número de pixeles. Decbdo a que los pixeles suelen variar en conjunto
Las variaciones de los usuarios se entienden mejor con patrones. Al descubrir los patrones se reduce la complejidad del dato, se aisla la tendencia, relevates se reduce ruido y los comprime etc.
En caso que o existan vectores ( ejemplo documental de monjes de los 60) y su relación de amistad…. Se puede usar k media? No se puede ya que existe vectores de atributos.
Solo se muestra quien se lleva bien con quien. Podemos armar un graf ( con puntos y líneas de relación). Las líneas son aristas, los monjes son nodos.
Crear nuevos atributos que represenytan puntos de datos, mostrando así la estructura subdyancente de los datos
1.15 Busqueda de los coponentes principales
EL método mas usado para encontrar patrones, es Análisis de componentes principales covara, se una cuando cada punto de datos contiene muchas mediciones y no todas son relevantes o exisitiese covarancia en las mediciones
ACP, describe los datos resumiéndolos en patrones típicos
Un ejemplo es la matriz de valorización que las personas dan a sus destinos de vacaciones.
Se determinan patrones, que son los principales componentes y a su vez son vectores.
Los patrones explicarían las valoraciones de las personas, el ACP encuentra el eje de mayor entre los datos. PATRONES, es cuando cada punto de dato se puede expresar como una combinación lineal de estos patrones o componentes
Otro ejemplo es tatar la imagen como vector
Eigen caras, son componentes ( ES LA MAGIA)
El coeficiente es importante para la compresión de la imagen y entender los espacios de los retratos.
Otro ejemplo Estudios generticos
Se puede saber el origen de una persona con su ADN?
Se describe Cada persona por su variación genética
Los componentes principales reúnen patrones relevantes y cada punto de dato s eexpresa a treves de estos componentes principales. Así se ha creado nuevos atributos. Habitualmente con algunos componentes basta. Si cada componente describe un atributo, se reduce el numero de atributos= REDUCCION de DIMENSIONALIDAD.
1.16 la magia de los vectores propios
¿Que son los vectores propios? Son el producto de la matriz y el vector.
El vector puede considerarse como una consecución de números o como la dirección en el espacio dimensional D.
Si el vector es vector propio su dirección se mantiene. Y se escala en el valor propio.
Los patrones relevantes, no solo afectan a un atributo, sino que a muchas valoraciones en conjunto. Dicha variación es la covarianza de las valoraciones. Cuanto varían las valoraciones en la misma dirección.
Un vector propio tiene su valor propio.
Los vectores propios capturan las direcciones principales de la matriz. A mayor valor propio es mas importante es el vector.
¿Cuantos componentes se necesitan?
Para ello se necesita consultar los valores propios
Luego se selecciona los mayores vectores propios y el resto se ignora.
Conclusión: SEpuede calcular el ACP de la matriz de covarianzas.
ACP es útil para varios escenarios tales como inmobiliario, vacaciones, búsqueda de valoraciones diferenciadas, pero también se usa para disminuir los vectores de atributos más grandes. ( esto solo sirve solo para reflejar relaciones lineales de datos)
Ojo el ACP no sirve para
1.17 cluterización en gráficos y redes
Aquí los puntos de datos no se pueden describir por un conjunto de atributos a diferencia de lo anterior ( ya que no se sabe nada de los usuarios o sea no existen vectores de atributos, pero se puede saber quién se relaciona con quien). Ejemplo son la redes, tales como twiter, redes biológicas, red informática, datos representados como redes e imagen.
Nodo=un punto de dato= una persona
Las conexiones= aristas
Groso de las líneas o aristas significa a mayor grosor es mayor la conexión entre nodos o usuarios.
Debemos entender la ESTRUCTURA DE COMUNIDAD DE LA RED
¿Existen grupos más de densos de conexión? Se podría dividir la red por nivel de densidad de conexión.
Aquí la estructura del cluster afecta tal como una epidemia en las redes.
Análisis de cluster de redes sociales dinámicas, proporcionan información sobre tendencias y opiniones.
Análisis de redes de biología, los clúster de proteínas podrían indicadores de funcionalidad
Análisis de ciencias, los clúster en redes de coautores reflejan temas de investigación.
...