ClubEnsayos.com - Ensayos de Calidad, Tareas y Monografias
Buscar

Tarea Text Mining


Enviado por   •  7 de Mayo de 2023  •  Documentos de Investigación  •  1.176 Palabras (5 Páginas)  •  67 Visitas

Página 1 de 5


Buenas tardes a todos, 

Como os dije el otro día en clase, aquí os dejo los collabs resueltos:

Collab 1 - Técnicas NLP

https://colab.research.google.com/drive/1KF7gJKYVGugfAKDZYEpjjhqRlK--B0lu?usp=sharing

Collab 2 - Representación de textos

https://colab.research.google.com/drive/1T-fG-C05A3VnPid0936kHUnIBEJCU94t?usp=sharing

Collab 3 - Text Classification

https://colab.research.google.com/drive/19uhaek08lSdTofIbDgL9A4SljbSX2fPq?usp=sharing

Collab 4 - Topic Modelling

https://colab.research.google.com/drive/1woLyGg8_4DihuvkCZohVjWTnymM2PbXz?usp=sharing

Collab 5 - Sentiment analysis basics

https://colab.research.google.com/drive/1mAKLhbiOTDk8ot1TZ2s3gz0LYRdyhtSH?usp=sharing

Collab 6 - Clasificación y análisis de sentimiento

https://colab.research.google.com/drive/1y4OASvhzHQPswBXBaMEJvvaZ5O8HupBT?usp=sharing

Collab 7 - Clasification y anlaisis sentimiento HUGGINGFACE

https://colab.research.google.com/drive/1nbVvYwGNS7SVFAiYNIfIQrk1QBLRmzqZ


Tarea Text Mining

Ejercicio práctico (Tiempo estimado de realización: ~6-8 horas)

Se propone a los alumnos la realización de un ejercicio práctico que cubre las áreas principales expuestas en la formación teórica.

La entrega del ejercicio se realizará subiendo en la plataforma los archivos *.ipynb” generados en Google Collab. El nombre del notebook entregado debe seguir la estructura Apellido1_Apellido2_Nombre_EjercicioTM.ipynb. Además, el notebook se entregará comprimido en un archivo de tipo zip o rar.

Para comenzar a desarrollar el ejercicio, en el enunciado se proporciona un link a un notebook de Collab que podréis duplicar para comenzar a trabajar. Este Collab incorpora unas funciones para descargar y preparar el dataset que se utilizará en la tarea. Recordad que no todas las librerías que hemos visto están disponibles en Collab, así que tendréis que descargar las librerías y o módulos necesarios en cada caso.

Si tenéis alguna duda, por favor no dudéis en preguntarla en el foro o en la plataforma. Estaré encantado de ayudaros a resolverla.

Enunciado ejercicio

El objetivo de este ejercicio es comprobar los conocimientos que habéis adquirido en el área de análisis exploratorio de datos textuales, su pre-procesado y la generación de modelos de clasificación.

Para este ejercicio trabajaremos con un conjunto de datos reales publicados para la shared-task ProfNER (https://temu.bsc.es/smm4h-spanish/), celebrada en el año 2021. Específicamente, se pide utilizar los datos textuales de la subtarea 1, centrada en la clasificación de textos. Este conjunto de datos son tweets en español que tienen asignada una etiqueta numérica, que representa la presencia (valor 1) o no (valor 0) de menciones de profesiones en el tweet. Por si fuera de tu interés, el proceso de obtención, selección y anotación de datos está descrita en este enlace (https://temu.bsc.es/smm4h-spanish/?p=4003 ).

Para el ejercicio debéis entrenar diferentes modelos de clasificación que permitan clasificar correctamente los tweets. Para ello será necesario crear y utilizar funciones de preprocesado de datos similares a las vistas en clase, aplicar estrategias de vectorización de trextos como TF-IDF o embeddings, y entrenar/evaluar modelos de clasificación. Para que os sirva de orientación, los criterios de evaluación del ejercicio serán los siguientes:

  1. Análisis exploratorio, pre-procesado y normalización de los datos (30%): o El ejercicio deberá contener un análisis exploratorio de los datos como número de documentos, gráficas de distribución de longitudes y/o wordclouds, entre otros análisis que se os pudieran ocurrir. Vuestros ejercicios deberán incorporar al menos los análisis exploratorios vistos en clase.
  2. o También tendréis que tener funciones para normalizar textos que permitan eliminar palabras vacías, quitar símbolos de puntuación y lematizar o hacer stemming.
  3. • Vectorización de textos (40%)

En clase hemos visto diferentes estrategias de vectorización como TF-IDF y Word Embeddings. También hemos visto como incorporar características adicionales utilizando el sentimiento de los documentos. Para este ejercicio sois libres de utilizar la estrategia de vectorización que queráis, pero:

  • • Si decidís utilizar TF-IDF será necesarios que incorporéis a modelo características adicionales de sentimiento utilizando recursos adicionales (como por ejemplo la librería TextBlob).
  • • Si optáis por representar el texto mediante embeddings, dado que en clase no se profundizado sobre el tema no será necesario incorporar esas características adicionales. Si decidís esta segunda opción, podéis utilizar los embeddings en español que vimos en clase https://github.com/aitoralmeida/spanish_word2vec 



  1. Entrenamiento y validación del sistema (30%) o En el proceso de entrenamiento del modelo tendréis que testear al menos 3 modelos de clasificación. El procedimiento debe ser similar al visto en clase, en el que primero estimábamos el rendimiento de varios algoritmos de forma general, para posteriormente seleccionar el mejor para ajustar los hiperparámetros.

Nota 1: Cualquier cálculo adicional a los vistos en clase (visualizaciones, nuevas características añadidas al modelo, distribuciones por clase...) será valorado positivamente en la calificación.

Nota 2: Insisto en seguir la estructura de análisis en tres fases vista en clase. Esto os facilitará llevar un orden en el análisis, explicar los pasos de forma estructurada y clara, y conseguir una mejor calificación.

Nota 3: Link al notebook del ejercicio https://colab.research.google.com/drive/1hO99DsxOt3ZBId6B-WfA1K9fiwNRHAj3?usp=sharing

...

Descargar como (para miembros actualizados)  txt (8.7 Kb)   pdf (124.2 Kb)   docx (150.4 Kb)  
Leer 4 páginas más »
Disponible sólo en Clubensayos.com