TÓPICOS AVANZADOS DE INTELIGENCIA COMPUTACIONAL

miriam172Práctica o problema23 de Diciembre de 2020

766 Palabras (4 Páginas)259 Visitas

Página 1 de 4

[pic 1][pic 2][pic 3]

UNIVERSIDAD NACIONAL DEL ALTIPLANO PUNO

FACULTAD MECÁNICA ELÉCTRICA, ELECTRÓNICA Y SISTEMAS

ESCUELA PROFESIONAL DE INGENIERÍA DE SISTEMAS

TÓPICOS AVANZADOS DE INTELIGENCIA COMPUTACIONAL

DOCENTE

FERNANDEZ CHAMBI MAYENKA

TRABAJO

TEST DE BAGS OF WORDS

PRESENTA

MAMANI MAMANI MIRIAM[pic 4][pic 5][pic 6]

miriambh172@gmail.com

Puno – 2020

TEST DE BAGS OF WORDS

TEST 1

Selector de Bolsa de palabras

¿Cuál de las siguientes opciones es el resultado del mapeo de la bolsa de palabras del texto:“The cat is in the box. The cat box”?. Si ha sido tokenizado con NLTK.

Respuesta: b) ('The', 3), ('box', 2), ('cat', 2), ('is', 1), ('in', 1), ('.', 1)

TEST 2

Construyendo un contador de palabras

En este ejercicio, creará su primer contador de bolsa de palabras utilizando un artículo de Wikipedia que se encuentra en el archivo “wiki_text_debigging.txt”, y lo cargará en la variable articulo. Trate de hacer la bolsa de palabras sin mirar el texto completo del artículo y adivinar cuál es el tema. Tenga en cuenta que el texto de este artículo ha tenido muy poco procesamiento previo de la entrada de la base de datos de Wikipedia sin procesar. Complete el código. ¿Cuáles son las 15 palabras más frecuentes?

[pic 7]

TEST 3

Pasos de preprocesamiento de texto

¿Cuáles de los siguientes son pasos útiles para el preprocesamiento de texto?

Respuesta: b) Lemmatization, minúsculas, eliminar tokens indeseados

c) Eliminar stopwords, dejando las mayúsculas

TEST4

Práctica de preprocesamiento de texto

Aplique las técnicas de limpieza de texto y obtenga mejores resultados de NLP, para ello tendrá que eliminar las palabras vacías y los caracteres no alfabéticos, lematizar y realizar una nueva bolsa de palabra con el texto limpio.

Usará la lista lower_tokens obtenido en el Test 02 y la lista english_stops para realizar este ejercicio. Complete el código. ¿Cuáles son las 15 palabras más frecuentes?

[pic 8]

TEST 5

¿Qué son los vectores de palabras y cómo ayudan a NPL?

Respuesta: c) Los vectores de palabras son representaciones matemáticas multidimensionales de palabras creadas mediante métodos de aprendizaje profundo. Nos dan una idea de las relaciones entre las palabras de un corpus.

TEST 6

Crear y consultar un corpus con gensim

Utilice Gensim para investigar las tendencias de palabras y posibles temas interesantes en un conjunto de documentos. Tiene a disposición algunos artículos de Wikipedia, que debe preprocesar al poner en minúsculas todas las palabras, convertirlas en tokens y eliminar las palabras vacías o stopwords y almacenar el resultado en una lista de tokens de documentos denominado articles. Deberá realizar un preprocesamiento ligero y luego generar el diccionario y el corpus Gensim. Complete el código.

[pic 9]

TEST 7

Bolsa de Palabras de Gensim

Use el corpus y diccionario obtenido en el test anterior para observar los términos más comunes por documento y entre todos los documentos.
Use defaultdict para inicializar el contador como un diccionario por defecto con valores igual a 0 (int) para claves no existentes, y
Use itertools.chain.iterable() para iterar a través de un conjunto de secuencias como si se tratara de una sola secuencia. Así podrá iterar fácilmente por todo el corpus.
Observe lo que pasa con el quinto documento almacenado en doc y que está ordenado en forma descendente. Complete el código.

[pic 10]

TEST 8

¿Qué es tf-idf?

Calcule el peso tf-idf de la palabra "computer", que aparece cinco veces en un documento que contiene 100 palabras. Dado un corpus que contiene 200 documentos, y que 20 documentos mencionan la palabra "computer", tf-idf se puede calcular multiplicando la frecuencia del término por la frecuencia inversa del documento.
Frecuencia de término = participación porcentual de la palabra en comparación con todos los tokens en el documento
Frecuencia de documento inverso = logaritmo del número total de documentos en un corpus dividido por el número de documentos que contienen el término
¿Cuál de las siguientes opciones es correcta?

Respuesta: c) (5 / 100) * log(200 / 20)

TEST 9

Tf-idf de articles

Determine los nuevos términos significativos para el corpus obtenido anteriormente aplicando el tf-idf de gensim. Reuse: dictionary, corpus y doc. Complete el código. ¿Sera que tf-idf generará resultados más interesantes a nivel de documento?, ¿Cuál es su opinión?

[pic 11]

Tf-idf a nivel de documento si genera mejores resultados pues el hecho de que una palabra se repita mucho no la hace importante, por eso lo mejor es eliminar esas palabras y solo considerar las palabras clave que si son importantes.

...

Descargar como (para miembros actualizados) txt (5 Kb) pdf (812 Kb) docx (661 Kb)

Leer 3 páginas más »

Leer documento completo Guardar

Disponible sólo en Clubensayos.com