Redes neuronales convolucionales para clasificación de artículos de noticias y tweets usando el modelo Word2vec

huberwalterMonografía9 de Diciembre de 2019

1.915 Palabras (8 Páginas)212 Visitas

Página 1 de 8

UNIVERSIDAD NACIONAL DE INGENIERÍA

UNIDAD DE POSTGRADO FIIS

[pic 1]

Redes neuronales convolucionales para clasificación de artículos de noticias y tweets usando el modelo Word2vec.

ELABORADO POR:

SUAZO INOCENTE, Huber Walter

CURSO

Matemática

DOCENTE

Dr. Pedro Espinoza Haro

LIMA – PERU, 2019

INTRODUCCIÓN

El aprendizaje profundo es un campo de aprendizaje automático que ha atraído mucha atención después del lanzamiento de AlphaGo, que fue desarrollado por Google en 2016. Recientemente, varias fuentes de código a abierto bibliotecas de aprendizaje profundo como TensorFlow de Google, Caffe de Berkeley , Universidad de Theano de Montreal y Deeplearning4J de SkyMind se desarrollaron, por lo que es más fácil para las personas desarrollar programas de aprendizaje profundo. Se utilizan en varios estudios.Para diversos fines, como la clasificación de datos, el reconocimiento del comportamiento y la detección de eventos. Las GPU de alto rendimiento ayudan a la resurrección del aprendizaje profundo al reducir los complejos tiempos de cálculo de la matriz utilizados en el aprendizaje profundo. Además, grandes cantidades de grandes los datos web se generan a través de Internet y una gran cantidad de datos e información de etiquetas generados por las noticias en línea y Twitter corresponden a buenos materiales de aprendizaje para el aprendizaje profundo sistemas.

Evidentemente, los artículos de noticias y los tweets son apropiados para el aprendizaje profundo que requiere grandes cantidades de datos para ser eficaces porque se actualizan en tiempo real y constantemente acumulado. Sin embargo, generalmente contienen texto innecesario, como anuncios y usos alternativos de las palabras, que pueden interferir con el aprendizaje preciso. Por lo tanto, es necesario para filtrar artículos y tweets innecesarios de los artículos y tweets recopilados, aunque es no es posible clasificar manualmente artículos y tweets innecesarios en una gran cantidad de artículos y tweets.

Word2vec es una técnica de inclusión de palabras propuesta por Mikolov en el 2013 para la expresión de palabras, incluido el significado y el contexto de las palabras en un documento y incluye dos algoritmos de aprendizaje, a saber, bolsa continua de palabras (CBOW) y skip-gram algoritmos, en lo cual nuestro traba consiste en usar el modelo Word2vec con los dos algoritmos.

Capítulo I: Definiciones

Antes de presentar el presente trabajo vamos a definir, definiciones necesarias para el trabajo.

word2vec: es la técnica / modelo para producir incrustación de palabras para una mejor representación de palabras. Captura una gran cantidad de relaciones sintácticas y semánticas precisas. Es una red neuronal poco profunda de dos capas.

Red Neuronal Convolucional (CNN): Es una red neuronal artificial que se usa con frecuencia en diversos campos, como la clasificación de imágenes, reconocimiento facial y procesamiento del lenguaje natural.

Modelo: Es la representación de la realidad, explicación de un fenómeno, ideal digno de imitarse, paradigma, canon, patrón o guía de acción; idealización de la realidad; arquetipo, prototipo, uno entre una serie de objetos similares, un conjunto de elementos esenciales o los supuestos teóricos de un sistema social (Caracheo, 2002).

Capítulo II: Resumen del articulo

¿Qué es word2vec?

Word2vec es la técnica / modelo para producir incrustación de palabras para una mejor representación de palabras. Captura una gran cantidad de relaciones sintácticas y semánticas precisas. Es una red neuronal poco profunda de dos capas. Antes de continuar, vea la diferencia entre la red neuronal superficial y profunda:

La red neuronal superficial consiste en la única capa oculta entre entrada y salida, mientras que la red neuronal profunda contiene múltiples capas ocultas entre entrada y salida. La entrada está sujeta a nodos, mientras que la capa oculta, así como la capa de salida, contiene neuronas.

[pic 2]

Figura 01: aprendizaje superficial vs.profundo

word2vec es una red de dos capas donde hay entrada una capa oculta y salida.

Word2vec fue desarrollado por un grupo de investigadores encabezado por Tomas Mikolov en Google. Word2vec es mejor y más eficiente que el modelo de análisis semántico latente.

¿Qué hace word2vec?

Word2vec representa palabras en representación de espacio vectorial. Las palabras se representan en forma de vectores y la colocación se realiza de tal manera que las palabras de significado similar aparecen juntas y las palabras diferentes se encuentran lejos. Esto también se denomina como una relación semántica. Las redes neuronales no entienden el texto, sino que solo entienden los números. Word Embedded proporciona una forma de convertir texto a un vector numérico.

Word2vec reconstruye el contexto lingüístico de las palabras. Antes de continuar, déjenos entender, ¿qué es el contexto lingüístico? En el escenario general de la vida, cuando hablamos o escribimos para comunicarnos, otras personas intentan descubrir cuál es el objetivo de la oración. Por ejemplo, "¿Cuál es la temperatura de la India", aquí el contexto es el usuario quiere saber "temperatura de la India", que es el contexto. En resumen, el objetivo principal de una oración es el contexto. La palabra u oración que rodea el lenguaje hablado o escrito (divulgación) ayuda a determinar el significado del contexto. Word2vec aprende la representación vectorial de palabras a través de los contextos.

¿Cómo funciona Word2vec?

Word2vec aprende palabras prediciendo su contexto circundante. Por ejemplo, tomemos la palabra "Le encanta el fútbol".

Queremos calcular la palabra2vec para la palabra: amores.

Suponer

[pic 3]

La palabra amor se mueve sobre cada palabra en el corpus. La relación sintáctica y semántica entre palabras está codificada. Esto ayuda a encontrar palabras similares y analogías.

Se calculan todas las características aleatorias de la palabra amores. Estas características se cambian o actualizan en relación con palabras vecinas o contextuales con la ayuda de un método de propagación inversa.

Otra forma de aprender es que si el contexto de dos palabras es similar o dos palabras tienen características similares, entonces esas palabras están relacionadas.

Arquitectura de Word2vec

Hay dos arquitecturas utilizadas por word2vec

Bolsa continua de palabras (CBOW).
saltar gramo.

Antes de continuar, analicemos por qué estas arquitecturas o modelos son importantes desde el punto de vista de la representación de palabras. El aprendizaje de la representación de palabras es esencialmente no supervisado, pero se necesitan objetivos / etiquetas para entrenar el modelo. Skip-gram y CBOW convierten la representación no supervisada en forma supervisada para la capacitación de modelos.

En CBOW, la palabra actual se predice usando la ventana de ventanas de contexto circundantes. Por ejemplo, si w i-1 , w i-2 , w i + 1 , w i + 2 reciben palabras o contexto, este modelo proporcionará w i.

Skip-Gram realiza lo contrario de CBOW, lo que implica que predice la secuencia o contexto dados a partir de la palabra. Puedes revertir el ejemplo para entenderlo. Si se proporciona w i , esto predecirá el contexto o w i-1 , w i-2 , w i + 1 , w i + 2.

Word2vec proporciona una opción para elegir entre CBOW (Bolsa continua de palabras) y skim-gram. Dichos parámetros se proporcionan durante el entrenamiento del modelo. Se puede tener la opción de usar muestreo negativo o capa jerárquica softmax.

...

Descargar como (para miembros actualizados) txt (12 Kb) pdf (301 Kb) docx (860 Kb)

Leer 7 páginas más »

Leer documento completo Guardar

Disponible sólo en Clubensayos.com