Procesamiento del Lenguaje Natural

Janethju14 de Mayo de 2014

2.665 Palabras (11 Páginas)357 Visitas

Página 1 de 11

Procesamiento del lenguaje natural es un campo de la informática, la inteligencia artificial, la lingüística y se ocupan de las interacciones entre las computadoras y los lenguajes humanos. Como tal, la PNL se relaciona con el área de interacción hombre-máquina. Muchos retos en PNL implican la comprensión del lenguaje natural, es decir, permite a los ordenadores para entender el significado de la entrada del lenguaje humano o natural.

Historia

La historia de la PNL se inicia generalmente en la década de 1950, aunque el trabajo se puede encontrar a partir de períodos anteriores. En 1950, Alan Turing publicó un artículo titulado "Computing Machinery e Inteligencia", que propuso lo que hoy se llama la prueba de Turing como un criterio de inteligencia. Este criterio depende de la capacidad de un programa de ordenador para hacerse pasar por un humano en una conversación escrita en tiempo real con un juez humano, suficientemente bien que el juez es incapaz de distinguir de forma fiable - sobre la base del contenido de conversación solo - entre el programa y un ser humano real.

El experimento de Georgetown en 1954 participó traducción totalmente automática de más de sesenta frases rusas en Inglés. Los autores afirman que dentro de tres o cinco años, la traducción automática sería un problema resuelto. Sin embargo, el progreso real era mucho más lento, y tras el informe ALPAC en 1966, que encontró que la investigación diez años siempre había cumplido con las expectativas, la financiación para la traducción automática se redujo drásticamente. Poco más investigación en la traducción automática se llevó a cabo hasta finales de 1980, cuando se desarrollaron los primeros sistemas de traducción automática estadística.

Algunos sistemas de PNL especialmente exitosas desarrolladas en la década de 1960 fueron SHRDLU, un sistema de lenguaje natural que trabaja en bloques restringidos "mundos" con vocabularios restringidos, y Eliza, una simulación de un Rogerian psicoterapeuta, escrito por Joseph Weizenbaum entre 1964-1966 - Usando casi ninguna información sobre el pensamiento o la emoción humana, ELIZA veces proporciona una interacción sorprendentemente similar a la humana. Cuando el "paciente" se superó el pequeño base de conocimientos, ELIZA podría proporcionar una respuesta genérica, por ejemplo, en respuesta a "Me duele la cabeza" con el "¿Por qué dices te duele la cabeza?".

Durante la década de 1970 muchos programadores comenzaron a escribir “ontologías conceptuales", que estructuran la información del mundo real de datos informáticos comprensibles. Ejemplos de ello son MARGIE, SAM, PAM, TaleSpin, naúsea, Política y Unidades Terreno. Durante este tiempo, muchos fueron escritos chatterbots incluyendo Parry, Racter y Jabberwacky.

Hasta la década de 1980, la mayoría de los sistemas de PNL se basa en un complejo conjunto de reglas escritas a mano. A partir de finales de 1980, sin embargo, no fue una revolución en PNL con la introducción de algoritmos de aprendizaje automático para el procesamiento del lenguaje. Esto se debió tanto al aumento constante de la potencia de cálculo resultante de la Ley de Moore y la disminución gradual del predominio de las teorías de Chomsky de la lingüística, cuyos fundamentos teóricos desalentado la clase de lingüística de corpus que se basa el enfoque de aprendizaje de máquinas para el procesamiento del lenguaje. Algunos de los algoritmos de aprendizaje automático antes utilizadas, tales como árboles de decisión, sistemas de producción de fuerza si-entonces normas similares a las reglas manuscritas existentes. Cada vez más, sin embargo, la investigación se ha centrado en los modelos estadísticos, que toman decisiones suaves, probabilísticos basados en colocar pesos de valor real de las características que constituyen los datos de entrada. Los modelos de lenguaje de caché en la que muchos sistemas de reconocimiento de voz se basan ahora son ejemplos de tales modelos estadísticos. Tales modelos son generalmente más robusta cuando se administra de entrada desconocido, especialmente de entrada que contiene errores, y producir resultados más fiables cuando se integren en un sistema más grande que comprende múltiples subtareas.

Muchos de los primeros éxitos notables se produjeron en el campo de la traducción automática, debido especialmente a trabajar en IBM Research, donde se han desarrollado modelos estadísticos sucesivamente más complicados. Estos sistemas son capaces de tomar ventaja de los actuales cuerpos textual multilingüe que se había producido por el Parlamento de Canadá y la Unión Europea como consecuencia de las leyes que piden la traducción de todas las actuaciones gubernamentales a todos los idiomas oficiales de los correspondientes sistemas de gobierno. Sin embargo, la mayoría de los otros sistemas dependían de cuerpos desarrollado específicamente para las tareas llevadas a cabo por estos sistemas, lo cual fue una limitación importante en el éxito de estos sistemas. Como resultado, una gran cantidad de investigación ha ido en métodos de aprendizaje más eficazmente a partir de cantidades limitadas de datos.

La investigación reciente se ha centrado cada vez más en los algoritmos de aprendizaje no supervisado y semi-supervisado. Tales algoritmos son capaces de aprender de los datos que no han sido a mano anotado con las respuestas deseadas, o el uso de una combinación de los datos anotados y no anotada. En general, esta tarea es mucho más difícil que el aprendizaje supervisado, y típicamente produce resultados menos precisos para una cantidad dada de datos de entrada. Sin embargo, hay una enorme cantidad de datos que no son anotados disponible, que a menudo puede compensar los resultados inferiores.

PNL utilizando la máquina de aprendizaje

PNL algoritmos modernos se basan en el aprendizaje de la máquina, la máquina de aprendizaje especialmente estadística. El paradigma de aprendizaje de máquina es diferente de la de la mayoría de los intentos anteriores en el procesamiento del lenguaje. Implementaciones anteriores de tareas de procesamiento del lenguaje que suelen participar la codificación directa de mano de grandes conjuntos de reglas. El paradigma de aprendizaje automático, solicita que el uso de algoritmos de aprendizaje en general - a menudo, aunque no siempre, basada en la inferencia estadística - aprender automáticamente dichas normas mediante el análisis de grandes corpus de ejemplos del mundo real típicas. Un corpus es un conjunto de documentos que se han anotado a mano con los valores correctos que se deben aprender.

Muchas clases diferentes de algoritmos de aprendizaje automático se han aplicado a las tareas de NLP. Estos algoritmos toman como entrada un gran conjunto de "características" que se generan a partir de los datos de entrada. Algunos de los algoritmos más temprano-utilizados, como los árboles de decisión, sistemas de producción de fuerza reglas si-entonces similar a los sistemas de reglas escritas a mano que eran entonces común. Cada vez más, sin embargo, la investigación se ha centrado en los modelos estadísticos, que toman decisiones suaves, probabilísticos basados en colocar pesos de valor real a cada entidad de entrada. Estos modelos tienen la ventaja de que pueden expresar la certeza relativa de muchas diferentes respuestas posibles en lugar de sólo uno, produciendo resultados más fiables cuando tal modelo se incluye como un componente de un sistema más grande.

Los sistemas basados en algoritmos de aprendizaje de máquina tiene muchas ventajas sobre las normas de mano de Producción:

• Los procedimientos de aprendizaje utilizados durante el aprendizaje automático enfocan automáticamente en los casos más comunes, mientras que la hora de escribir las reglas a mano, a menudo no es evidente en absoluto que el esfuerzo debe ser dirigido.

• Procedimientos de aprendizaje automáticas pueden hacer uso de algoritmos de inferencia estadística para producir modelos que son robustos a la entrada desconocida y a la entrada errónea. En general, el manejo de estas aportaciones con gracia con las reglas escritas a mano - o, más generalmente, la creación de sistemas de reglas escritas a mano que toman decisiones blandas - es extremadamente difícil, propenso a errores y requiere mucho tiempo.

• Los sistemas basados en el aprendizaje de forma automática las reglas se pueden hacer más precisa simplemente mediante el suministro de más datos de entrada. Sin embargo, los sistemas basados en reglas escritas a mano sólo se pueden hacer más precisa mediante el aumento de la complejidad de las normas, lo cual es una tarea mucho

...

Descargar como (para miembros actualizados) txt (17 Kb)

Leer 10 páginas más »

Leer documento completo Guardar

Disponible sólo en Clubensayos.com