INFORMATICA

44505221 de Septiembre de 2013

354 Palabras (2 Páginas)313 Visitas

Página 1 de 2

Introducción

El lenguaje puede ser dividido en piezas de diferentes tamaños, que van desde los morfemas hasta los párrafos. En esta parte introductoria nos enfocaremos en las palabras, el nivel más básico para el NLP. ¿Qué son las palabras? ¿Cómo las representamos en la computadora? Estas preguntas parecen ser triviales, pero veremos que hay algunas cuestiones importantes al tratar de definir y representar las palabras. Una vez atacados esos puntos, estaremos en mejor posición de realizar un procesamiento más interesante, como encontrar palabras relacionadas y analizar el estilo de un texto, categorizar palabras, agruparlas en frases y realizar una variedad de tareas de la ingeniería del lenguaje.

En los siguientes apartados exploraremos la división del texto en palabras; la distinción entre “tipos” y “tokens”; fuentes de texto como la Web o corpus lingüísticos y su acceso a través de Python y NLTK; stemming; la base de datos léxica de WordNet y una variedad de actividades útiles de programación que involucran palabras.

Tokens, tipos y textos

En apartados anteriores mostramos cómo una cadena podía dividirse en una lista de palabras. Una vez generada esta lista, la función len() contaba el número de palabras que contenía:

>>> sentence = “This is the time – - and this is the record of the time.”

>>>words = sentence.split()

>>>len(words)

Este proceso de segmentar una cadena de caracteres en palabras es conocido como tokenización. La tokenización es un preludio a cualquier otra cosa interesante que querramos hacer en el NLP. Discutiremos este proceso en breve.

Podriamos compilar una lista de elementos únicos en una cadena al usar set() para eliminar duplicados:

>>> len(set(words))

Para que entonces si preguntamos cuántas palabras hay en sentence, obtendremos diferentes respuestas dependiendo si contamos o no los duplicados. Claramente usamos diferentes sentidos de “palabra” aquí. Para ayudar a distinguirlos, vamos a definir dos términos:

Un token de palabra es una ocurrencia individual de una palabra en un contexto concreto; existe en tiempo y espacio. Un tipo de palabra es más abstracto; para el ejemplo de arriba es como decir que las tres ocurrencias de “the” en sentence son “la misma palabra”.

Algo similar a una distinción entre tipo-token se refleja en la siguiente interacción en Python:

...

Descargar como (para miembros actualizados) txt (2 Kb)

Leer 1 página más »

Leer documento completo Guardar

Disponible sólo en Clubensayos.com