Extracción de información de texto

David BautistaApuntes6 de Octubre de 2015

3.518 Palabras (15 Páginas)267 Visitas

Página 1 de 15

CAPITULO 5

5.1 Extracción de información

La enorme cantidad de información que existe actualmente en la web dificulta la satisfacción de necesidades específicas de información por parte de los usuarios. Por ejemplo, al hacer uso de una maquina de búsqueda de información (i.e. google) es un escenario común que el usuario deba analizar la información proporcionada con el fin de seleccionar los documentos pertinentes a sus necesidades.

Extracción de Información (EI), (en inglés information extraction) es una disciplina dentro del procesamiento del lenguaje natural (PLN) que se considera un tipo de recuperación de información y su importancia vienen dado por la creciente cantidad de información no estructurada (es decir, sin metadatos) que existe en Internet. Ejemplo, se presenta el siguiente fragmento de una noticia relacionada a ataques terroristas (reportada el 3 de abril del 1990 en la cadena de televisión Inravisión de Bogotá, Colombia):

El senador liberal Federico Estrada Vélez fue secuestrado el tres de abril en la esquina de las calles 60 y 48 oeste en Medellín... Horas después, por medio de una llamada anónima a la policía metropolitana y a los medios, los Extraditables se atribuyeron la responsabilidad del secuestro...La semana pasada Federico Estrada Vélez había rechazado pláticas entre el gobierno y traficantes de drogas.

En este caso, la extracción de información debería ser capaz de extraer la siguiente información relevante: secuestro (tipo de incidente), los Extraditables (como el grupo agresor), Federico Estrada Vélez (como la persona agredida), 3 de abril y Medellín (como fecha y lugar del incidente).

Normalmente, estas plantillas contienen una serie de categorías, como son, las entidades (personas, organizaciones, lugares, fechas, etc.), atributos de las entidades (como título de una persona, tipo de organización, etc.), relaciones que existen entre las entidades (como por ejemplo, la organización X se encuentra en el país Y) y eventos en los que las entidades participan (como por ejemplo, la empresa X firmó un acuerdo con la empresa Y, o bien, X fue agredido por Y).

5.1.1 Arquitectura de la extracción de información.

Iniciamos el procesamiento de un documento usando algunos de los procedimientos que se vieron en los capítulos 3 y 4. Los textos sin formatos se pueden fragmentar en sentencias, y cada sentencia se divide en palabras tokenizadas. De esta manera, cada sentencia fragmentada es etiquetada utilizando el etiquetador de palabras (part-of-speech tagger). Este paso nos ayudara más adelante en el proceso denominado detección de entidades, esto es, para detectar entidades interesantes en cada oración. Por último, se ejecuta el proceso de detección de relaciones, con el fin de detectar aquellas relaciones que ocurren entre las diferentes entidades en del texto.[pic 1]

[pic 2]

[pic 3][pic 4][pic 5]

[pic 6]

5.2 Fragmentación o chunking

La técnica básica para utilizarla en la detección de entidades es la fragmentación, la cual divide y etiqueta las secuencias de multiples tokens. En el siguiente ejemplo podemos ver como se emplea part-of-speech a nivel de palabras en los recuadros pequeños, mientras que en los recuadros más grandes se emplea el método chunking.[pic 7][pic 8]

DET

ADV

Una de las ventajas de este método, es que reduce el consumo de memoria en gran cantidad, al elaborar un análisis sintáctico superficial en lugar de desarrollar un árbol completo.

5.2.1 Frases sustantivas Chunking

A continuación veamos la tarea de fragmentación o NP-chunking, donde se buscan fragmentos correspondientes a un EP individual.

[ The/DT market/NN ] for/IN [ system-management/NN software/NN ] for/IN [ Digital/NNP ] [ 's/POS hardware/NN ] is/VBZ fragmented/JJ enough/RB that/IN [ a/DT giant/NN ] such/JJ as/IN [ Computer/NNP Associates/NNPS ] should/MD do/VB well/RB there/RB ./.

Como vemos en el ejemplo un NP-chunks los cuales suelen ser EP más pequeños que los EP completos. Por ejemplo the market for system-management software for Digital's hardware es un sintagma nominal, pero un NP-chunks es capturado en the market.

Una de las razones por las que NP-chunks es diferente a otros es que no contiene otros NP-chunks. El etiquetador de palabras (part-of-speech tagg) es una parte esencial para el proceso de NP-chunks. Veamos un ejemplo de NP-chunks sencillo, en la cual utilizaremos una oración simple a la que aplicaremos primero un proceso de etiquetador de palabras; la regla del NP-chucks dice que para que se aplique este proceso la oración o frase debe de contener, un determinador (DT), adjetivo (JJ) y un sustantivo (NN). Ahora veamos el ejemplo, en cual también podemos ver el resultado en un árbol.

The Little cat sat on the mat

VBD

5.2.2 Patrones de etiquetas

Un patrón de etiquetas es una parte esencial del part-of-speech la cual se delimita por los símbolos <>, por ejemplo:

?*NN. Estos patrones de etiquetas son similares a los patrones de expresión regulares. Tenga en cuenta los siguientes sintagmas nominales de wall street journal:

another/DT sharp/JJ dive/NN

trade/NN figures/NNS

any/DT new/JJ policy/NN measures/NNS

earlier/JJR stages/NNS

Panamanian/JJ dictator/NN Manuel/NNP Noriega/NNP

Se puede realizar cambios a estos patrones de etiquetas con una ligera modificación en la expresión, es decir

?*+. Con lo que esta modificación se inicia una nueva búsqueda comenzando con un determinador opcional, seguido de ninguno o más adjetivos de cualquier tipo, uno o más sustantivos de cualquier tipo. Sin embargo es fácil de toparse con ejemplos que no cumplen con esta regla.

his/PRP$ Mansion/NNP House/NNP speech/NN

the/DT price/NN cutting/VBG

3/CD %/NN to/TO 4/CD %/NN

more/JJR than/IN 10/CD %/NN

the/DT fastest/JJS developing/VBG trends/NNS

's/POS skill/NN

5.2.3 Fragmentación con expresiones regulares

Para descubrir la estructura de un fragmento (chunks) que se encuentra dentro de una sentencia dada, se emplea ragexpParse, el fragmento (chunks) comienza con una estructura simple sin tokenizar. La regla del chunking se aplica sucesivamente en turnos actualizando la estructura chunk. Una vez que todas las normas han sido invocadas se devuelve la estructura fragmentada.

El siguiente ejemplo muestra una frase simple formada por dos reglas.

...

Descargar como (para miembros actualizados) txt (21 Kb) pdf (623 Kb) docx (382 Kb)

Leer 14 páginas más »

Leer documento completo Guardar

Disponible sólo en Clubensayos.com