Big Data Para Lingüística Computacional

Alpinchista17 de Abril de 2013

525 Palabras (3 Páginas)860 Visitas

Página 1 de 3

Los análisis de datos son relevantes para todo tipo de información, como son Big Data, Linked Data, Data-Driven Science, y Data Deluge, aún a pesar de esto, mucho contenido en Internet todavía se encuentra en lenguaje natural, como son los libros, publicaciones académicas, noticias, redes sociales, comunidades en línea, etc. Entender el sentido del lenguaje natural cae en el campo de la lingüística computacional (CL).

Muchos conceptos son importantes, por ejemplo la desambiguación del sentido, asimismo, tenemos el etiquetado de reglas semánticas, el parafraseo y vinculación textual, el resumen automático, y otros.

Los modelos y métodos que la lingüística computacional se ha desarrollado para estas tareas sobre los beneficios de varias décadas de recolección de datos y grandes cantidades de texto, que por lo general requieren un control de calidad por parte de las personas.

CL se refiere a estos activos como los recursos, en oposición a las fuentes de información. Considerando el esfuerzo humano como un cuello de botella, viéndose estos recursos se ven bastante disminuidos. Se debe tener en cuenta que el crowdsourcing no es una alternativa viable para controles de calidad. Entiéndase que el reconocimiento y la eliminación de ambigüedades, por ejemplo, requiere reflexión que va más allá de lo que un típico trabajador pueda realizar.

A partir de 2006, los proyectos como DBpedia, freebase.com, WikiTaxonomy, y YAGO han construido enormes bases de conocimiento (KB) de entidades (personas, lugares, etc.), clases semánticas (por ejemplo, los músicos, ríos, canciones de amor, etc.), y las relaciones entre las entidades (por ejemplo, Trabaja-para, Precio-de, Casado-con, Muerto-en).

Con este fin, YAGO ha generado comunidades que comparten conocimientos utilizando como referencia la Wikipedia, e integró los datos obtenidos con los recursos existentes, en el diccionario WordNet, considerándolo como un columna vertebral semántica.

Las KBs resultantes son grandes activos de datos que combinan la presición y calidad de los recursos tradicionales, con la riqueza y la escalabilidad de fuentes web automáticamente indexadas. Esta tendencia sigue en curso, los KBs siguen creciendo, creándose KBs especializados y acelerando la CL de grande cantidades de datos, obteniendo muchos recursos semánticamente interconectados a nivel de entidades en la Web.

El recurso más utilizado de CL es el diccionario WordNet: una colección de palabras y el sentido de estas. Cada palabra, se asigna a uno o más conceptos, y cada concepto está representado por sus palabras sinónimas que expresan el concepto.

Estos conceptos se organizan en una jerarquía DAG, con generalizaciones, hipérnimos y hipónimos. WordNet contiene más de 100,000 conceptos y sentidos de palabras más de 200,000, todos realizado por personas.

Proyectos de KB como YAGO ha sobrepasado sustancialmente estas cantidades, con recolección de las distintas entidades de Wikipedia y otras fuentes similares (por ejemplo, geonames.org o musicbrainz.org), y mapeando automáticamente estas entidades en sus propias clases de WordNet. Con este fin, YAGO utiliza un analizador de frase (un método de CL) para los nombres de las categorías Wikipedia e identificar sus palabras claves, que determinan los candidatos para superclases de una determinada categoría. Esto a menudo deja ambigüedad y también sin sentido. Yago utiliza métodos heurísticos de gran alcance para la desambiguación. En total, este procedimiento produce cerca 10 millones entidades ontológicamente organizado en cerca de 350.000 clases.

...

Descargar como (para miembros actualizados) txt (4 Kb)

Leer 2 páginas más »

Leer documento completo Guardar

Disponible sólo en Clubensayos.com