La construcción de un ejemplo de sistemas de contestadores de pregunta INTRODUCCIÓN

Jorge CastrillonTarea13 de Marzo de 2018

7.115 Palabras (29 Páginas)213 Visitas

Página 1 de 29

8 La construcción de un ejemplo de sistemas de contestadores de pregunta

En este capítulo

¡La aplicación de técnicas para los documentos de marcado automáticamente

¡Activar etiquetas de documentos y de subdocumento para aprovecharse

en busca

¡Reordenación documentos devueltos por Solr basado en adicional

Criterios

¡Generación de posibles respuestas a las preguntas de los usuarios

En los capítulos anteriores, hemos visto diferentes tecnologías y enfoques de forma independiente. Aunque todavía nos las hemos arreglado para construir aplicaciones útiles se centran en uno o dos tecnologías, a menudo es necesario combinar varias de las herramientas que hemos descrito hasta ahora para hacer el trabajo. Por ejemplo, la búsqueda y el etiquetado (clasificación) con facetas son algo natural, como son la agrupación y de búsqueda, cuando se trata de ayudar a los usuarios a encontrar y descubrir contenido nuevo y relevante para sus necesidades de información. A los efectos de este capítulo, usted construirá un sistema de pregunta respondiendo (QA), capaz de responder a preguntas basadas en hechos de los usuarios (escritos en Inglés) con juego de búsqueda, reconocimiento de nombre-entidad, y la cadena, entre otras técnicas.

Aunque la mayoría de los otros capítulos se destacan por su cuenta, en este capítulo, asumimos que usted ha leído los capítulos anteriores y por eso no explicamos los conceptos básicos de Solr y otros sistemas aquí.

Antes de seguir adelante y construir un sistema de pregunta respuesta, vamos a mirar hacia atrás en lo que hemos cubierto anteriormente. Verás cómo todos estos elementos proporcionan el conceptual sustenta en este capítulo. En el capítulo 1, discutimos la importancia del texto para diferentes aplicaciones, y se cubren parte de la terminología básica en torno a la búsqueda y procesamiento del lenguaje natural, así como algunos de los desafíos que enfrenta en la construcción tal sistemas. Gran parte de esta fundación se utiliza tanto implícita como explícitamente en este capítulo, aunque no nos llamemos a cabo.

En el capítulo 2, nos centramos en los fundamentos de procesamiento de texto, incluyendo cosas como partes de la oración, el análisis, y la gramática, tal vez recordando su alta días de colegio. También tomamos el tiempo para buscar la forma de obtener el contenido de su formato en bruto y en el formato necesario mediante el aprovechamiento de Apache Tika. Aunque no usamos de forma explícita Tika para este ejemplo, vamos a estar haciendo procesamiento previo sobre el contenido para hacerlo en forma para nuestra tarea. También haremos uso extensivo de herramientas para tokenizing, análisis, y una parte de discurso de marcado contenido con el fin de aprovechar al responder a las preguntas.

Capítulo 3 de búsqueda introducido y Apache Solr como una poderosa plataforma de búsqueda con que usted puede rápida y fácilmente el texto índice y recuperarlo a través de una consulta. Nos pondremos de nuevo apalancamiento Solr aquí como la base para el sistema de pregunta de respuesta junto con algunas de las capacidades más avanzadas de Apache Lucene.

Capítulo 4 aborda cadena coincidente difusa, que es útil en muchos de los días de hoy-operaciones de procesamiento de texto. En este capítulo se utiliza lo que aprendió allí para llevar a cabo corrección ortográfica automática, así como otras técnicas para la coincidencia de cadenas fuzzy tal como N -grams. Algunas de estas técnicas de cuerdas se utilizan en el bajo nivel de Lucene, y pudimos conectar fácilmente un componente de corrección ortográfica en nuestro sistema, aunque elegimos no hacerlo.

En el capítulo 5, se utilizó OpenNLP para identificar y clasificar los nombres propios en el texto.

Aquí, vamos a utilizar OpenNLP de nuevo para realizar esta tarea, así como para identificar las frases. Esta es útil tanto en el análisis de la consulta y en la tramitación del contenido subyacente usamos para la búsqueda de respuestas.

En el capítulo 6, se adentró en el mundo de la agrupación y mostramos cómo podríamos grupo de forma automática junto documentos similares que utilizan técnicas no supervisadas.

Aunque no vamos a demostrarlo en este capítulo, técnicas de agrupamiento pueden ser usados tanto para reducir el espacio de búsqueda en la búsqueda de respuestas y determinar nearduplicates en los propios resultados.

Finalmente, el capítulo 7 le mostró cómo clasificar el texto y utilizar un clasificador de forma automática palabras clave o folksonomía etiquetas asociadas con el nuevo texto. También vamos a utilizar estas técnicas para asignar preguntas entrantes a una categoría en este capítulo.

Ahora que tiene un sentido de lo que hemos hecho, vamos a poner todas estas cosas juntos para construir una aplicación real. Nuestro objetivo en la construcción de un sistema de control de calidad de la muestra es demostrar cómo muchas de las piezas en movimiento que hemos hablado hasta ahora conectar entre sí para formar un sistema de trabajo real. Vamos a construir una aplicación de control de calidad sencillo diseñado para responder a preguntas sobre los hechos que utilizan Wikipedia como la base de conocimientos. A lograr nuestro objetivo, vamos a utilizar Solr como un sistema de referencia no sólo por sus capacidades de búsqueda para la recuperación de pasaje, sino también por su arquitectura de plugin que permite la extensión fácil.

A partir de esta base, se puede conectar en las capacidades de análisis durante la indexación, así como gancho en las capacidades del lado de la búsqueda de analizar preguntas en lenguaje natural de los usuarios y clasificar respuestas y resultados. Comencemos mirando en control de calidad y algunas de sus aplicaciones un poco más.

8.1 Conceptos básicos de un sistema de pregunta de respuesta

Como su nombre indica, un contestador sistema de interrogación (QA) está diseñado para tomar en un entorno natural lenguaje pregunta dice: "¿Quién es el presidente de los Estados Unidos?" - y proporcionar la respuesta. Sistemas de control de calidad aliviar la necesidad de que los usuarios finales para buscar a través de páginas y páginas de resultados de búsqueda o haga clic y navegar por su camino a través de las facetas. Por ejemplo, Sistema Watson DeepQA de IBM (http://www.ibm.com/innovation/us/watson/) utilizó un sofisticado sistema de pregunta de respuesta para jugar contra los humanos en Jeopardy (http: //www.jeopardy.com). ¿Mencionamos que venció en dos de los más grandes Jeopardy! Jugadores de todos ¿hora? Este sistema utiliza un gran número de máquinas para procesar respuestas (recuerde, Jeopardy! Requiere la "respuesta" para estar en la forma de una pregunta) en base a un gran colección de conocimiento del mundo, así como sistemas auxiliares para la reproducción de la estrategia (selección de pistas, las apuestas, y así sucesivamente; véase el gráfico 8.1).

Tenga en cuenta que un sistema de control de calidad automatizado no debe confundirse con cualquiera de los populares sistemas de control de calidad multitud de fuentes en la actualidad la web como Yahoo! Respuestas o ChaCha, incluso si parte de la tecnología que impulsa los sistemas (identificación de preguntas similares, por ejemplo) también es útil en la construcción de sistemas de control de calidad automatizados. En muchos sentidos, la pregunta contestador es como una aplicación de búsqueda: enviar su consulta, por lo general consiste en un un conjunto de palabras clave, y mirar los documentos o páginas que se devuelven por respuesta. En cuestión contestador, normalmente se envía una frase completa como su consulta en lugar de sólo palabras clave.

A cambio de su mayor especificidad, le espera una trozo de texto considerablemente más pequeño que un documento para ser devueltos. En general, la pregunta contestador es difícil, pero en aplicaciones particulares o géneros que pueden ser eficaces. muchas preguntas tienen respuestas complejas y requieren un mucha comprensión para contestar. Como tales, estamos poniendo el listón de nuestra pregunta respondiendo más baja que la comprensión completa, y

en cambio va a construir un sistema que llevará a cabo mejor que una búsqueda estándar de hecho a base de preguntas como "¿Quién es el Presidente de la ¿Estados Unidos?"

[pic 1]

Watson de IBM: ir más allá de Jeopardy!

Sistema de Watson de IBM se demostró en Jeopardy! como una forma de llamar la atención al problema, pero su intención más profunda no es, obviamente, para competir en Jeopardy! sino para ayudar a la gente tamizar a través de la información mucho más rápida y rentable. A citar el sitio web de IBM: 1

Tecnología DeepQA ofrece los seres humanos con una herramienta de gran alcance para su información recopilación y apoyo a las decisiones. Un escenario típico es que el usuario final para entrar a su pregunta en forma de lenguaje natural, tanto como si estuviera pidiendo otra persona, y para el sistema de tamizar a través de grandes cantidades de evidencia potencial para devolver una lista clasificada de la más convincente y preciso respuestas. Estas respuestas incluyen resúmenes de su justificación o apoyar pruebas, lo que permite al usuario evaluar rápidamente la evidencia y seleccionar La respuesta correcta.

...

Descargar como (para miembros actualizados) txt (46 Kb) pdf (791 Kb) docx (741 Kb)

Leer 28 páginas más »

Leer documento completo Guardar

Disponible sólo en Clubensayos.com