La construcción de un ejemplo de sistemas de contestadores de pregunta INTRODUCCIÓN
Enviado por Jorge Castrillon • 13 de Marzo de 2018 • Tarea • 7.115 Palabras (29 Páginas) • 105 Visitas
8 La construcción de un ejemplo de sistemas de contestadores de pregunta
En este capítulo
¡La aplicación de técnicas para los documentos de marcado automáticamente
¡Activar etiquetas de documentos y de subdocumento para aprovecharse
en busca
¡Reordenación documentos devueltos por Solr basado en adicional
Criterios
¡Generación de posibles respuestas a las preguntas de los usuarios
En los capítulos anteriores, hemos visto diferentes tecnologías y enfoques de forma independiente. Aunque todavía nos las hemos arreglado para construir aplicaciones útiles se centran en uno o dos tecnologías, a menudo es necesario combinar varias de las herramientas que hemos descrito hasta ahora para hacer el trabajo. Por ejemplo, la búsqueda y el etiquetado (clasificación) con facetas son algo natural, como son la agrupación y de búsqueda, cuando se trata de ayudar a los usuarios a encontrar y descubrir contenido nuevo y relevante para sus necesidades de información. A los efectos de este capítulo, usted construirá un sistema de pregunta respondiendo (QA), capaz de responder a preguntas basadas en hechos de los usuarios (escritos en Inglés) con juego de búsqueda, reconocimiento de nombre-entidad, y la cadena, entre otras técnicas.
Aunque la mayoría de los otros capítulos se destacan por su cuenta, en este capítulo, asumimos que usted ha leído los capítulos anteriores y por eso no explicamos los conceptos básicos de Solr y otros sistemas aquí.
Antes de seguir adelante y construir un sistema de pregunta respuesta, vamos a mirar hacia atrás en lo que hemos cubierto anteriormente. Verás cómo todos estos elementos proporcionan el conceptual sustenta en este capítulo. En el capítulo 1, discutimos la importancia del texto para diferentes aplicaciones, y se cubren parte de la terminología básica en torno a la búsqueda y procesamiento del lenguaje natural, así como algunos de los desafíos que enfrenta en la construcción tal sistemas. Gran parte de esta fundación se utiliza tanto implícita como explícitamente en este capítulo, aunque no nos llamemos a cabo.
En el capítulo 2, nos centramos en los fundamentos de procesamiento de texto, incluyendo cosas como partes de la oración, el análisis, y la gramática, tal vez recordando su alta días de colegio. También tomamos el tiempo para buscar la forma de obtener el contenido de su formato en bruto y en el formato necesario mediante el aprovechamiento de Apache Tika. Aunque no usamos de forma explícita Tika para este ejemplo, vamos a estar haciendo procesamiento previo sobre el contenido para hacerlo en forma para nuestra tarea. También haremos uso extensivo de herramientas para tokenizing, análisis, y una parte de discurso de marcado contenido con el fin de aprovechar al responder a las preguntas.
Capítulo 3 de búsqueda introducido y Apache Solr como una poderosa plataforma de búsqueda con que usted puede rápida y fácilmente el texto índice y recuperarlo a través de una consulta. Nos pondremos de nuevo apalancamiento Solr aquí como la base para el sistema de pregunta de respuesta junto con algunas de las capacidades más avanzadas de Apache Lucene.
Capítulo 4 aborda cadena coincidente difusa, que es útil en muchos de los días de hoy-operaciones de procesamiento de texto. En este capítulo se utiliza lo que aprendió allí para llevar a cabo corrección ortográfica automática, así como otras técnicas para la coincidencia de cadenas fuzzy tal como N -grams. Algunas de estas técnicas de cuerdas se utilizan en el bajo nivel de Lucene, y pudimos conectar fácilmente un componente de corrección ortográfica en nuestro sistema, aunque elegimos no hacerlo.
En el capítulo 5, se utilizó OpenNLP para identificar y clasificar los nombres propios en el texto.
Aquí, vamos a utilizar OpenNLP de nuevo para realizar esta tarea, así como para identificar las frases. Esta es útil tanto en el análisis de la consulta y en la tramitación del contenido subyacente usamos para la búsqueda de respuestas.
En el capítulo 6, se adentró en el mundo de la agrupación y mostramos cómo podríamos grupo de forma automática junto documentos similares que utilizan técnicas no supervisadas.
Aunque no vamos a demostrarlo en este capítulo, técnicas de agrupamiento pueden ser usados tanto para reducir el espacio de búsqueda en la búsqueda de respuestas y determinar nearduplicates en los propios resultados.
Finalmente, el capítulo 7 le mostró cómo clasificar el texto y utilizar un clasificador de forma automática palabras clave o folksonomía etiquetas asociadas con el nuevo texto. También vamos a utilizar estas técnicas para asignar preguntas entrantes a una categoría en este capítulo.
Ahora que tiene un sentido de lo que hemos hecho, vamos a poner todas estas cosas juntos para construir una aplicación real. Nuestro objetivo en la construcción de un sistema de control de calidad de la muestra es demostrar cómo muchas de las piezas en movimiento que hemos hablado hasta ahora conectar entre sí para formar un sistema de trabajo real. Vamos a construir una aplicación de control de calidad sencillo diseñado para responder a preguntas sobre los hechos que utilizan Wikipedia como la base de conocimientos. A lograr nuestro objetivo, vamos a utilizar Solr como un sistema de referencia no sólo por sus capacidades de búsqueda para la recuperación de pasaje, sino también por su arquitectura de plugin que permite la extensión fácil.
A partir de esta base, se puede conectar en las capacidades de análisis durante la indexación, así como gancho en las capacidades del lado de la búsqueda de analizar preguntas en lenguaje natural de los usuarios y clasificar respuestas y resultados. Comencemos mirando en control de calidad y algunas de sus aplicaciones un poco más.
8.1 Conceptos básicos de un sistema de pregunta de respuesta
Como su nombre indica, un contestador sistema de interrogación (QA) está diseñado para tomar en un entorno natural lenguaje pregunta dice: "¿Quién es el presidente de los Estados Unidos?" - y proporcionar la respuesta. Sistemas de control de calidad aliviar la necesidad de que los usuarios finales para buscar a través de páginas y páginas de resultados de búsqueda o haga clic y navegar por su camino a través de las facetas. Por ejemplo, Sistema Watson DeepQA de IBM (http://www.ibm.com/innovation/us/watson/) utilizó un sofisticado sistema de pregunta de respuesta para jugar contra los humanos en Jeopardy (http: //www.jeopardy.com). ¿Mencionamos que venció en dos de los más grandes Jeopardy! Jugadores de todos ¿hora? Este sistema utiliza un gran número de máquinas para procesar respuestas (recuerde, Jeopardy! Requiere la "respuesta" para estar en la forma de una pregunta) en base a un gran colección de conocimiento del mundo, así como sistemas auxiliares para la reproducción de la estrategia (selección de pistas, las apuestas, y así sucesivamente; véase el gráfico 8.1).
...