Extracción de información de texto
Enviado por David Bautista • 6 de Octubre de 2015 • Apuntes • 3.518 Palabras (15 Páginas) • 140 Visitas
CAPITULO 5
Extracción de información de texto
5.1 Extracción de información
La enorme cantidad de información que existe actualmente en la web dificulta la satisfacción de necesidades específicas de información por parte de los usuarios. Por ejemplo, al hacer uso de una maquina de búsqueda de información (i.e. google) es un escenario común que el usuario deba analizar la información proporcionada con el fin de seleccionar los documentos pertinentes a sus necesidades.
Extracción de Información (EI), (en inglés information extraction) es una disciplina dentro del procesamiento del lenguaje natural (PLN) que se considera un tipo de recuperación de información y su importancia vienen dado por la creciente cantidad de información no estructurada (es decir, sin metadatos) que existe en Internet. Ejemplo, se presenta el siguiente fragmento de una noticia relacionada a ataques terroristas (reportada el 3 de abril del 1990 en la cadena de televisión Inravisión de Bogotá, Colombia):
El senador liberal Federico Estrada Vélez fue secuestrado el tres de abril en la esquina de las calles 60 y 48 oeste en Medellín... Horas después, por medio de una llamada anónima a la policía metropolitana y a los medios, los Extraditables se atribuyeron la responsabilidad del secuestro...La semana pasada Federico Estrada Vélez había rechazado pláticas entre el gobierno y traficantes de drogas.
En este caso, la extracción de información debería ser capaz de extraer la siguiente información relevante: secuestro (tipo de incidente), los Extraditables (como el grupo agresor), Federico Estrada Vélez (como la persona agredida), 3 de abril y Medellín (como fecha y lugar del incidente).
Normalmente, estas plantillas contienen una serie de categorías, como son, las entidades (personas, organizaciones, lugares, fechas, etc.), atributos de las entidades (como título de una persona, tipo de organización, etc.), relaciones que existen entre las entidades (como por ejemplo, la organización X se encuentra en el país Y) y eventos en los que las entidades participan (como por ejemplo, la empresa X firmó un acuerdo con la empresa Y, o bien, X fue agredido por Y).
5.1.1 Arquitectura de la extracción de información.
Iniciamos el procesamiento de un documento usando algunos de los procedimientos que se vieron en los capítulos 3 y 4. Los textos sin formatos se pueden fragmentar en sentencias, y cada sentencia se divide en palabras tokenizadas. De esta manera, cada sentencia fragmentada es etiquetada utilizando el etiquetador de palabras (part-of-speech tagger). Este paso nos ayudara más adelante en el proceso denominado detección de entidades, esto es, para detectar entidades interesantes en cada oración. Por último, se ejecuta el proceso de detección de relaciones, con el fin de detectar aquellas relaciones que ocurren entre las diferentes entidades en del texto.[pic 1]
[pic 2]
[pic 3][pic 4][pic 5]
[pic 6]
5.2 Fragmentación o chunking
La técnica básica para utilizarla en la detección de entidades es la fragmentación, la cual divide y etiqueta las secuencias de multiples tokens. En el siguiente ejemplo podemos ver como se emplea part-of-speech a nivel de palabras en los recuadros pequeños, mientras que en los recuadros más grandes se emplea el método chunking.[pic 7][pic 8]
E | L | N | I | Ñ | O | S | A | L | T | A | L | A | C | E | R | C | A | ||||
DET | NP | VB | DET | ADV |
Una de las ventajas de este método, es que reduce el consumo de memoria en gran cantidad, al elaborar un análisis sintáctico superficial en lugar de desarrollar un árbol completo.
5.2.1 Frases sustantivas Chunking
A continuación veamos la tarea de fragmentación o NP-chunking, donde se buscan fragmentos correspondientes a un EP individual.
[ The/DT market/NN ] for/IN [ system-management/NN software/NN ] for/IN [ Digital/NNP ] [ 's/POS hardware/NN ] is/VBZ fragmented/JJ enough/RB that/IN [ a/DT giant/NN ] such/JJ as/IN [ Computer/NNP Associates/NNPS ] should/MD do/VB well/RB there/RB ./.
Como vemos en el ejemplo un NP-chunks los cuales suelen ser EP más pequeños que los EP completos. Por ejemplo the market for system-management software for Digital's hardware es un sintagma nominal, pero un NP-chunks es capturado en the market.
Una de las razones por las que NP-chunks es diferente a otros es que no contiene otros NP-chunks. El etiquetador de palabras (part-of-speech tagg) es una parte esencial para el proceso de NP-chunks. Veamos un ejemplo de NP-chunks sencillo, en la cual utilizaremos una oración simple a la que aplicaremos primero un proceso de etiquetador de palabras; la regla del NP-chucks dice que para que se aplique este proceso la oración o frase debe de contener, un determinador (DT), adjetivo (JJ) y un sustantivo (NN). Ahora veamos el ejemplo, en cual también podemos ver el resultado en un árbol.
The Little cat sat on the mat
T | h | e | l | i | t | t | l | e | c | a | t | s | a | t | o | n | t | h | e | m | a | t | ||||||
DT | JJ | NN | VBD | IN | DT | NN |
5.2.2 Patrones de etiquetas
Un patrón de etiquetas es una parte esencial del part-of-speech la cual se delimita por los símbolos <>, por ejemplo:
another/DT sharp/JJ dive/NN
trade/NN figures/NNS
any/DT new/JJ policy/NN measures/NNS
earlier/JJR stages/NNS
Panamanian/JJ dictator/NN Manuel/NNP Noriega/NNP
...