Metodologías Para El Desarrollo De Interfaces Visuales De Recuperación De Información: Análisis Y Comparación

dilan12324 de Febrero de 2015

2.463 Palabras (10 Páginas)261 Visitas

Página 1 de 10

Introducción

Con el advenimiento de la World Wide Web a principios de los años 90, el volumen de información electrónica ha experimentado un crecimiento exponencial sin precedentes. Este fenómeno introdujo muchas ventajas en relación con la posibilidad de intercambio, difusión y transferencia de datos pero, sin embargo, acarreó igualmente muchos problemas en relación con el acceso, búsqueda, localización y recuperación de la información relevante dentro de grandes volúmenes de datos.

La investigación en técnicas de recuperación de información ha abordado esta problemática dividiéndola para su estudio en dos grandes estrategias: el querying (interrogación) y el browsing (exploración).

En las estrategias de búsqueda basadas en querying , el usuario introduce una serie de palabras clave que expresen sus necesidades de información, con lo que el sistema tras realizar una equiparación entre consulta y espacio documental, devolverá al usuario una lista de resultados pertinentes para la consulta introducida. Se trata por tanto de una estrategia de búsqueda consciente, que requiere del usuario una formalización previa de sus necesidades de información.

Es los sistemas basados en querying , se debe distinguir entre sistemas de recuperación de datos y recuperación de información (Rijsbergen 1975). Esta diferenciación está motivada principalmente por la técnica que emplean para la equiparación entre consulta y espacio documental, denominadas equiparación exacta y equiparación parcial respectivamente.

La equiparación exacta es un método determinista de comparación entre consulta y conjunto documental, en el que únicamente se resuelven como resultados válidos aquellos documentos que cumplen completamente con las necesidades expresadas en la consulta. En otras palabras, sólo se devolverían como resultados aquellos documentos donde aparecieran todos y cada uno de los términos introducidos en la consulta, aparición que es contabilizada de forma binaria (presencia o ausencia).

En cambio, la equiparación parcial es un método que posibilita tanto la obtención de resultados parcialmente válidos o pertinentes, como la ordenación de estos resultados en función de su grado de relevancia para la consulta introducida. Para ello, el sistema debería hacer uso de algún modelo que proporcione:

Un método para transformar los documentos textuales a representaciones numéricas y computables.

Un método que, sobre esta representación de los datos, realice una ponderación automática de los términos que conforman cada documento.

Un método de equiparación entre consulta y documento que determine en qué grado el documento es relevante para la consulta, en base al peso de cada uno de los términos en el documento.

Entre los diferentes modelos propuestos que cumplen con estos requisitos podemos señalar: Modelo del espacio vectorial, Modelo probabilístico y Modelo de conjuntos difusos.

De estos modelos, el Modelo del espacio vectorial, originalmente propuesto por Salton (1989), es el que ha tenido un mayor éxito. Como indica Moya-Anegón (1994), el probabilístico tiene unos fundamentos muy similares pero una implementación más compleja, y el de conjuntos difusos aún se encuentra poco desarrollado.

En el Modelo de espacio vectorial, la representación de los datos se obtiene mediante la vectorización del conjunto documental: cada documento d se representa por un vector V de términos t, generando una matriz – o espacio - multidimensional con tantas columnas como términos, y filas como documentos.

Partiendo de la premisa de que los términos de un documento representan su contenido (Luhn 1958), la ponderación de cada uno de sus términos se realiza a través de la función tf · idf, donde la frecuencia del término (tf = term frequency) determina la capacidad de representación de un término para un documento dado, y la inversa de la frecuencia del término en todo el conjunto documental (idf = inverse document frequency) determina su capacidad de discriminación.

Como vemos, este método de ponderación permite detectar los términos más significativos para cada documento, un paso necesario para realizar la indización automática del contenido del documento.

Una vez representado numéricamente el conjunto documental y ponderado de forma automática cada uno de los términos de cada documento, la equiparación parcial se obtiene comparando, mediante el uso de funciones de similaridad, la representación vectorizada de la consulta con las de los documentos.

Las funciones de similaridad, como indica Moya-Anegón (1994), son aportaciones que en el campo de la matemática aplicada se habían hecho anteriormente, y que han sido aplicadas al campo de la recuperación de información. Funciones de similaridad hay muchas, pero las que mejores resultados ofrecen son las que se basan en el producto escalar: la del coseno (también llamada de Salton), la de Dice y la de Jaccard.

Estas funciones, aplicadas sobre dos vectores, devuelven como resultado un valor que indica en qué grado se parecen dichos vectores. Por tanto, al ser aplicadas sobre el vector de la consulta y el de cada uno de los documentos, podemos obtener una medida del grado de relevancia que para esa consulta tienen cada uno de los documentos en un repositorio documental determinado.

Como vemos, la mayor ventaja que implica el empleo de técnicas de equiparación parcial, y por tanto el modelo de espacio vectorial, es que posibilitan la ordenación de los resultados en función del grado de certidumbre de que sean relevantes para las necesidades del usuario. Por el contrario, la equiparación exacta únicamente puede determinar si un resultado es válido para una consulta dada, pero no en qué grado, imposibilitando la ordenación de resultados por relevancia. Como sucedáneo la ordenación podría hacerse, no obstante, en base a atributos menos útiles como podría ser la fecha de creación, nombre del autor, etc.

Aunque el querying es la estrategia de acceso a la información actualmente más extendida en la Web y más estudiada en la literatura científica, no siempre resulta suficiente para satisfacer las necesidades del usuario. Cuando el usuario no tiene completamente claro qué está buscando o cuando es incapaz o tiene dificultades para formalizar sus necesidades de información a través del lenguaje de consulta, se requiere de un modelo alternativo o complementario que posibilite al usuario otra vía de acceso a la información.

En la estrategia de búsqueda por bowsing , en oposición al querying , el usuario explora o inspecciona el conjunto documental, sin necesidad de tener que expresar de forma previa cuáles son sus necesidades de información. Esta es una estrategia que usamos en numerosas situaciones de nuestra vida cotidiana (como cuando exploramos las estanterías de una biblioteca o librería en busca de un libro), pero si nos circunscribimos al medio digital, el mejor ejemplo de búsqueda por browsing es la actividad de navegación hipertextual, donde el usuario explora visual y 'espacialmente' el conjunto hiperdocumental con el objetivo de encontrar o localizar información de su interés.

Entre los sistemas de recuperación de información que ofrecen la posibilidad de búsqueda por browsing , cabe destacar aquellos que proveen de un medio específico para realizar browsing gráfico, en forma de representaciones visuales e interactivas resultado de la abstracción gráfica del conjunto documental.

En la tipología de estas representaciones gráficas o visuales, una primera diferenciación que podemos realizar tiene como base el método utilizado para generarlas, distinguiendo así entre representaciones basadas en técnicas artesanales o manuales, y las basadas en técnicas automáticas. Las primeras presentan varios problemas, ya que no reflejan la estructura real de los datos a representar sino una visión subjetiva que de éstos tiene una determinada persona o grupo de personas. Además, presentan problemas relacionados con su escalabilidad y coste de realización. Por estas razones, en este trabajo solo se tendrán en cuenta aquellas generadas de forma automática.

Una de las áreas de investigación más prometedoras basadas en este modelo de browsing gráfico es aquella representada por los estudios en Visualización de Información o Visualización Científica, distinción terminológica condicionada a la naturaleza de los datos a representar (Polanco & Zartl 2002), más concretamente los estudios enfocados al diseño de Interfaces Visuales para la recuperación de información o VIRIs (Visual Interfaces for Information Retrieval).

...

Descargar como (para miembros actualizados) txt (17 Kb)

Leer 9 páginas más »

Leer documento completo Guardar

Disponible sólo en Clubensayos.com