Optimización De Las Medidas De Desempeño De Un Sistema Recuperador De Información En La Web Semántica
Enviado por Daipop • 6 de Enero de 2015 • 2.235 Palabras (9 Páginas) • 170 Visitas
La cantidad cada vez más creciente de documentos y contenidos multimedia generados por medios digitales, representan un problema de recuperación de archivos en la web cada vez mayor y más aún de la extracción de información que estos contienen. No obstante los mejores esfuerzos de los buscadores actuales, la organización, recuperación, extracción y presentación de la información contenida en la web son problemas complejos de índole interdisciplinario propios de los campos de la lingüística, psicología, semiótica, informática, biblioteconomía y un gran etc. Además, la ambigüedad y el carácter subjetivo de lo que en si la información significa hace que la tarea de recuperación sea lenta para las personas y difícil para las computadoras.
La existencia de una medida de significación e interpretación de la información contenida en las fuentes de información cualitativa es y ha sido siempre un problema complejo propio del campo de las ciencias cognitivas. La calidad de un documento en base a su contenido es un proceso transparente para el ser humano, aunque desconocemos los mecanismos intelectuales por los cuáles seleccionamos y evaluamos las fuentes de información. De tal forma que aún no hay a la fecha un sistema computacional análogo al mecanismo de inferencia propio del ser humano. Sin embargo esto no significa que este mecanismo no exista, ya que, si bien, la interpretación de la información es relativa al punto de vista de cada persona, también es cierto que la homogeneización de los conocimientos y conceptos entre los individuos permiten el entendimiento con sus semejantes y permiten también la concepción de los paradigmas actuales del mundo. A esto se le llama contexto, que en otras palabras sería la relación existente entre la estructura cognitiva del ser humano con el conjunto de elementos externos del mundo que le rodea en un determinado tiempo y lugar; de ahí la diferencia de interpretaciones de una misma fuente de información entre diferentes individuos, aunque todos tenemos ese sistema cognitivo que nos permite inferir, la diferencia consiste en la arquitectura conformada por los conceptos aprendidos y las relaciones entre estos.
En la computadora, el problema no es menos complejo, ya que ésta, como ejecutora de tareas es incapaz de entender las implicaciones de su trabajo y mucho menos el sentido de los datos que se encuentre procesando, por tal razón varios investigadores a lo largo de más de 4 décadas han buscado por varios medios dotar a la computadora con mecanismos de entendimiento que simulen el contexto, introduciendo metadatos que describan a los documentos y ontologías que los relacionen, mecanismos que le permiten a la computadora no entender lo que está haciendo, sino entender las tareas que una persona pide con respecto a ciertos elementos relacionados entre si y proporcionados de antemano con el fin de dar una respuesta más apropiada al problema en específico y evitar en la medida de lo posible “malinterpretar” la petición del usuario arrojando resultados equivocados.
A la fecha, el problema se ha atacado tratando de crear sistemas inteligentes capaces de recuperar los documentos con información significativa de manera automática y al mismo tiempo valorar la calidad de la información recuperada de una fuente por medio de una medida de desempeño o precisión de los documentos recuperados con respecto a la búsqueda realizada. Los modelos probabilísticos han demostrado tener mayor efectividad para esta tarea, que aunque sean métodos artificiales no análogos o inspirados en el ser humano, han logrado minimizar la distancia entre los términos de búsqueda suministrados y la utilidad o precisión de los documentos recuperados, o planteado de otra forma, han logrado maximizar la medida de la calidad de la recuperación de un buscador aunque esta aún no este bien definida.
El advenimiento de estos sistemas tiene sus inicios en los años 70’s cuando la búsqueda de información se realizaba mediante sistemas de recuperación rígidos basados en reglas (sistemas expertos), además del desarrollo de las primeras métricas o benchmarks para evaluar el desempeño de dichos sistemas, mismas que se siguen utilizando en la actualidad; también es en este periodo cuando se lleva a cabo la llamada “Revolución Chomskyana” [2]. Chomsky establece que una palabra, un conjunto de palabras, una imagen o cualquier conjunto de señales sensoriales transmite mensajes y que detrás de este conjunto de señales se generará una idea y que esta idea cambiará dependiendo de la estructura del conjunto (sintaxis) e incluso un mismo mensaje puede generar varias ideas con diferentes significados, a esto le llamó “estructuras sintácticas profundas”, y como la sintaxis determina el significado entonces el estudio de la gramática (estructura) puede darnos información acerca de la idea que se irá a comunicar (función). Todo esto debe ser implementado de alguna manera en los sistemas de recuperación actuales ya que estos deben arrojar resultados basados en el análisis de la estructura de las oraciones formuladas por los usuarios (contexto). A finales de los 90’s y con el crecimiento desmedido del internet, los sistemas extractores y recuperadores de información adquirieron una mayor importancia, lo que antes era una carrera exclusiva entre un cierto grupo de investigadores ahora representaba un problema de índole social, comercial, militar, cultural, etc. Cuya resolución era y sigue siendo imperante; los defectos de los sistemas expertos no se hicieron esperar, dentro de los mayores obstáculos encontramos que las reglas de estos buscadores deben estar actualizadas y deben de abarcar todas las situaciones que se puedan llegar a presentar, cosa muy difícil de hacer ya que estas reglas pueden no ser evidentes, complejas e incluso, cambiantes. También se presentan los problemas de portabilidad de dominios e idiomas, el incremento en la cantidad de documentos e información contenida en internet y la susceptibilidad a fallas de estos sistemas por propagación de error, además de que la web de los usuarios (Web 2.0) y la idealizada web semántica (Web 3.0) han adoptado nuevos paradigmas que la vuelve incompatible con este tipo de sistemas, lo que no da cabida a este tipo de sistemas rígidos. Dado lo anterior, la evolución natural y lógica de estos sistemas se ha volcado hacia otros paradigmas más novedosos como lo son el paradigma de la máquina que aprende (Machine Learning) [3], es decir, usando técnicas de aprendizaje automático o supervisado que adquieran los patrones de extracción necesarios para cierto idioma y dominio en particular. Este paradigma emplea un enfoque denominado “proceso general inductivo” el cuál consiste en extraer automáticamente los patrones o características de cierto documento para pertenecer a una
...