Base De Datos Documentales
Enviado por cibergenesis • 10 de Mayo de 2014 • 17.603 Palabras (71 Páginas) • 346 Visitas
Recuperación de Información
Ernest Abadal, Lluís Codina
Bases de Datos Documentales: Características, funciones y método. Capítulo 2. p. 29-92. Madrid: Síntesis, 2005 (84-9756-263-1)
2. Recuperación de Información
2.1. Definición y contexto
Recuperar significa volver a tener. Recuperar información significa volver a tener una información que alguna vez, hace unos minutos o hace unos años, ha sido producida por alguien, bien por nosotros mismos o bien por terceras personas.
La Recuperación de Información (RI, a partir de ahora) es la disciplina que estudia la representación, la organización y el acceso eficiente a la información que se encuentra registrada en documentos.
De las operaciones propias de la RI, sin duda la más característica consiste en la selección de documentos, bien a partir de las características de su contenido, (los temas tratados), bien a partir de características de su contexto (p.e. la fecha de publicación,) bien a partir de alguna combinación de ambas cosas (p.e: "documentos sobre desarrollo humano publicados por UNESCO entre 2003 y 2005").
Ahora bien, para que la RI tenga sentido se presupone un entorno en el cual no es trivial, precisamente, el hecho de acceder a los documentos por su contenido. Este contexto lo genera, típicamente, cualquier fondo documental a partir del momento que contenga unos centenares o unos miles de documentos. Empresas pequeñas, medianas o grandes, con ejecutivos, abogados, químicos o ingenieros que necesitan encontrar una información en fondos internos o externos es un ejemplo. Universitarios e investigadores que necesitan consultar bases de datos bibliográficas para asegurarse de que no reinventan la rueda es otro. Finalmente, la Web, que en realidad es un enorme sistema de información documental con varios miles de millones de documentos es el ejemplo extremo de contexto característico de RI.
Los sistemas de RI no son los únicos sistemas de información que existen. En tal sentido, en relación a otros métodos de procesamiento de la información, la RI presenta algunos rasgos bien definidos que presentamos a continuación:
- Primero, aunque también utiliza ordenadores, como casi cualquier otro sistema de información actual, la intervención de los mismos varía mucho, yendo desde sistemas de RI mediante ordenador a sistemas de RI asistidos por ordenador.
- Segundo, gestiona información de cualquier tipo, desde textos hasta videos, pasando por reproducciones de arte o fotografías, pero siempre mediante el uso información textual.
- Tercero, tiene lugar en lo que aquí llamaremos un contexto de descubrimiento.
El significado detallado de los tres rasgos precedentes es el siguiente:
1. Uso de ordenadores (automatización). La RI se caracteriza por el uso de ordenadores y, por tanto, por el uso de bases de datos u otros sistemas automáticos o semi automáticos de procesamiento de la información, tales como hipertextos. Aunque es lógicamente posible desarrollar sistemas de RI exclusivamente manuales, la teoría (y la práctica) de la RI nació de hecho con las primeras bases de datos y la mayoría de sus procedimientos o algoritmos sólo tienen sentido en un medio automatizado.
2. Uso de información textual. La RI gestiona información textual de tipo narrativo o discursivo, en lugar de, por ejemplo, datos númericos o alfanuméricos muy estructurados, como hacen otros sistemas de información, por ejemplo, los sistemas administrativos (Salton; McGill, 1983: viii). Cuando la RI gestiona documentos u objetos no textuales, como imágenes, fotografías, video, etc., lo hace también a través de descripciones textuales (p.e., descripciones de las imágenes) y/o de conjuntos de palabras que expresan el contenido y el contexto de las imágenes.
3. Contexto de descubrimiento. La RI se caracteriza por tener lugar en un contexto en el cual los usuarios del sistema de información tienen la necesidad de descubrir qué entidades cumplen una o más condiciones, , por ejemplo, qué documentos contienen información relevante para interpretar, desde el punto de vista x, el tema y. En otros sistemas de información, en cambio, los usuarios, partiendo de una entidad previamente conocida, quieren saber algo más de ella. La diferencia entre descubrir cosas y ampliar datos es esencial para entender la naturaleza de la RI.
Algunos desarrollos en sistemas de información son ineficaces porque sus diseñadores no entendieron esa diferencia. Por ejemplo, un sistema de información documental automatizado mediante el uso de una base de datos relacional probablemente no podrá satisfacer la necesidad de descubrir, aunque solucione muy bien la necesidad de ampliar.
En concreto, como sistema documental su utilidad probablemente será parcial, porque las preguntas de descubrimiento, las que tienen la siguiente forma: qué documentos contienen información relevante sobre los temas x e y (p.e.: "documentos sobre museos y turismo") no podrá contestarlas de manera eficiente. Sólo dará un buen rendimiento ante preguntas de ampliación de datos, de la forma: cuáles es el valor del parámetros a en el registro X (por ejemplo: "cuál es el teléfono del Museo del Prado").
Naturalmente, de un buen sistema de RI se espera que pueda satisfacer preguntas de ampliación de datos como la anterior pero, sobre todo, se espera que pueda responder a preguntas de descubrimiento.
Para ampliar un poco más esta idea, cabe señalar que la RI está relacionada con la gestión de documentos que contienen informaciones culturales, científicas y técnicas y, más concretamente, con el problema de cómo explotar el conocimiento que contienen esta clase de publicaciones.
Entendemos por información científica el resultado de aplicar el método científico, que es hipotético-deductivo, a un problema de conocimiento, y su expresión en forma de proposiciones contrastables, argumentos, explicaciones, etc. La técnica es ciencia aplicada, y entendemos por información técnica el resultado de aplicar alguna rama de la ciencia a un rango de problemas concretos. Por otro lado, el concepto de información cultural es mucho más amplio. Un artículo de opinión puede contener conocimientos muy valiosos, y formar parte, por tanto, de la alta cultura, pero no es ni científico ni técnico. Algo parecido podría decirse de un buen ensayo, un reportaje periodístico, etc.
Para referirnos a esta triple clase de documentos (científicos, técnicos, culturales), y siguiendo a Van Slype (1988: 1-3), utilizaremos, en adelante, el término
...