ClubEnsayos.com - Ensayos de Calidad, Tareas y Monografias
Buscar

Teoría De La Información

na.lh1518 de Noviembre de 2013

7.071 Palabras (29 Páginas)279 Visitas

Página 1 de 29

APLICACIONES AL ANÁLISIS AUTOMÁTICO DEL CONTENIDO PROVENIENTES DE LA TEORÍA MATEMÁTICA DE LA INFORMACIÓN

José Antonio Moreiro González** Departamento de Biblioteconomía y Documentación. Universidad Carlos III de Madrid.

Resumen: Reflexión sintética para revisar las propuestas más relevantes que, si- guiendo la teoría matemática de la comunicación de Shannon y Weaver, hayan afectado a los procedimientos del análisis automático del contenido documental. Partiendo del empleo de la teoría matemática en Ciencia de la Información se ex- plican sus aplicaciones metodológicas en nuestra especialidad, en especial respecto a las técnicas de recuperación de la información. Para después describir los mode- los matemáticos aplicados al análisis automático del contenido: leyes de Zipf y Goffman, antidiccionarios para índices permutados, Indización Estadística de Tér- minos por Frecuencias, algoritmos n-grams y de stemming, así como los referidos a los métodos de agrupación y clasificación como clusters por valor de discrimina- ción y por relevancia de los términos como son los métodos de agrupación basados en Grafos Teóricos, los basados en Centros de masas, el algoritmo K-vecinos o K- medias, el K-vecinos axial o incremental, y el algoritmo ISODATA. Para luego exponer los clasificadores cienciométricos como el método de Chen y finalmente los métodos con sistemas de aprendizaje. Palabras clave: Análisis de contenido textual. Análisis automático. Elementos matemáticos. Métodos estadísticos. Métodos probabilísticos. Redes neuronales. Coocurrencias. Métodos basados en centroides. Clustering.

Abstract: This paper analyzes the most important proposals following the Shannon and Weaver's Mathematic Theory of Communication that have influenced in pro- ceedings of automatic content analysis. It's explained the methodological applica- tions of this theory in our discipline, especially about information retrieval. After this, describes the mathematical models applied to automatic content analysis: Laws of Zipf and Goffman, anti-dictionaries to permuted indexes, Statistical Inde- xation of terms by frequencies, n-grams and stemming algorisms. Also studies the methods of relation and classification like clusters by value of discrimination and by relevance of terms: for example, methods of relations based in Graph Theory, mass core, the K-means or incremental K-means, and the ISODATA algorism. Fi- nally, explains the scientometrics indicators as Chen's coowording and methods with learning systems. Keywords: Textual content analysis. Automatic analysis. Statistical methods. Pro- babilistic methods. Neural nets. Co-occurrences. Core methods. Clustering.

∗ jamore@bib.uc3m.es

274 JOSÉ ANTONIO MOREIRO GONZÁLEZ

anales de documentación, n.º 5, 2002

INTRODUCCIÓN

La propuesta de analizar la información desde unidades mensurables ha sido fructífe- ra en el campo de la ingeniería de sistemas de comunicación, pero presenta algunos problemas en lo referente al procesamiento de la información, si no es combinado con métodos lingüísticos. Si la teoría matemática ayudó a que el concepto de información y su tratamiento fuese objeto de innumerables estudios en Documentación, originados casi siempre dentro de la American Society for Information Science, podemos afirmar que, en general, los resultados que ha producido tienen que compatibilizarse con métodos semánticos si se quieren obtener aplicaciones válidas. La primera teoría de la información surgió de la propuesta de Shanon y Weaver con el propósito de fijar un modelo de entropía sobre la suma de información requerida en una situación dada para eliminar la incertidumbre1. La información para ellos era una medida de libertad de elección al seleccionar un mensaje desde una fuente dada. Shannon y Weaver, ingenieros, buscaban un concepto de información formalizado, que pudiese expresarse en medidas. Nuestro propósito es revisar las propuestas más repre- sentativas sucesivas a la concepción de Shannon y Weaver, y que hayan tenido como destino el análisis automático del contenido documental. Emplear una Teoría de la Comunicación, de carácter eminentemente mecánico, a una especialidad en la que tiene gran importancia la significación de los mensajes transmiti- dos es tarea limitada y dificultosa. Lo que no ha impedido que, más de cincuenta años después de su definición, la teoría matemática de la comunicación siga siendo aceptada o rechazada de acuerdo con aplicaciones concretas. Las medidas de la información han sido útiles para su aplicación a la recuperación documental, así como para comparar documentos, fijar nociones, hacer mediciones, y desde luego, para el análisis de conteni- do automático2.

1. EL EMPLEO DE LA TEORÍA MATEMÁTICA DE LA INFORMACIÓN

En la teoría de Shannon y Weaver la cantidad de información contenida en un men- saje se define en función de la frecuencia relativa de utilización de los diferentes símbo- los que lo componen: a.- Los mensajes son transmitidos desde la fuente al usuario por una vía de comunica- ción, b.- para que el mensaje pueda recorrer esa vía debe ser codificado, c.- y luego, descodificado para que lo comprenda convenientemente el destinatario.

El problema está en la transición de los símbolos del mensaje que entró a los del mensaje que salió. Esta posibilidad de imperfección se llama ruido. Sin ruido, la canti- 1 Shannon, C.E. y Weaver, W.- The mathematical theory of Communication. Urbana: University of Illinois Press, 1949. 2 Ellis, D.-The effectiveness of information retrieval systems: the need for improved explanatory frameworks, en Social Sciences Information Studies, 1984, 4, nº 4: 265.

APLICACIONES AL ANÁLISIS AUTOMÁTICO DEL CONTENIDO PROVINIENTES DE … 275

anales de documentación, n.º 5, 2002

dad de información de un mensaje es la misma a la salida que a la entrada. Con ruido nacen la ambigüedad y los equívocos. Para evitarlos habrá que transmitir el mensaje con redundancia, aunque esto suponga una pérdida relativa de información. La principal objeción que desde el primer momento presentó su Teoría matemática de la Comunicación fue la de no considerar los aspectos relativos al significado de los mensajes, por lo que debemos considerar el cuerpo especulativo al que abrieron paso como una teoría de señales, no como una auténtica teoría de la información3. Aún manteniendo una postura de equilibrada duda al contemplar que las aplicaciones hechas con efectividad se habían limitado a fenómenos particulares, Jean-Bernard Mari- no analizó la posibilidad de nuevas aplicaciones de cada una de ellas, principalmente a través de las bases de datos accesibles. Distribuyó en tres bloques las aplicaciones de la teoría matemática4: 1. Indización mediante tarjetas perforadas: en la década de 1950 Garfield indizó docu- mentos biomédicos mediante tarjetas perforadas. Los codificó de tal manera que el número de perforaciones coincidía con la frecuencia de uso de los descriptores en el total del glosario. Los descriptores más utilizados recibían así la codificación más breve. 2. Evaluación de los resultados de un sistema documental: se trata de desligar el siste- ma de salida del sistema de entrada, transmitiendo por una vía con ruido. Los men- sajes recibidos tenían una triple codificación y su probabilidad de ser recuperados dependía de una tabla de contingencias. Fue utilizado por Meetham, Belzer, Cawkel y Guazzo. 3. Indización por frases: Briner aplicó los conceptos de la teoría matemática a los com- ponentes gramaticales de un texto escrito, deduciendo una capacidad de transmisión del conocimiento por palabra análoga a la fórmula que cuantifica la capacidad de una vía. Para las palabras ambiguas Briner amplió el principio a indización de la frase entera que las contenía.

Buscando identificar las leyes que rigen los fenómenos informativos, Zunde y Gehl analizaron otras aplicaciones de carácter empírico. Justificaban así su búsqueda de expli- caciones desde la línea matemática5: "El objeto de estudio de la ciencia de la información son fenómenos empíricos asociados con procesos de información tales como la generación, transmisión, transformación, condensación, almacenamiento y recuperación. El propósito úl- timo consiste en alcanzar una comprensión mejor de la naturaleza de la informa- ción".

3 Fox, C.J.- Information and misinformation: an investigation of the notions of information, misinformation, informing and misinforming. London: Greenwood Press, 1983: 58-60. 4 Marino, J.B.- Quelques applications de la théorie mathématique de la communication en Sciences de l'information, en Documentaliste, 1983, 20, nº 2: 60. 5 Zunde, P. y Gehl, J.- Empirical foundations of Information Science, en Annual Review on Information Science and Technology, 1979, 14: 79.

276 JOSÉ ANTONIO MOREIRO GONZÁLEZ

anales de documentación, n.º 5, 2002

Precisamente las dudas que existen sobre el nivel científico de nuestra especialidad tienen su origen en que las teorías son las últimas que se desarrollan dentro de los pro- blemas y principios racionales de esta ciencia. Entre estas teorías fundamentales, las más antiguas fueron las de Zipf, Bradford y Lotka, revisadas en 1969 por Fairthorne, que originó con ellas el modelo de distribución hiperbólica de la información, cuya expre- sión generalizada es la cumulative advantage6. Más tarde, Price reformuló esta teoría sobre la premisa de que ciertos procesos informativos se pueden explicar a partir de que el éxito

...

Descargar como (para miembros actualizados) txt (42 Kb)
Leer 28 páginas más »
Disponible sólo en Clubensayos.com