ClubEnsayos.com - Ensayos de Calidad, Tareas y Monografias
Buscar

Teoría De La Información


Enviado por   •  18 de Noviembre de 2013  •  7.071 Palabras (29 Páginas)  •  260 Visitas

Página 1 de 29

APLICACIONES AL ANÁLISIS AUTOMÁTICO DEL CONTENIDO PROVENIENTES DE LA TEORÍA MATEMÁTICA DE LA INFORMACIÓN

José Antonio Moreiro González** Departamento de Biblioteconomía y Documentación. Universidad Carlos III de Madrid.

Resumen: Reflexión sintética para revisar las propuestas más relevantes que, si- guiendo la teoría matemática de la comunicación de Shannon y Weaver, hayan afectado a los procedimientos del análisis automático del contenido documental. Partiendo del empleo de la teoría matemática en Ciencia de la Información se ex- plican sus aplicaciones metodológicas en nuestra especialidad, en especial respecto a las técnicas de recuperación de la información. Para después describir los mode- los matemáticos aplicados al análisis automático del contenido: leyes de Zipf y Goffman, antidiccionarios para índices permutados, Indización Estadística de Tér- minos por Frecuencias, algoritmos n-grams y de stemming, así como los referidos a los métodos de agrupación y clasificación como clusters por valor de discrimina- ción y por relevancia de los términos como son los métodos de agrupación basados en Grafos Teóricos, los basados en Centros de masas, el algoritmo K-vecinos o K- medias, el K-vecinos axial o incremental, y el algoritmo ISODATA. Para luego exponer los clasificadores cienciométricos como el método de Chen y finalmente los métodos con sistemas de aprendizaje. Palabras clave: Análisis de contenido textual. Análisis automático. Elementos matemáticos. Métodos estadísticos. Métodos probabilísticos. Redes neuronales. Coocurrencias. Métodos basados en centroides. Clustering.

Abstract: This paper analyzes the most important proposals following the Shannon and Weaver's Mathematic Theory of Communication that have influenced in pro- ceedings of automatic content analysis. It's explained the methodological applica- tions of this theory in our discipline, especially about information retrieval. After this, describes the mathematical models applied to automatic content analysis: Laws of Zipf and Goffman, anti-dictionaries to permuted indexes, Statistical Inde- xation of terms by frequencies, n-grams and stemming algorisms. Also studies the methods of relation and classification like clusters by value of discrimination and by relevance of terms: for example, methods of relations based in Graph Theory, mass core, the K-means or incremental K-means, and the ISODATA algorism. Fi- nally, explains the scientometrics indicators as Chen's coowording and methods with learning systems. Keywords: Textual content analysis. Automatic analysis. Statistical methods. Pro- babilistic methods. Neural nets. Co-occurrences. Core methods. Clustering.

∗ jamore@bib.uc3m.es

274 JOSÉ ANTONIO MOREIRO GONZÁLEZ

anales de documentación, n.º 5, 2002

INTRODUCCIÓN

La propuesta de analizar la información desde unidades mensurables ha sido fructífe- ra en el campo de la ingeniería de sistemas de comunicación, pero presenta algunos problemas en lo referente al procesamiento de la información, si no es combinado con métodos lingüísticos. Si la teoría matemática ayudó a que el concepto de información y su tratamiento fuese objeto de innumerables estudios en Documentación, originados casi siempre dentro de la American Society for Information Science, podemos afirmar que, en general, los resultados que ha producido tienen que compatibilizarse con métodos semánticos si se quieren obtener aplicaciones válidas. La primera teoría de la información surgió de la propuesta de Shanon y Weaver con el propósito de fijar un modelo de entropía sobre la suma de información requerida en una situación dada para eliminar la incertidumbre1. La información para ellos era una medida de libertad de elección al seleccionar un mensaje desde una fuente dada. Shannon y Weaver, ingenieros, buscaban un concepto de información formalizado, que pudiese expresarse en medidas. Nuestro propósito es revisar las propuestas más repre- sentativas sucesivas a la concepción de Shannon y Weaver, y que hayan tenido como destino el análisis automático del contenido documental. Emplear una Teoría de la Comunicación, de carácter eminentemente mecánico, a una especialidad en la que tiene gran importancia la significación de los mensajes transmiti- dos es tarea limitada y dificultosa. Lo que no ha impedido que, más de cincuenta años después de su definición, la teoría matemática de la comunicación siga siendo aceptada o rechazada de acuerdo con aplicaciones concretas. Las medidas de la información han sido útiles para su aplicación a la recuperación documental, así como para comparar documentos, fijar nociones, hacer mediciones, y desde luego, para el análisis de conteni- do automático2.

1. EL EMPLEO DE LA TEORÍA MATEMÁTICA DE LA INFORMACIÓN

En la teoría de Shannon y Weaver la cantidad de información contenida en un men- saje se define en función de la frecuencia relativa de utilización de los diferentes símbo- los que lo componen: a.- Los mensajes son transmitidos desde la fuente al usuario por una vía de comunica- ción, b.- para que el mensaje pueda recorrer esa vía debe ser codificado, c.- y luego, descodificado para que lo comprenda convenientemente el destinatario.

El problema está en la transición de los símbolos del mensaje que entró a los del mensaje que salió. Esta posibilidad de imperfección se llama ruido. Sin ruido, la canti- 1 Shannon, C.E. y Weaver, W.- The mathematical theory of Communication. Urbana: University of Illinois Press, 1949. 2 Ellis, D.-The effectiveness of information retrieval systems: the need for improved explanatory frameworks, en Social Sciences Information Studies, 1984, 4, nº 4: 265.

APLICACIONES AL ANÁLISIS AUTOMÁTICO DEL CONTENIDO PROVINIENTES DE … 275

anales de documentación, n.º 5, 2002

dad de información de un mensaje es la misma a la salida que a la entrada. Con ruido nacen la ambigüedad y los equívocos. Para evitarlos habrá que transmitir el mensaje con redundancia, aunque esto suponga una pérdida relativa de información. La principal objeción que desde el primer momento presentó su Teoría matemática de la Comunicación fue la de no considerar los aspectos relativos al significado de los mensajes, por lo que debemos considerar el cuerpo especulativo al que abrieron paso como una teoría de señales, no como una auténtica teoría de la información3. Aún manteniendo una postura de equilibrada duda al contemplar que las aplicaciones hechas con efectividad se habían limitado a fenómenos particulares, Jean-Bernard Mari- no analizó la posibilidad de nuevas aplicaciones de cada una de ellas, principalmente a través de las bases de datos accesibles.

...

Descargar como (para miembros actualizados) txt (42 Kb)
Leer 28 páginas más »
Disponible sólo en Clubensayos.com