Información y su rol en los sistemas
Enviado por johanaorof • 7 de Octubre de 2013 • Tesis • 1.106 Palabras (5 Páginas) • 278 Visitas
1. Introducción
1.1 Información y su rol en los sistemas
1.1.1 Crecimiento
Hoy en día la información se ha convertido en el arma más poderosa que cualquier país desea tener.
La información se encuentra en todas partes y crece a cada momento.
Volúmenes de datos
KB ~10^3: 1 página tecleada
MB ~10^6: texto de 1 libro
GB ~10^9: sinfonías, libros
TB ~10^12: una biblioteca
Peta-byte ~10^15: bibliotecas EEUU
Exa-byte ~10^18: datos de 1 año
Zeta-byte ~10^21
Yotta-byte ~10^24
¿Cuántos datos? y ¿Cuánta información?
• En 2002 se produjeron 5 exabytes (10^18 bytes), incluyendo impresos, películas, y medios magnéticos y ópticos
• 800 MB por persona (considerando 6.3 mil millones de humanos)
• Biblioteca del Congreso (LC) digitalizada = 136 TB, entonces 5 EB = 37,000 LCs
• 92% discos duros, 7% películas, .01% papel, 0.002% medios ópticos
• EE UU produce 40% de los datos almacenados
Fuente: http://www.sims.berkeley.edu/research/projects/how-much-info-2003/
¿Crecimiento exponencial?
• De 1999 a 2003, crecimiento anual de 30%
• El uso de papel sigue creciendo
• La mayoría de los datos generados no se almacenan en publicaciones formales
• El flujo de datos en líneas telefónicas, radio y TV fue de casi 18 EB (no todo es nuevo)
• WWW = 170 TB
• Email = 400,000 TB por año
• Chat = 274 TB por año
Fuente: http://www.sims.berkeley.edu/research/projects/how-much-info-2003/
Integración de contenidos digitales
• Oportunidades
– Hoy, aun los materiales impresos son primero digitales
– Tesis, reportes técnicos, datos experimentales, notas de cursos, memorias de congresos
• Impacto
– Comunidad global de autores y editores
– Agilidad en la comunicación de resultados
• Problemas
– Distribución, heterogeneidad de formatos, calidad, idioma, derechos de autor
Digitalización de materiales analógicos
• Oportunidades
– Libros antiguos, correspondencia, archivos
– Digitalización “aérea”
– OCR cada vez más preciso
– Disponibilidad de expertos en materiales
• Impacto
– Acceso, preservación, búsquedas, comparaciones
• Problemas
– Selección, materiales deteriorados, frágiles, tipografía antigua, lenguaje antiguo, manuscritos, derechos de autor
Demasiada información.....algunas soluciones
• Construcción de colecciones digitales confiables
• Técnicas de recuperación de información
• Descripción de documentos (metadatos)
• Servidores de alto desempeño
• Mayor ancho de banda (ej. I2)
• Servicios para usar y enriquecer colecciones
1.1.2 Dato, Información, Conocimiento y Sabiduría
Definiciones
• Dato: Una representación física de la realidad
– Ejemplos: números, letras, diagramas, sonidos, videos
• Información: Datos a los que se ha asociado un significado
– Ejemplos: Estados financieros, interpretación musical, conferencia, presentación gráfica
• Conocimiento: Información organizada y accesible para su aplicación a situaciones y problemas específicos
• Sabiduría: Conjunto de conocimientos aplicables a situaciones y problemas diversos
1.2 Datos vs Información
1.2.1 Administración de Datos
Definición
Mecanismos para el almacenamiento, recuperación oportuna y mantenimiento de datos
Recuperación de Datos
• Consiste en determinar que documentos contienen las llaves del query en el documento
• No resuelve algunos problemas ej. el problema de recuperar información acerca de un tema
Características
• Almacenamiento
o Indexamiento
o Bases de datos
• Recuperación
o Consultas estructuradas
o Resultados exactos
o Formateo
1.2.2 Administración de información
Definición
Dada una consulta, la meta es recuperar la información relevante para el usuario.
Recuperación de Información
• Analizar el contenido de una colección de documentos a través de términos
o Sinónimos, términos con significado cercano (serpiente y reptil)
o Polisemia, términos con significado dependiente del contexto (interés, banco)
• Refinar consultas para precisar el contexto de referencia
• La representación y organización de la información deben proveer al usuario un fácil acceso a sus interes personales
Precisión (Precision): cuántos documentos recuperados son relevantes
= Relevantes recuperados / Recuperados
Cobertura (Recall): cuántos documentos relevantes se recuperaron
= Relevantes recuperados / Relevantes
Características
• Almacenamiento
o Bases de datos
o Indices
o Listas invertidas
o Colecciones de archivos
• Recuperación
o Consultas imprecisas
o Leguajes basados en palabras clave
o Resultados aproximados (evaluación de pertinencia)
o Algoritmos de recuperación
...