La Web Semántica
Enviado por Ale Mora • 12 de Octubre de 2015 • Trabajo • 2.077 Palabras (9 Páginas) • 105 Visitas
La Web Semántica1 Por: Lluís Codina y Cristòfol Rovira Universidad Pompeu Fabra Departamento de Periodismo y de Comunicación Audiovisual Instituto Universitario de Lingüística Aplicada www.semanticaweb.net www.hipertext.net 2006 Resumen La Web semántica es un proyecto a corto, medio y largo plazo del organismo de regulación más importante del mundo en relación a Internet: el World Wide Web Consortium (W3C a partir de ahora). El proyecto de la Web semántica incluye transformaciones que ya están afectando a los ámbitos de la creación, edición y publicación de páginas y sitios Web2 y que seguirán teniendo una importancia creciente en el futuro. Este capítulo expondrá los conceptos e ideas más importantes relacionadas con la Web semántica, siempre con el telón de fondo de los intereses de la BiblioteconomíaDocumentación. Sumario 1 INTRODUCCIÓN.................................................................................................................................... 2 2 LA WEB SINTÁCTICA...........................................................................................................................5 3 BÚSQUEDA BASADA EN CADENAS DE CARACTERES...............................................................5 4 LA WEB SEMÁNTICA........................................................................................................................... 7 5 INFRAESTRUCTURA DE LA WEB SEMÁNTICA........................................................................... 9 5.1 XML.................................................................................................................................................. 11 5.2 METADATOS Y RDF ............................................................................................................................. 14 5.3 ONTOLOGÍAS......................................................................................................................................... 21 5.4 OWL.................................................................................................................................................. 23 6 PROBLEMAS EN EL PARAÍSO......................................................................................................... 24 7 MIGRACIÓN: UN DISEÑO EXPERIMENTAL................................................................................24 7.1 ANÁLISIS.............................................................................................................................................. 25 8 CONCLUSIONES...................................................................................................................................28 9 BIBLIOGRAFÍA.....................................................................................................................................30 10 ANEXO: GRUPOS DE SEDES WEB ANALIZADOS.....................................................................32 1 Capítulo del libro Tendencias en documentación digital (Trea, 2006). Forma recomendada de citación: 2 Escribiremos Web con mayúscula cuando nos refiramos al conjunto de la Web (es decir a la World Wide Web); mientras que escribiremos web con minúscula para referirnos a un solo sitio o una sola página web. 1 Introducción El W3C (www.w3.org) es el organismo que regula aspectos esenciales de la Web tales como el lenguaje (X)HTML con el cual se crean las páginas y los sitios web. Puede decirse que es, con mucha diferencia, el organismo de normalización más importante de Internet, siendo su director el propio fundador de la Web, Tim Berners-Lee, por lo que sus recomendaciones, que tienen carácter normalizador, poseen un gran prestigio y una enorme influencia. La Web semántica es el proyecto del W3C para transformar la Web en la Web de las próximas décadas. Ante todo, veamos la definición oficial de la Web semántica según el W3C: La Web semántica proporciona un marco común que permite que los datos sean compartidos y reutilizados a través de aplicaciones, empresas y fronteras comunitarias. Es un esfuerzo colaborativo liderado por el W3C con la participación de un gran número de investigadores y socios industriales. Está basado en Resource Description Framework (RDF) e integra una variedad de aplicaciones utilizando XML para la sintaxis y URI para las denominaciones (www.w3.org/2001/sw/) Dos breves apuntes sobre la definición anterior. En primer lugar, parece un tanto críptica, tal como acostumbran a ser, de hecho, las definiciones del W3C. Lo segundo que corresponde señalar es que la Web semántica no (aún) una realidad. De acuerdo con las estimaciones del W3C, el despliegue total de la Web semántica puede prolongarse más allá del año 2010. Sin embargo, la Web semántica ya está entre nosotros de diversas formas. En primer lugar, bajo la forma de una auténtica idea-fuerza, en el sentido de que es una idea que ya ha sido capaz de movilizar energías (e ilusiones) y que, sin duda no dejará de arrojar resultados positivos durante los próximos años. En segundo lugar, aportando nuevos estándares que ya son de uso habitual (como el lenguaje XML) e influenciando en el desarrollo de la nueva generación de navegadores y editores de páginas web. En todo caso, volviendo a su definición, en el proyecto de la Web semántica conviven dos grandes visiones o dos grandes ideas-fuerza cuya confluencia a veces dificulta su interpretación. Por este motivo, nosotros proponemos dos definiciones separadas (que se pueden complementar) de la Web semántica: Definición 1. La visión de la Inteligencia Artificial: La Web semántica es un conjunto de iniciativas destinadas a promover una futura Web cuyas páginas estén organizadas, estructuradas y codificadas de tal manera que los ordenadores sean capaces de efectuar inferencias y razonar a partir de sus contenidos. Definición 2. La visión del procesamiento robusto: La Web semántica es un conjunto de iniciativas destinadas a convertir la World Wide Web en una gran base de datos capaz de soportar un procesamiento sistemático y consistente de la información. Lo que intenta poner en evidencia la primera definición es la visión o la idea-fuerza presente en el proyecto de la Web semántica que proviene de la Inteligencia Artificial (IA a partir de ahora). Es útil recordar que, históricamente, en el campo de la IA se han manejado dos hipótesis: las denominadas hipótesis fuerte y débil. La hipótesis débil sostiene que es posible conseguir ordenadores con inteligencia simulada y con diversos grados de éxito dependiendo del contexto. La hipótesis fuerte afirma que los ordenadores pueden alcanzar inteligencia real e indiferenciable de la humana (Penrose, 1991; Copeland, 1996). Es evidente que los ordenadores actuales no son capaces de razonar ni de realizar inferencias en un modo similar al de los seres humanos, y tras varias décadas de investigación en IA, ni tan solo hay atisbos sobre qué clase de cambio de paradigma en la computación podría conducir en el futuro, aunque solo fuera hipotéticamente, a dotar de inteligencia real a las máquinas. Por tanto, debemos dejar claro que la clase de “razonamientos” que puede esperarse que sean capaces de realizar los ordenadores en el futuro sería, en el mejor de los casos, una simulación de razonamiento como la que postula la versión de la hipótesis débil de la IA. Veamos ahora la definición 2 vinculada a la visión del procesamiento robusto. Lo que separa a un conjunto de documentos con información no estructurada, y por tanto difícil de procesar y de explotar su contenido respecto de un conjunto de registros de una base de datos es la suma de tratamiento sistemático + metadatos propia de estos últimos (y ausente en los primeros). Recordemos que la creación de una típica base de datos documental consiste en definir un grupo de campos, lo que equivaldría en nuestro caso a definir un conjunto de etiquetas como , , etc., para marcar sistemáticamente en cada documento de la base de datos la información que en el documento original aparece sin ninguna identificación explícita. El segundo paso consistirá en vincular cada documento con metadatos mediante etiquetas del estilo , , , , etc. (Abadal, Codina, 2005). Una vez tenemos lo anterior, hemos pasado de información desestructurada a información sistematizada en la que cada línea de texto, cada párrafo o cada grupo de párrafos forma parte de un campo y está vinculado a un conjunto de metadatos. A partir de aquí será sencillo conseguir que la base de datos simule una cierta inteligencia de la que carecen en estos momentos los motores de búsqueda, ya que será capaz de responder a preguntas que actualmente no puede responder un motor de búsqueda. Por ejemplo, en la actualidad no existe forma de pedir a un motor de búsqueda que busque documentos donde la palabra Eco se refiera al nombre de un autor y no a un fenómeno acústico. En cambio, en una base de datos documental es una operación tan trivial que nos pasa absolutamente desapercibida. Es a esta clase de procesamiento sistemático (predecible) y consistente a la que nos queremos referir con la expresión de procesamiento robusto. Ahora bien, dada esta dicotomía, ¿hay algún elemento que nos permita unificar o al menos articular las dos visiones? La respuesta, al menos en nuestra opinión es que sí. Si observamos los elementos de infraestructura en los que confía la visión de la IA, vemos que son en parte los mismos que se requieren para crear una base de datos, es decir los mismos de la visión del procesamiento robusto. En primer lugar, la visión de la AI requiere páginas codificadas de forma consistente, es decir, sin ambigüedad ni contradicciones; pero esto es exactamente lo que proporciona la estructurada basada en campos propia de una base de datos. En segundo lugar, la AI requiere una capa de metadatos que contenga declaraciones sobre las propiedades de los sitios web. Sucede que la asociación sistemática de metadatos a cada documento es lo que corresponde a la práctica de la indización, catalogación, categorización, etc., tan característica de las bases de datos en general, pero muy en particular, de las bases de datos documentales. Lo que separa a ambas visiones es lo siguiente: la primera idea-fuerza es claramente visionaria, para bien y para mal, al confiar en obtener como resultado ordenadores capaces de razonar. Para bien porque sin duda a veces se requieren ideas visionarias para abrir nuevos caminos o para salir de una situación estancada. Para mal, porque a veces las ideas visionarias, al ignorar los hechos más elementales malgastan grandes esfuerzos. La segunda visión, la del procesamiento robusto, está mucho más pegada al terreno. Es solvente, porque se basa en elementos bien probados en el procesamiento de la información, y esa es su gran virtud. Su problema es que carece de la capacidad de fascinación de la primera. Es posible que, si el proyecto de la Web semántica se hubiera limitado a esta segunda visión, nunca hubiera trascendido de las páginas de las revistas especializadas. El proyecto de la Web semántica se enfrenta a retos cualquiera que sea la visión adoptada: nunca se había intentado aplicar la IA a un entorno abierto y descentralizada como es la Web. Tradicionalmente, la IA se había aplicado a dominios del conocimiento y conjuntos de datos bien diferenciados. El modelo clásico son los sistemas expertos, que siempre se limitan a un dominio y a un conjunto de datos restringido. Un ejemplo, es Dendral, un sistema experto para el análisis químico, o Mycin, un sistema experto que ayuda a diagnosticar enfermedades infecciosas de la sangre. Por otro lado, la visión del procesamiento robusto también se enfrenta a retos. Las bases de datos funcionan bien porque, al igual que los sistemas expertos (aunque en un sentido distinto) se limitan a una colección de documentos bien delimitada, aunque sea enorme (pensemos por ejemplo en los millones de registros de Medline o Eric en los cientos de millones de documentos en texto completo de Lexis-Nexis). Es cierto que la Web semántica sería equiparable a una base de datos distribuida como las que ya existen actualmente. El problema es que no existen precedentes, ni mucho menos, de una base de datos distribuida con las dimensiones de la Web, y aún menos una base de datos distribuida que no cuenta con ninguna clase de mecanismo o procedimiento de coordinación entre los componentes de esa base. En todo caso, para entender mejor lo que significa la este proyecto sin duda es útil considerar cómo es la Web actual, a la cual podemos denominar, por oposición a la Web semántica, la Web sintáctica. 2 La Web sintáctica Las páginas HTML actuales disponen de etiquetas tales como h1, h2, etc., para marcar la importancia relativa cada sección de la página: en concreto, la etiqueta h1 está destinada a marcar el título principal de la página, mientras que h2, h3, etc., representan a su vez los títulos de las secciones de segundo, de tercer nivel, etc. Otro ejemplo, son las etiquetas para otorgar énfasis al texto, como cite para señalar la trascripción literal de un texto. HTML, por tanto, aporta algunas etiquetas con valor estructural o funcional, mientras que otras etiquetas, como , , etc., sirven en cambio únicamente para señalar elementos gráficos; en concreto, indican al navegador que el texto que aparece entre los elementos y deben ser mostrados en negrita, mientras que el texto que aparece entre e debe ser mostrado en cursiva. El problema con esta codificación es doble: no solamente carece de cualquier interpretación semántica, sino que, además, sus etiquetas son susceptibles de uso inadecuado: algunas páginas web contienen los elementos h1, h2, etc., intercalados de forma contraria al nivel estructural que representan, por ejemplo, puede aparecer un elemento h1 después de un elemento h2, para conseguir el efecto tipográfico asociado por el navegador con la etiqueta (negrita y un cuerpo más grande). También puede suceder exactamente lo contrario, es decir, que el título principal y los títulos de las secciones carezcan de la etiqueta correspondiente y, en su lugar, el autor de la página haya intentado marcar su importancia mediante atributos de formato (como negrita o cursiva y distintos cuerpo de letra) en lugar de estructurales (como h1, h2, etc.). El resultado es una Web donde la codificación de las páginas, además de poseer un nulo valor semántico (una de las pocas excepciones es la etiqueta
...