Introduccion al XML
Enviado por alucard017 • 5 de Septiembre de 2013 • Examen • 1.469 Palabras (6 Páginas) • 375 Visitas
Introducci´on al XML
Jaime E. Villate.
Universidad de Oporto
villate@fe.up.pt
5 de mayo de 2001
Resumen
Estas notas han sido preparadas para el Seminario sobre Programaci´on en entorno GNU/
Linux, en la universidad Rey Juan Carlos, Madrid, Espa˜na. El est´andar XML ha ganado
mucha popularidad recientemente, debido a su gran utilidad para estructurar informaci´on y
por ser un est´andar abierto y bastante difundido.
Copyright
c 2001, Jaime E. Villate. Este art´ıculo puede ser copiado y distribuido por
cualquier medio, siempre y cuando se mantenga esta nota.
1 Introducci´on
XML significa lenguaje de marcas generalizado (Extensible Markup Language). Es un lenguaje
usado para estructurar informaci´on en un documento o en general en cualquier fichero que contenga
texto, como por ejemplo ficheros de configuraci´on de un programa o una tabla de datos.
Ha ganado much´ısima popularidad en los ´ultimos a˜nos debido a ser un est´andar abierto y libre,
creado por el Cons´orcio World Wide Web, W3C (los creadores de la www), en colaboraci´on con
un panel que incluye representantes de las principales compa˜n´ıas productoras de software.
El XML fue propuesto en 1996, y la primera especificaci´on apareci´o en 1998. Desde entonces
su uso ha tenido un crecimiento acelerado, que se espera que contin´ue durante los pr´oximos a˜nos;
hoy en d´ıa parece que de repente todo el mundo est´a usando, o quiere usar, XML.
1.1 Ventajas del XML
Antes de ser lanzado el XML, ya exist´ıan otros lenguajes de marcas, como por ejemplo el HTML,
basados en el lenguaje generalizado de marcas (SGML). El problema con el SGML es que por
ser muy flexible y muy general, se torna dif´ıcil el an´alisis sint´actico de un documento y la especificaci
´on de la estructura (que como veremos mas adelante se incluye en otro documento llamado
DTD). XML es m´as exigente que SGML en la sintaxis, lo que hace m´as f´acil la construcci´on de
librer´ıas para procesarlo.
Comparado con otros sistemas usados para crear documentos, el XML tiene la ventaja de poder
ser mas exigente en cuanto a la organizaci´on del documento, lo cual resulta en documentos
Introducci ´on al XML 2
mejor estructurados. Por ejemplo en LaTeX existen tambi´en “marcas” que permiten estructurar
un documento, por ejemplo identificando el nombre del autor y el t´ıtulo del documento – los comandos
nauthor y ntitle – sin embargo no existe forma de obligar a los autores de documentos
a que usen estas marcas y algunos de ellos pueden introducir el t´ıtulo de forma que aparezca
visualmente igual a lo que se obtiene cuando se usa nauthor y nmaketitle, sin usar esos comandos;
esto conlleva a problemas cuando queremos extraer de forma autom´atica el t´ıtulo de varios
documentos.
Por ser posible exigir la estructura que deben tener un tipo determinado de documentos, se
vuelve posible extraer informaci´on de varios documentos autom´aticamente, por ejemplo para
crear bases de datos o listados con informaci´on sobre todos los documentos.
2 Conceptos b´asicos
Los ficheros XML son ficheros de texto, que en principio est´a en c´odigo Unicode, pero se pueden
usar otros alfabetos como el latin-1. Existen cinco caracteres especiales en XML: los s´ımbolos
menor que, <, mayor que, >, las comillas dobles, ”, el ap´ostrofe ’ y el caracter &. Los s´ımbolos
mayor que y menor que se usan para delimitar las marcas que dan la estructura al documento.
Cada marca tiene un nombre; veamos un ejemplo: la marca <figura>, que puede tener uno o m´as
atributos: <figura fichero=”foto1.jpg”tipo=”jpeg”> tiene dos atributos, “fichero” y “tipo”. Los
atributos toman valores que tienen que estar entre comillas o entre ap´ostrofes.
Cuando sea necesario usar uno de los 5 caracteres especiales en el texto, para evitar que sean
interpretados de forma especial se usan las siguientes entidades: <, >, ", ',
&, para <, >, ”, ’ y &, respectivamente. Esto explica tambi´en porque & es un caracter
especial: se usa para representar entidades; una entidad es un caracter adicional que no hace
parte del alfabeto usado por defecto en el texto (los caracteres especiales obviamente quedan
excluidos del alfabeto usado para el texto) comienza por &, seguido del nombre de la entidad e
inmediatamente un punto y coma1.
Una diferencia importante con SGML, y en particular HTML, es que los nombres de las marcas
y de sus atributos distinguen entre may´usculas y min´usculas; <a> y <A> serian dos marcas
diferentes. Normalmente se suelen usar ´unicamente min´usculas para los nombres de las marcas y
de sus atributos. Otra diferencia sobresaliente con SGML es que en XML ninguna marca se puede
dejar abierta; o sea, por cada marca, por ejemplo <p> deber´a existir una marca correspondiente
</p> que indica donde termina el contenido de la marca. En el siguiente ejemplo:
<refr´an>El que mucho abarca, poco aprieta</refr´an>
El contenido de la marca “refr´an” esta claramente delimitado entre <refr´an> y </refr´an>. Si
una marca cualquiera no contiene
...