ClubEnsayos.com - Ensayos de Calidad, Tareas y Monografias
Buscar

Introduccion al XML


Enviado por   •  5 de Septiembre de 2013  •  Examen  •  1.469 Palabras (6 Páginas)  •  375 Visitas

Página 1 de 6

Introducci´on al XML

Jaime E. Villate.

Universidad de Oporto

villate@fe.up.pt

5 de mayo de 2001

Resumen

Estas notas han sido preparadas para el Seminario sobre Programaci´on en entorno GNU/

Linux, en la universidad Rey Juan Carlos, Madrid, Espa˜na. El est´andar XML ha ganado

mucha popularidad recientemente, debido a su gran utilidad para estructurar informaci´on y

por ser un est´andar abierto y bastante difundido.

Copyright

c 2001, Jaime E. Villate. Este art´ıculo puede ser copiado y distribuido por

cualquier medio, siempre y cuando se mantenga esta nota.

1 Introducci´on

XML significa lenguaje de marcas generalizado (Extensible Markup Language). Es un lenguaje

usado para estructurar informaci´on en un documento o en general en cualquier fichero que contenga

texto, como por ejemplo ficheros de configuraci´on de un programa o una tabla de datos.

Ha ganado much´ısima popularidad en los ´ultimos a˜nos debido a ser un est´andar abierto y libre,

creado por el Cons´orcio World Wide Web, W3C (los creadores de la www), en colaboraci´on con

un panel que incluye representantes de las principales compa˜n´ıas productoras de software.

El XML fue propuesto en 1996, y la primera especificaci´on apareci´o en 1998. Desde entonces

su uso ha tenido un crecimiento acelerado, que se espera que contin´ue durante los pr´oximos a˜nos;

hoy en d´ıa parece que de repente todo el mundo est´a usando, o quiere usar, XML.

1.1 Ventajas del XML

Antes de ser lanzado el XML, ya exist´ıan otros lenguajes de marcas, como por ejemplo el HTML,

basados en el lenguaje generalizado de marcas (SGML). El problema con el SGML es que por

ser muy flexible y muy general, se torna dif´ıcil el an´alisis sint´actico de un documento y la especificaci

´on de la estructura (que como veremos mas adelante se incluye en otro documento llamado

DTD). XML es m´as exigente que SGML en la sintaxis, lo que hace m´as f´acil la construcci´on de

librer´ıas para procesarlo.

Comparado con otros sistemas usados para crear documentos, el XML tiene la ventaja de poder

ser mas exigente en cuanto a la organizaci´on del documento, lo cual resulta en documentos

Introducci ´on al XML 2

mejor estructurados. Por ejemplo en LaTeX existen tambi´en “marcas” que permiten estructurar

un documento, por ejemplo identificando el nombre del autor y el t´ıtulo del documento – los comandos

nauthor y ntitle – sin embargo no existe forma de obligar a los autores de documentos

a que usen estas marcas y algunos de ellos pueden introducir el t´ıtulo de forma que aparezca

visualmente igual a lo que se obtiene cuando se usa nauthor y nmaketitle, sin usar esos comandos;

esto conlleva a problemas cuando queremos extraer de forma autom´atica el t´ıtulo de varios

documentos.

Por ser posible exigir la estructura que deben tener un tipo determinado de documentos, se

vuelve posible extraer informaci´on de varios documentos autom´aticamente, por ejemplo para

crear bases de datos o listados con informaci´on sobre todos los documentos.

2 Conceptos b´asicos

Los ficheros XML son ficheros de texto, que en principio est´a en c´odigo Unicode, pero se pueden

usar otros alfabetos como el latin-1. Existen cinco caracteres especiales en XML: los s´ımbolos

menor que, <, mayor que, >, las comillas dobles, ”, el ap´ostrofe ’ y el caracter &. Los s´ımbolos

mayor que y menor que se usan para delimitar las marcas que dan la estructura al documento.

Cada marca tiene un nombre; veamos un ejemplo: la marca <figura>, que puede tener uno o m´as

atributos: <figura fichero=”foto1.jpg”tipo=”jpeg”> tiene dos atributos, “fichero” y “tipo”. Los

atributos toman valores que tienen que estar entre comillas o entre ap´ostrofes.

Cuando sea necesario usar uno de los 5 caracteres especiales en el texto, para evitar que sean

interpretados de forma especial se usan las siguientes entidades: <, >, ", &apos;,

&, para <, >, ”, ’ y &, respectivamente. Esto explica tambi´en porque & es un caracter

especial: se usa para representar entidades; una entidad es un caracter adicional que no hace

parte del alfabeto usado por defecto en el texto (los caracteres especiales obviamente quedan

excluidos del alfabeto usado para el texto) comienza por &, seguido del nombre de la entidad e

inmediatamente un punto y coma1.

Una diferencia importante con SGML, y en particular HTML, es que los nombres de las marcas

y de sus atributos distinguen entre may´usculas y min´usculas; <a> y <A> serian dos marcas

diferentes. Normalmente se suelen usar ´unicamente min´usculas para los nombres de las marcas y

de sus atributos. Otra diferencia sobresaliente con SGML es que en XML ninguna marca se puede

dejar abierta; o sea, por cada marca, por ejemplo <p> deber´a existir una marca correspondiente

</p> que indica donde termina el contenido de la marca. En el siguiente ejemplo:

<refr´an>El que mucho abarca, poco aprieta</refr´an>

El contenido de la marca “refr´an” esta claramente delimitado entre <refr´an> y </refr´an>. Si

una marca cualquiera no contiene

...

Descargar como (para miembros actualizados) txt (10 Kb)
Leer 5 páginas más »
Disponible sólo en Clubensayos.com