我爱编程华南理工大学无线电爱好者协会软件小组

XML中的DTD约束

2017-02-06  本文已影响0人  tobe_superman

什么是约束?

在XML技术里,可以编写一个文档来约束一个XML文档的书写规范,这就是XML约束。约束定义了文档的结构,在某种程度上,也说明了如何在文档结构中放置数据。事实上,如果用XML作为数据的呈现,文档就无法与约束相脱离。
约束一般有两种:DTD和Schema,这里先介绍DTD。

DTD简介

DTD(Document Type Definition),全称为文本类型定义,用于定义合法的XML文档构建模块。

先写一个简单的关于书本信息的XML文档:

<?xml version="1.0" encoding="UTF-8"?>
<books>
    <book id=“01”>
        <name>三体</name>
        <author>刘慈欣</author>
        <price>23.8</price>
    </book>
    <book id=“02”>
        <name>龙族</name>
        <author>江南</author>
        <price>19.6</price>
    </book>
</books>

DTD元素声明

在DTD中,XML中的元素要通过元素声明来声明,语法为:

<!ELEMENT 元素名称 (元素内容)>

或:

<!ELEMENT 元素名称 类别>

下面是四种不同的元素:

例如一个元素为<title></title>(也可以写成<title />),则在DTD中它的声明为<!ELEMENT title EMPTY>

或:

  <!ELEMENT 元素名称 (子元素名称1,子元素名称2,...)>

以上面的XML文档为例,在DTD中,book元素的声明应为<!ELEMENT book (name,author,price)>。需要注意的是,当元素拥有多个子元素时,这些子元素必须按照由逗号分隔开的序列进行声明并且按照相同的顺序出现在XML文档中。

例如,name元素的声明应为<!ELEMENT name (#PCDATA)>

此外,对于不同的元素内容,DTD也规定了不同的元素声明(这里的元素内容是针对子元素来说的,而声明都是对父元素的声明):

例如,如果想要声明book元素,则应为<!ELEMENT book (name)>。需要注意的是,这里的name必须是book元素的唯一子元素,而且只能出现一次。当然如果子元素有多个且都仅出现一次,就要写成<!ELEMENT 元素名称 (子元素名称1,子元素名称2,...)>

例如,book的子元素有三种可能,即nameauthor以及price,这时声明应为<!ELEMENT book (name|author|price)>,即各个子元素之间用竖线隔开。这里则不需要遵循子元素出现的顺序来写声明,只需包含所有可能出现的子元素即可(也可以添加一些不可能出现的元素,当然这样写并没有必要)。

这个声明的含义为:book元素包含只出现一次的name子元素、出现零次或一次的author子元素以及出现零次或多次的pricepressdate三个子元素中的一个。

PS:对于?*以及+这三个符号的含义,可以类比于正则表达式进行记忆。

DTD属性声明

介绍完了元素声明,下面介绍属性声明。最基本的语法为:

  <!ATTLIST 元素名称 属性名称 属性类型 默认值>

下面是W3C对于属性类型和默认值的规定:

属性类型与默认值

举个例子,如果一个DTD对于元素和属性的声明为:

<!ELEMENT frame EMPTY>
<!ATTLIST frame height CDATA "100">
<!ATTLIST frame width CDATA "80">

则一个正确XML实例应为<frame height="200" width="100" />frame为含有CDATA类型的height属性和CDATA类型的width属性的空元素。如果heightwidth没有被设定,则10080分别是它们的默认值 。
#REQUIRED#IMPLIED这两者是相对的,在没有默认值的情况下,前者强制作者为元素添加属性,而后者则不作要求。
#FIXED "value"则固定了属性的值,并不允许被更改。例如,<!ATTLIST frame width CDATA "150">表明frame元素的width属性被强制设置成150
以上文的XML文档为例,对于book元素,为了避免混淆,使元素含有id属性,用数字来区分每一本书,并且这个属性是不可少的,因此需要属性声明为<!ATTLIST book id CDATA #REQUIRED>
此外,如果属性的值可能出现多种情况,类似于上面介绍过的属性声明,用竖线隔开各个可能的值:

<!ATTLIST 元素名称 属性名称 (值1|值2|值3|...) 默认值>

DTD实体

前面的元素和属性都是XML中有的概念,大家就比较熟悉,可实体是个新概念,它是什么呢?实体是用于定义引用普通文本或特殊字符的快捷方式的变量。简单地说,实体就是能代表一段字符,只要预先设置好实体代表哪段字符,就可以在文档中直接引用这个实体而不用输入这段字符了,类似于C语言中宏定义的常量。因此,说到实体就要介绍实体声明和实体引用。

实体声明

语法为:

<!ENTITY 实体名称 "实体的值">
实体引用

语法为:

&实体名称;

需要注意的是,实体声明中实体的值应被引号(单引号或双引号)包围,而实体引用应包含开头的&和结尾的;
例如,向上面的XML文档中的book元素添加子元素press以代表书的出版社,由于两本书都由人民教育出版社出版,则可以引用实体。先对实体进行声明<!ENTITY PRESS "人民教育出版社">,再引用实体<press>&PRESS;</press>

DTD的三种关联方式

说了这么多,DTD既然是用来约束XML文档的,那么它应该如何与XML文档关联起来呢?一般有三种关联方式:

使用内部DTD

语法为:

<!DOCTYPE 根元素名称 [声明]>

这里的声明包括元素声明、属性声明和实体声明:

<!DOCTYPE 根元素名称 [
<!ELEMENT ...>
...
<!ATTLIST ...>
...
<!ENTITY ...>
...
]>

对于上文的XML文档,使用内部DTD时的文档应为:

<?xml version="1.0" encoding="UTF-8"?>
<!DOCTYPE books [
<!ELEMENT books (book+)>
<!ELEMENT book (name,author,price)>
<!ELEMENT name (#PCDATA)>
<!ELEMENT price (#PCDATA)>
<!ELEMENT author (#PCDATA)>
]>

<books>
    <book>
        <name>三体</name>
        <author>刘慈欣</author> 
        <price>23.8</price> 
    </book>
    <book>
        <name>龙族</name>  
        <author>江南</author>
        <price>19.6</price>  
    </book>
</books>
使用外部DTD

当使用外部DTD时,此时的DTD是作为一个后缀名为.dtd的文件单独存在,且文件存在于本地,在写XML文档时进行声明:

 <!DOCTYPE 根元素名称 SYSTEM "DTD文件的URL">

如果DTD文件与XML文档在同 一目录下,DTD文件的URL则为DTD文件名。
DTD文件也具有一定的格式:

<?xml version="1.0" encoding="UTF-8"?>
<!ELEMENT ...>
...
<!ATTLIST ...>
...
<!ENTITY ...>
...

这里第一行是XML的文档声明,后面则是元素声明、属性声明和实体声明。

使用公共DTD

还有一种方式是使用网络上的DTD文件,方法和使用外部DTD类似,在XML文档中也要进行声明:

<!DOCTYPE 根元素名称 PUBLIC "DTD名称" "DTD文件的URL">

参考资料

http://www.w3school.com.cn/dtd/index.asp

上一篇 下一篇

猜你喜欢

热点阅读