XML中的DTD约束
什么是约束?
在XML技术里,可以编写一个文档来约束一个XML文档的书写规范,这就是XML约束。约束定义了文档的结构,在某种程度上,也说明了如何在文档结构中放置数据。事实上,如果用XML作为数据的呈现,文档就无法与约束相脱离。
约束一般有两种:DTD和Schema,这里先介绍DTD。
DTD简介
DTD(Document Type Definition),全称为文本类型定义,用于定义合法的XML文档构建模块。
先写一个简单的关于书本信息的XML文档:
<?xml version="1.0" encoding="UTF-8"?>
<books>
<book id=“01”>
<name>三体</name>
<author>刘慈欣</author>
<price>23.8</price>
</book>
<book id=“02”>
<name>龙族</name>
<author>江南</author>
<price>19.6</price>
</book>
</books>
DTD元素声明
在DTD中,XML中的元素要通过元素声明来声明,语法为:
<!ELEMENT 元素名称 (元素内容)>
或:
<!ELEMENT 元素名称 类别>
下面是四种不同的元素:
-
空元素:语法为:
<!ELEMENT 元素名称 EMPTY>
例如一个元素为<title></title>
(也可以写成<title />
),则在DTD中它的声明为<!ELEMENT title EMPTY>
。
-
带有子元素的元素:语法为:
<!ELEMENT 元素名称 (子元素名称)>
或:
<!ELEMENT 元素名称 (子元素名称1,子元素名称2,...)>
以上面的XML文档为例,在DTD中,book
元素的声明应为<!ELEMENT book (name,author,price)>
。需要注意的是,当元素拥有多个子元素时,这些子元素必须按照由逗号分隔开的序列进行声明并且按照相同的顺序出现在XML文档中。
-
内容为文本类型的元素:语法为:
<!ELEMENT 元素名称 (#PCDATA)>
例如,name
元素的声明应为<!ELEMENT name (#PCDATA)>
。
-
带有任何内容的元素:语法为:
<!ELEMENT 元素名称 ANY>
此外,对于不同的元素内容,DTD也规定了不同的元素声明(这里的元素内容是针对子元素来说的,而声明都是对父元素的声明):
-
子元素只出现一次:语法为:
<!ELEMENT 元素名称 (子元素名称)>
例如,如果想要声明book
元素,则应为<!ELEMENT book (name)>
。需要注意的是,这里的name
必须是book
元素的唯一子元素,而且只能出现一次。当然如果子元素有多个且都仅出现一次,就要写成<!ELEMENT 元素名称 (子元素名称1,子元素名称2,...)>
。
-
子元素出现零次或一次:语法为:
<!ELEMENT 元素名称 (子元素名称?)>
-
子元素出现零次或多次:语法为:
<!ELEMENT 元素名称 (子元素名称*)>
-
子元素出现一次或多次:语法为:
<!ELEMENT 元素名称 (子元素名称+)>
-
子元素为多选一类型:语法为:
<!ELEMENT 元素名称 (子元素名称1|元素名称2|子元素名称3|...)>
例如,book
的子元素有三种可能,即name
、author
以及price
,这时声明应为<!ELEMENT book (name|author|price)>
,即各个子元素之间用竖线隔开。这里则不需要遵循子元素出现的顺序来写声明,只需包含所有可能出现的子元素即可(也可以添加一些不可能出现的元素,当然这样写并没有必要)。
-
多种类型的子元素混合:举个例子:
<!ELEMENT book (name,author?,(price|press|date)*)>
这个声明的含义为:book
元素包含只出现一次的name
子元素、出现零次或一次的author
子元素以及出现零次或多次的price
、press
、date
三个子元素中的一个。
PS:对于?
、*
以及+
这三个符号的含义,可以类比于正则表达式进行记忆。
DTD属性声明
介绍完了元素声明,下面介绍属性声明。最基本的语法为:
<!ATTLIST 元素名称 属性名称 属性类型 默认值>
下面是W3C对于属性类型和默认值的规定:
属性类型与默认值举个例子,如果一个DTD对于元素和属性的声明为:
<!ELEMENT frame EMPTY>
<!ATTLIST frame height CDATA "100">
<!ATTLIST frame width CDATA "80">
则一个正确XML实例应为<frame height="200" width="100" />
,frame
为含有CDATA
类型的height
属性和CDATA
类型的width
属性的空元素。如果height
和 width
没有被设定,则100
和80
分别是它们的默认值 。
#REQUIRED
和#IMPLIED
这两者是相对的,在没有默认值的情况下,前者强制作者为元素添加属性,而后者则不作要求。
#FIXED "value"
则固定了属性的值,并不允许被更改。例如,<!ATTLIST frame width CDATA "150">
表明frame
元素的width
属性被强制设置成150
。
以上文的XML文档为例,对于book
元素,为了避免混淆,使元素含有id
属性,用数字来区分每一本书,并且这个属性是不可少的,因此需要属性声明为<!ATTLIST book id CDATA #REQUIRED>
。
此外,如果属性的值可能出现多种情况,类似于上面介绍过的属性声明,用竖线隔开各个可能的值:
<!ATTLIST 元素名称 属性名称 (值1|值2|值3|...) 默认值>
DTD实体
前面的元素和属性都是XML中有的概念,大家就比较熟悉,可实体是个新概念,它是什么呢?实体是用于定义引用普通文本或特殊字符的快捷方式的变量。简单地说,实体就是能代表一段字符,只要预先设置好实体代表哪段字符,就可以在文档中直接引用这个实体而不用输入这段字符了,类似于C语言中宏定义的常量。因此,说到实体就要介绍实体声明和实体引用。
实体声明
语法为:
<!ENTITY 实体名称 "实体的值">
实体引用
语法为:
&实体名称;
需要注意的是,实体声明中实体的值应被引号(单引号或双引号)包围,而实体引用应包含开头的&
和结尾的;
。
例如,向上面的XML文档中的book
元素添加子元素press
以代表书的出版社,由于两本书都由人民教育出版社出版,则可以引用实体。先对实体进行声明<!ENTITY PRESS "人民教育出版社">
,再引用实体<press>&PRESS;</press>
。
DTD的三种关联方式
说了这么多,DTD既然是用来约束XML文档的,那么它应该如何与XML文档关联起来呢?一般有三种关联方式:
使用内部DTD
语法为:
<!DOCTYPE 根元素名称 [声明]>
这里的声明包括元素声明、属性声明和实体声明:
<!DOCTYPE 根元素名称 [
<!ELEMENT ...>
...
<!ATTLIST ...>
...
<!ENTITY ...>
...
]>
对于上文的XML文档,使用内部DTD时的文档应为:
<?xml version="1.0" encoding="UTF-8"?>
<!DOCTYPE books [
<!ELEMENT books (book+)>
<!ELEMENT book (name,author,price)>
<!ELEMENT name (#PCDATA)>
<!ELEMENT price (#PCDATA)>
<!ELEMENT author (#PCDATA)>
]>
<books>
<book>
<name>三体</name>
<author>刘慈欣</author>
<price>23.8</price>
</book>
<book>
<name>龙族</name>
<author>江南</author>
<price>19.6</price>
</book>
</books>
使用外部DTD
当使用外部DTD时,此时的DTD是作为一个后缀名为.dtd
的文件单独存在,且文件存在于本地,在写XML文档时进行声明:
<!DOCTYPE 根元素名称 SYSTEM "DTD文件的URL">
如果DTD文件与XML文档在同 一目录下,DTD文件的URL
则为DTD文件名。
DTD文件也具有一定的格式:
<?xml version="1.0" encoding="UTF-8"?>
<!ELEMENT ...>
...
<!ATTLIST ...>
...
<!ENTITY ...>
...
这里第一行是XML的文档声明,后面则是元素声明、属性声明和实体声明。
使用公共DTD
还有一种方式是使用网络上的DTD文件,方法和使用外部DTD类似,在XML文档中也要进行声明:
<!DOCTYPE 根元素名称 PUBLIC "DTD名称" "DTD文件的URL">