XML学习笔记
一. XML的概念
XML:eXtensible Markup Language,可扩展标记语言。
可扩展的含义,就是可以自己定义标签。
XML指可扩展标记语言,是独立于软件和硬件的信息传输工具;它是一种标记语言,很类似 HTML;XML的设计宗旨是传输数据,而非显示数据;XML标签没有被预定义,需要自行定义标签;XML被设计为具有自我描述性;XML是 W3C 的推荐标准。
二.XML的作用
XML专用于保存或者传输(交换)数据。
保存数据可以体现在两个方面:① 配置文件,比如各种软件的配置文件;② 小型的数据库。
传输(交换)数据体现在两个方面:① Ajax,“Asynchronous Javascript And XML”(异步 JavaScript 和 XML),现在json用的比较多;② Web service:web 服务 (xml最擅长的地方)。
XML的新的应用
svg(可缩放矢量图形):可缩放矢量图形是基于可扩展标记语言,用于描述二维矢量图形的一种图形格式。SVG 使用 XML 格式定义图形。
三.XML的结构
![](https://img.haomeiwen.com/i10825669/61da947c065a7474.jpg)
每个xml稳定,都有一个声明。
整个XMl,是树形结构,有且仅有一个根节点。
在这个树形结构,有三个节点,元素节点 + 属性节点 + 文本节点。
四.XML的语法
(一)语法总则
1,必须以XML声明开头;
![](https://img.haomeiwen.com/i10825669/ae8d735f9f1aeef1.jpg)
version:版本号,目前推荐是1.0;encoding:编码,字符集,建议使用utf-8。
需要注意的是字符集,如果有乱码,肯定字符集设置不对的。保证你声明的字符集和文件本身保存的字符集的一致。
2,必须拥有唯一的根元素;
3,开始标签必须与结束标签相匹配;
4,元素对大小写敏感,严格区分大小写;
5,所有的元素都必须关闭,注意单标签;
6,所有的元素都必须正确地嵌套
7,必须对特殊字符使用实体
(二)命名规则
由于我们的xml中,所有的标签都需要自己定义:
1,名称可以含字母、数字以及其他的字符
2,名称不能以数字或者标点符号开始
3,名称不能以字符“xml”(或者 XML、Xml)开始
4,名称不能包含空格
5,可使用任何名称,没有保留的字词。
建议,使用php的命名方式,尽量使用数字、字母、下划线的组合。Xml支持中文。(但一般不用)
注意:① 避免"-"字符。如:"first-name",一些软件会认为你需要提取第一个单词。
② 避免"."字符。如:"first.name",一些软件会认为 "name" 是对象 "first" 的属性。
③ 避免":"字符。冒号会被转换为命名空间来使用。
(三)元素节点 + 属性节点 + 文本节点
1,定义元素节点
类似html: <元素名>内容</元素名>
2,定义属性
类似html: <元素名 属性名=‘属性值’>内容</元素名>
注意:①属性值必须被引号包围,不过单引号和双引号均可使用;
② 一个元素可以有多个属性;
③ 元素中的属性是不允许重复的;
④ 标签属性所代表的信息也可以被改成用子元素的形式来描述,但是属性一般描述与数据无关的信息,比如 id,与数据相关的信息一般用子元素来描述。
(四)实体引用
相当于转义:有5个预定义的实体
![](https://img.haomeiwen.com/i10825669/f233da58bd69d132.png)
批量转义
![](https://img.haomeiwen.com/i10825669/f05c96bc7bdfd87f.jpg)
![](https://img.haomeiwen.com/i10825669/d6b8c00e3b27de52.jpg)
(五)注释
与html相同:<!-- 注释内容-->
注意,文档声明一定要放在最开头。之前不要有任何东西。
五.DTD验证
(一)概念
XML的主要作用是 保存 和 传输数据,在传输的过程中,传输方和接受方 需要遵循一个规则,XML是需要通过这个规则的验证的。
XML验证是指使用XML验证技术来检测我们的XML文档是否合理(合法)。
XML通过验证的方式有两种:
① DTD:Document Type Definition,文档类型定义,目前使用最多的一种
② Schema:XSD,Xml Schema Definition,文档结构定义,是DTD的替代者。
DTD用来验证我们的xml是否符合它的定义,要满足以下要求:
① 格式良好的文档:语法正确文档;
② 合法的文档:在语法正确的基础之上,符合某个规范的xml文档。
(二)DTD表现形式
DTD一般书写于声明下面。
DTD有两种引用方式:①在xml文档中直接定义;②外部定义,然后引用。
![](https://img.haomeiwen.com/i10825669/a07fd86f5075b9ad.jpg)
验证方式:在线验证(http://validator.w3.org/);
![](https://img.haomeiwen.com/i10825669/cde21745ab560104.jpg)
归纳DTD的作用:
① 通过DTD,可一致地使用某个标准的 DTD 来交换数据;
② 可使用某个标准的DTD来验证从外部接收到的数据;
③ 可以使用DTD来验证自身的数据。
注意事项:
① DTD描述了XML文档有哪些节点、节点之间的关系以及节点的值等。(学习重点)
② DTD验证的不是语法,而是验证XML文档中应该有哪些节点,节点之间的关系是什么,元素的值、属性的值应该由什么内容组成。
③ XML没有DTD,可以正常工作,但不能很好的工作。
④ 合法的XML文档是“形式良好”的 XML 文档,且遵守文档类型定义 (DTD) 的语法规则。
(三)DTD定义
DTD的构成:元素声明 + 属性声明 + 实体声明;
① 元素定义
元素声明由三部分构成:ELEMENT声明 + 元素名 + 元素内容模型 ---定义了可允许的元素内容
形式:<!ELEMENT 元素名 (元素内容描述)>
注意:中间有空格。
元素的表现形式有一下几种:
{1} 仅包含元素的元素
通常有两种结构:① 顺序结构,直接用逗号分隔开;② 选择结构,用 | 分隔,表示二者只能选择其一。
![](https://img.haomeiwen.com/i10825669/d832a2deae4f2f8d.jpg)
表示:每个元素都要出现,并且只能出现一次,还要按照顺序依次出现。
![](https://img.haomeiwen.com/i10825669/fa6e6f0e4dd97b6c.jpg)
表示:二者只能出现其中的一个,且必须出现一个。
如果元素多次出现,使用数量词:* 任意个,包括0;+ 至少一个,至多不限;? 0或1个
{2}仅包含文本的元素
![](https://img.haomeiwen.com/i10825669/ac4ec954781442f0.jpg)
{3}包含文本和元素的元素
![](https://img.haomeiwen.com/i10825669/8774b7249fa0e76c.jpg)
[注意]:在DTD文件内部定义混合内容模型,必须要使用选择组合,#PCDATA关键字必须出现在子元素列表的第一个位置,且必须要使用*。
{4}空元素
直接使用empty
![](https://img.haomeiwen.com/i10825669/13be50ece6fe4c97.jpg)
{5}任意元素(不推荐)
<!ELEMENT 元素名 ANY>
② 属性定义
定义的属性格式:<!ATTLIST 元素名 属性名称 属性的类型 取值方式>
常用属性类型:CDATA,值为字符数据(character data);(en1 | en2 |....),此值是枚举列表中的一个值;ID,值为唯一的id............
常用取值方式:#REQUIRED,属性值是必须的;#IMPLIED,属性值不是必须的;#FIXED value,属性值时固定的。
![](https://img.haomeiwen.com/i10825669/3f3b2e8daf8c78f2.jpg)
![](https://img.haomeiwen.com/i10825669/e046851ee7dc2d1a.jpg)
![](https://img.haomeiwen.com/i10825669/29b5fccbb62bfaeb.jpg)
![](https://img.haomeiwen.com/i10825669/5baba0eeafe5f8c0.jpg)
![](https://img.haomeiwen.com/i10825669/21086601b1814504.jpg)
固定的值不能更改。
一次性定义多个属性的简写
![](https://img.haomeiwen.com/i10825669/ef895e3d1a532cd4.jpg)
关于取值类型,必须要设置
如果没有固定值、又没有默认值,而且也不是必须的,那么此时一定要声明为#IMPLIED。
③ 实体定义
文本节点,本身是无需定义的。
书写字符串的时候,有时候会重复使用某个的内容,此时为了方便,可以将其定义为实体。类似在编程中的变量的含义。
DTD中,通常有两种实体:
{1} 一般实体,在DTD中来定义的,然后在xml文档中来引用的
定义格式:<!ENTITY 实体名称 值>
引用:&实体名称;
![](https://img.haomeiwen.com/i10825669/1659d63f7328b817.jpg)
![](https://img.haomeiwen.com/i10825669/f1b65e4252129e26.jpg)
{2} 参数实体,只能是在外部DTD中来定义的,并且参数实体只能在DTD中引用的。
在XML中引入DTD的语法格式:<!DOCTYPE 根元素名称 SYSTEM 'dtd路径'>
定义格式:<!ENTITY % 实体名称 值>
引用格式:%实体名称
![](https://img.haomeiwen.com/i10825669/63df3bb1c1ee04b1.jpg)
![](https://img.haomeiwen.com/i10825669/33eb930e3089f42b.jpg)
在浏览器中无法查看效果,应为浏览器不会加载外部DTD。
六.DOM方式操作XML
PHP操作XML常用方法
① DOM方式:所有语言都支持的方式,API相同
② SimpleXML方式:php提供一种简单的方式
{1} DOM的概念
DOM:Document Object Model,文档对象模型。
D:document,是指的文档本身,xml文档,HTML文档;
O:Object,对象,是将元素、属性和文本等转成节点对象,对象有属性和方法,可以调用这些属性和方法完成相关的操作;
M:Model,树模型,将Document转成一个树模型,节点,节点之间有关联。将这些节点转成对象。转换过程是在内存中进行的。
{2} DOM操作XML步骤
![](https://img.haomeiwen.com/i10825669/e709633757ae8fd0.jpg)
![](https://img.haomeiwen.com/i10825669/fb2c711887223841.jpg)
{3}DOM操作XML的CRUD
1,查询
如上图,方法 getElementsByTagName
2,增加
方法 createElement($name[,$value])
方法 appendChild 增加子节点,与JS相同的
有2个参数,仅创建元素,则仅需要第一个参数,为元素名称;创建包含文本的元素,就需要第二个参数,元素内的文本.
![](https://img.haomeiwen.com/i10825669/2b6fa93a040b770f.jpg)
![](https://img.haomeiwen.com/i10825669/9626709c7a2add1b.jpg)
3,更新
直接操作文本节点
![](https://img.haomeiwen.com/i10825669/0d0551c4cc2714d2.jpg)
![](https://img.haomeiwen.com/i10825669/f2b49e629506d700.jpg)
4,删除
方法 removeChild(要删除的节点),需要父元素调用该方法。
属性 parentNode 获得该元素的父节点
![](https://img.haomeiwen.com/i10825669/e212d667bc573d18.jpg)
在删除节点的同时,不要对他进行foreach操作,比如上面的错误做法
只需要将二者分开即可。先遍历,找到所有的节点,用到保存起来,然后再对他进行删除。
注意使用PHP手册。
七.XPATH(查看手册)
使用xpath,可以快速的定位到某个节点。使用xpath,可以快速的定位到某个节点。
XPATH的主要作用就是增加查询的速度,就好像数据库中表的索引一样。
① 选取节点
方式1. / 从根节点选取 例如,/根节点
方式2. // 从匹配的当前节点选择文档中的节点,不论层次关系 例如,//文档中的节点
方式3. . 选取当前节点
方式4. . . 选取当前节点的父节点
方式5. @ 选取属性
② 谓语
谓语用来查找某个特定的节点或者包含某个指定的值的节点,谓语被嵌在方括号中。
比如: /根节点/子节点[ 谓语 ]
谓语有:last(),position(),@属性名,@属性名=XX, 元素名>元素内文本节点的值,等等。
在使用数量词,或者last、position函数的时候,一定要注意,是针对同一个节点下面的元素。它们应该有共同的父节点。
③ 其他用法
或 | 比如 //person/age | //person/name 选取person元素的age和name 元素
通配符 * 比如 //person/* 匹配person下的任何节点
![](https://img.haomeiwen.com/i10825669/e175e3be8d04a0f4.jpg)
八.SimpleXML (查看手册)
它是PHP专门提供的一种操作xml的简单方式,只能在php中使用。
基本上,就只有一个对象:SimpleXMLElement
得到SimpleXMLElement的两种方式:
① 直接使用构造方法,传递的xml的内容,不是文件名
![](https://img.haomeiwen.com/i10825669/3f18f400f0ffbf04.jpg)
② 使用普通函数,传递的文件名,simplexml_load_file
![](https://img.haomeiwen.com/i10825669/143b277e8e6439af.jpg)
![](https://img.haomeiwen.com/i10825669/f0c7d0a9db408208.jpg)
对象均是 SimpleXML 对象,可以直接操作。
使用方法:1.载入xml文档;
2.进行具体的处理;
3.保存结果。
SimpleXML 操作XML的CRUD
① 增加 使用方法 addChild
![](https://img.haomeiwen.com/i10825669/c34f032f79e9fb5a.jpg)
② 查询
根据显示结果,遍历即可
![](https://img.haomeiwen.com/i10825669/4c00bbcc95cc73ac.jpg)
③修改
![](https://img.haomeiwen.com/i10825669/03f0ad53a3ba8e7f.jpg)
④ 删除
unset 函数
![](https://img.haomeiwen.com/i10825669/307a5e927cc3c54c.jpg)
九.XML应用之Web Service
web Service 的概念
Web service是一个平台独立的,低耦合的,自包含的、基于可编程的web的应用程序,可使用开放的XML(标准通用标记语言下的一个子集)标准来描述、发布、发现、协调和配置这些应用程序,用于开发分布式的互操作的应用程序。
本质就是通过网络调用其他网站的资源。
web service三要素: SOAP ,WSDL,UDDI
① SOAP
SOAP:Simple Object Access Protocol,简单对象访问协议。
SOAP = XML + HTTP;
PHP提供了操作SOAP的扩展,需要开启。
在php.ini中,extension = php_soap.dll;
② WSDL
WSDL:Web Service Description Language , web服务描述语言,就是XML文档。
XML应用示例:使用 web service 查询航班
主要难点在与XML文档结构的分析
API接口
http://www.webxml.com.cn/zh_cn/web_services.aspx
![](https://img.haomeiwen.com/i10825669/d1ac90d3b7981476.jpg)
点击第一个 Endpoint,进入下面页面
![](https://img.haomeiwen.com/i10825669/32b00b01b07a58d6.jpg)
soapclient类
构造方法 ,需要传递一个wsdl 文件
public __construct( mixed $wsdl [, array $options ] )
![](https://img.haomeiwen.com/i10825669/4ca8ddf7f650f1be.jpg)
![](https://img.haomeiwen.com/i10825669/fcba802bb4a2dd10.jpg)
有了 soapClient 对象,就可以调用 Endpoint 中 提供的 2个方法。
使用simpleXML 进行操作
![](https://img.haomeiwen.com/i10825669/d15e2eca01812f01.jpg)
![](https://img.haomeiwen.com/i10825669/5a3c28af6bda18e3.jpg)
![](https://img.haomeiwen.com/i10825669/572a22a758ab66d3.jpg)
![](https://img.haomeiwen.com/i10825669/264a808b01a13cc3.jpg)