python里操作xml

2018-10-07 本文已影响0人 LittleTrue

XML

可扩展标记语言 (XML) 是一种简单灵活的文本格式，可以作为创建新的标记语言的基础，以便在文档发布和数据交换中使用。 XML 基于万维网联合会 (W3C) 的工作小组发布的一系列建议，因此，非常适合（尽管并不限于）在基于 Web 的应用程序中使用。

xml约束

xml文档约束有两种类型：dtd和schema

dtd：dtd是平面式文档，dtd文件不是xml文档，通常扩展名为“.dtd”。它是最早的xml约束；
schema：schema本身也是xml文档，它比dtd要更加强大，通常扩展名为“.xsd”。它是新的xml文档约束，用来替代dtd。
schema语法参考

schema约束下的XSD文档比较难于阅读,一般可以使用转化工具将其转为xml进行阅读。

目前W3C标准制定的许多schema约束xsd文档都是直接放在网上供解析(也就是命名空间指向的网址), 许多第三方插件或浏览器也都内置了W3C的xml约束文档, 用于解析xml。

XML命名空间声明标签约束:

编写一个约束文档后，通常需要把则个文件中声明的元素绑定到一个URI地址上，即定义为一个命名空间，以后xml文件就可以通过这个URI（命名空间）来告诉解析引擎，xml文档中编写的元素来自哪里，被谁约束, 然后可以使用该命名空间下的标签, 如果xml无需引入特定标签, 则可以不声明命名空间。

例如: <html xmlns="http://www.w3.org/1999/xhtml">
-----xmlns是XHTML namespace(名称空间)的缩写。
作用:用来确定标签的约束来自于哪个W3C规范的个约束文档上
格式:
方式1:xmlns="名称"
方式2:xmlns:别名="名称"

针对XML/HTML文档解析的DOM

DOM全称 Document Object Model，即文档对象模型。
XML-DOM, 就是将XML（或者HTML）内的节点定义成基本统一的对象数据可以供程序语言编程控制的技术规范。
基本上各种语言都针对XML实现了自己的DOM第三方库以解析和生成XML,在python中是minidom。

python有三种方法解析XML:

SAX，DOM，以及ElementTree

1.SAX (simple API for XML )
pyhton 标准库包含SAX解析器，SAX是一种典型的极为快速的工具，在解析XML时，不会占用大量内存。
但是这是基于回调机制的，因此在某些数据中，它会调用某些方法进行传递。这意味着必须为数据指定句柄，
以维持自己的状态，这是非常困难的。
2.DOM(Document Object Model)
与SAX比较，DOM典型的缺点是比较慢，消耗更多的内存，因为DOM会将整个XML数读入内存中，并为树
中的第一个节点建立一个对象。使用DOM的好处是你不需要对状态进行追踪，因为每一个节点都知道谁是它的
父节点，谁是子节点。但是DOM用起来有些麻烦。
3.ElementTree(元素树)
ElementTree就像一个轻量级的DOM，具有方便友好的API。代码可用性好，速度快，消耗内存少。

在使用Python进行XML解析时，首选使用ET模块, 因为据lxml的作者评价，DOM这个模块使用起来并不方便，效率也不高，而且还容易出现问题。

ET模块使用

引用: import xml.etree.ElementTree as ET

先对XML的格式做一些说明：
Tag：使用<和>包围的部分，如成为start-tag，是end-tags；
Element：被Tag包围的部分，如68，可以认为是一个节点，它可以有子节点；
Attribute：在Tag中可能存在的name/value对，如中的name="Liechtenstein"，一般表示属性。

ET模块解析XML

读入xml 有两种途径，从文件读入和从字符串读入。

tree = ET.parse('sample.xml')
root = tree.getroot()

root = ET.fromstring(sample_as_string)

读入xml 有两种途径，从文件读入和从字符串读入。
查看Tag和Attribute
这时得到的root是一个指向Element对象，我们可以通过查看root的tag和attrib来验证这一点：

 root.tag
 root.attrib

新增孩子节点/建立子元素关系

Element.append(childElement)

#下面是建立资源数关系并且返回资源数对象使得可以对资源数操作
a = ET.SubElement(root, 'a')
b = ET.SubElement(root, 'b')

删除孩子节点：

Element.remove(childElement)

保存XML,使用文件读入解析时,可以直接保存

tree.write('output.xml')

不能保存就设置属性构建

root = ET.Element('data') 
    country = ET.SubElement(root,'country', {'name':'Liechtenstein'})
    rank = ET.SubElement(country,'rank')
    rank.text = '1'
    year = ET.SubElement(country,'year')
    year.text = '2008'
    ET.dump(root)

XPath表达式

XPath表达式用来在XML中定位Element:

import xml.etree.ElementTree as ET

root = ET.fromstring(countrydata)

# Top-level elements
root.findall(".")

# All 'neighbor' grand-children of 'country' children of the top-level
# elements
root.findall("./country/neighbor")

# Nodes with name='Singapore' that have a 'year' child
root.findall(".//year/..[@name='Singapore']")

# 'year' nodes that are children of nodes with name='Singapore'
root.findall(".//*[@name='Singapore']/year")

# All 'neighbor' nodes that are the second child of their parent
root.findall(".//neighbor[2]")