python里操作xml

2018-10-07  本文已影响0人  LittleTrue

XML

可扩展标记语言 (XML) 是一种简单灵活的文本格式,可以作为创建新的标记语言的基础,以便在文档发布和数据交换中使用。 XML 基于万维网联合会 (W3C) 的工作小组发布的一系列建议,因此,非常适合(尽管并不限于)在基于 Web 的应用程序中使用。

xml约束

xml文档约束有两种类型:dtd和schema

schema约束下的XSD文档比较难于阅读,一般可以使用转化工具将其转为xml进行阅读。

目前W3C标准制定的许多schema约束xsd文档都是直接放在网上供解析(也就是命名空间指向的网址), 许多第三方插件或浏览器也都内置了W3C的xml约束文档, 用于解析xml。

XML命名空间声明标签约束:

编写一个约束文档后,通常需要把则个文件中声明的元素绑定到一个URI地址上,即定义为一个命名空间,以后xml文件就可以通过这个URI(命名空间)来告诉解析引擎,xml文档中编写的元素来自哪里,被谁约束, 然后可以使用该命名空间下的标签, 如果xml无需引入特定标签, 则可以不声明命名空间。

例如: <html xmlns="http://www.w3.org/1999/xhtml">
-----xmlns是XHTML namespace(名称空间)的缩写。
作用:用来确定标签的约束来自于哪个W3C规范的个约束文档上
格式:
方式1:xmlns="名称"
方式2:xmlns:别名="名称"

针对XML/HTML文档解析的DOM

DOM全称 Document Object Model,即文档对象模型。
XML-DOM, 就是将XML(或者HTML)内的节点定义成基本统一的对象数据可以供程序语言编程控制的技术规范。
基本上各种语言都针对XML实现了自己的DOM第三方库以解析和生成XML,在python中是minidom。


python有三种方法解析XML:

SAX,DOM,以及ElementTree

在使用Python进行XML解析时,首选使用ET模块, 因为据lxml的作者评价,DOM这个模块使用起来并不方便,效率也不高,而且还容易出现问题。

ET模块使用

引用: import xml.etree.ElementTree as ET

先对XML的格式做一些说明:
Tag: 使用<和>包围的部分,如成为start-tag,是end-tags;
Element:被Tag包围的部分,如68,可以认为是一个节点,它可以有子节点;
Attribute:在Tag中可能存在的name/value对,如中的name="Liechtenstein",一般表示属性。

ET模块解析XML
tree = ET.parse('sample.xml')
root = tree.getroot()
root = ET.fromstring(sample_as_string)
 root.tag
 root.attrib
Element.append(childElement)

#下面是建立资源数关系并且返回资源数对象使得可以对资源数操作
a = ET.SubElement(root, 'a')
b = ET.SubElement(root, 'b')
Element.remove(childElement)
tree.write('output.xml')
root = ET.Element('data') 
    country = ET.SubElement(root,'country', {'name':'Liechtenstein'})
    rank = ET.SubElement(country,'rank')
    rank.text = '1'
    year = ET.SubElement(country,'year')
    year.text = '2008'
    ET.dump(root)

XPath表达式

XPath表达式用来在XML中定位Element:

import xml.etree.ElementTree as ET

root = ET.fromstring(countrydata)

# Top-level elements
root.findall(".")

# All 'neighbor' grand-children of 'country' children of the top-level
# elements
root.findall("./country/neighbor")

# Nodes with name='Singapore' that have a 'year' child
root.findall(".//year/..[@name='Singapore']")

# 'year' nodes that are children of nodes with name='Singapore'
root.findall(".//*[@name='Singapore']/year")

# All 'neighbor' nodes that are the second child of their parent
root.findall(".//neighbor[2]")
上一篇 下一篇

猜你喜欢

热点阅读