XPath和BeautifulSoup4

2019-02-24 本文已影响59人优秀的人A

什么是XPath？

XPath (XML Path Language) 是一门在 XML 文档中查找信息的语言，可用来在 XML 文档中对元素和属性进行遍历

什么是XML?

XML 指可扩展标记语言
XML 是一种标记语言，很类似HTML
XML 的设计宗旨是传输数据，而非显示数据
XML 的标签需要我们自行定义
XML 被设计为具有自我描述性
XML 是W3C的推荐标准

XML和HTML的区别

XML 是可扩展标记语言，被设计为传输和存储数据，其焦点是数据的内容。
HTML 是超文本标记语言，显示数据以及如何更好显示数据。

XPath 表达式

nodename 选取此节点的所有节点
/ 从根节点选取
// 从匹配选择的当前节点选择文档中的节点，而不考虑它们的位置
. 选取当前节点
.. 选取当前节点的父节点
@ 选取属性

什么是BeautifulSoup4？

和 lxml 一样，Beautiful Soup 也是一个HTML/XML的解析器，主要的功能也是如何解析和提取 HTML/XML 数据。

BeautifulSoup4表达式

findall() 查找所有节点
find() 查找单个
支持css选择器

获取标签的属性 p['class'] => p.attrs['class']
获取标签的文本 p.get_text() => p.string

BeautifulSoup4和XPath的区别

Beautifulsoup4 要比Xpath解析数据要慢，因为beautifulsoup4载入的是整个html文档

上一篇下一篇

猜你喜欢

热点阅读