虫虫

XPath和BeautifulSoup4

2019-02-24  本文已影响59人  优秀的人A
什么是XPath?
什么是XML?
XML和HTML的区别

XML 是可扩展标记语言,被设计为传输和存储数据,其焦点是数据的内容。
HTML 是超文本标记语言,显示数据以及如何更好显示数据。

XPath 表达式

什么是BeautifulSoup4?

和 lxml 一样,Beautiful Soup 也是一个HTML/XML的解析器,主要的功能也是如何解析和提取 HTML/XML 数据。

BeautifulSoup4表达式

findall() 查找所有节点
find() 查找单个
支持css选择器

获取标签的属性 p['class'] => p.attrs['class']
获取标签的文本 p.get_text() => p.string

BeautifulSoup4和XPath的区别

Beautifulsoup4 要比Xpath解析数据要慢,因为beautifulsoup4载入的是整个html文档

上一篇下一篇

猜你喜欢

热点阅读