python爬虫之解析模块

2019-08-16  本文已影响0人  行走世间的狮子

json模块 ---> json

1. 什么是json?

javascript中的对象和数组
对象 :{key: value, ...}
数组 :[value, value, ...]

2. 作用

json格式的字符串 和 Python数据类型 之间的转换

3. 常用方法

4. 补充函数

# 能把字符串里的内容转换为一句python语句
s = '{"a": 1, "b": 2}'
print(type(eval(s))) # ---> dict
s = '[1, 2, 3, 4, 5]'
print(type(eval(s))) # ---> list

re模块 ---> 万能

1. 正则方法

2. 注意内容

贪婪匹配(.), 非贪婪匹配(.?):非贪婪匹配尽可能少的匹配字符串,爬虫解析中多用非贪婪匹配

lxml模块 ---> HTML

1. 什么是xpath?

xpath是在XML文档中查找信息的语言,同样适用于HTML文档的检索

2. xpath辅助工具

3. 语法

4. 使用

from lxml import etree
# 利用lxml库的etree模块创建解析对象
parseHtml = etree.HTML(html)
# 解析对象调用xpath工具定位节点信息
r_list = parseHtml.xpath('xpath表达式')
# 返回值:
#    若xpath表达式里已经获取文本,则返回文本列表
#    若没有,则返回节点对象列表,调用text属性可获取文本,也可再调用xpath进一步解析
上一篇下一篇

猜你喜欢

热点阅读