Python爬虫(八)数据处理方法之Xpath

2019-06-13  本文已影响0人  咸甜怪

在学习本小节的知识之前,对于Xpath的语法最好有一个简单的了解。如果不是很了解的,可以看一下我的另一篇文章Xpath之爬虫常用方法总结

爬虫数据Xpath处理步骤

from lxml import etree

url = 'http://http://fanyi.youdao.com/'
response = requests.get(url, headers=headers)
html_str = response.content.decode()
print(type(html_str))
html = etree.HTML(html_str)
print(html)

输出结果如下:<class 'str'> <Element html at 0x3290f88>,这说明了通过etree.HTML得到了html的Element对象。

import requests
from lxml import etree

url1 = 'https://book.douban.com/tag/%E6%97%A5%E6%9C%AC%E6%96%87%E5%AD%A6?start=0&type=T/'
headers = {'user-agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/64.0.3282.119 Safari/537.36'}
response = requests.get(url1, headers=headers)
html_str = response.content.decode()
html = etree.HTML(html_str)
#创建xpath列表
html_name = html.xpath("//ul[@class='subject-list']/li")
for li in html_name:
    item = {}
    #获取到每一个li下的书籍名字,并去除多余的\n
    item['name'] = li.xpath('./div[2]/h2/a/text()')[0].replace("\\n", " ").strip()
    print(item)
输出结果如下: 豆瓣输出结果.png

至此,我们就爬取到了该网页下的所有书籍名字了。

上一篇 下一篇

猜你喜欢

热点阅读