BeautifulSoup库实战-爬取豆瓣top250图书
2019-02-20 本文已影响0人
5a41eb2ceec6
日拱一卒|数据挖掘016
之前写过一篇用基于正则表达式来爬取豆瓣图书信息:
requests库实战-爬取豆瓣top250的图书
这次推文用BeautifulSoup代替正则表达式来抽取网页中的文本信息
推文对应的代码链接:https://github.com/piyixiaeco/daily-code/blob/master/Beautiful%20Soup-douban%20book%20top250.ipynb
主要使用三个python库,requests,lxml,BeautifulSoup
requests库主要是获取网页的内容和结构
lxml库用来解析网页
BeautifulSoup则是用来抽取网页中的文本信息
第一步,导入有关的库
1第二步,构造函数allurl()
得到图书top250所有链接
2
第三步,使用requests库获取网页内容
3第四步,使用BeautifulSoup来解析网页,并提取所需信息
4这里解释下table
:
通过查看网页源代码(Chrome浏览器Ctrl+U),可知图书信息存放在属性为width=100%名称为table的标签里。比如胡塞尼的《追风筝的人》
比如东野奎吾的《解忧杂货店》
6
1.获取书名
2.获取评分
3.获取评价人数
4.构造函数book()
第五步,合并函数并导出表格
1112
13
参考资料:
python爬取豆瓣图书Top250