可爱的爬虫Python小小白大数据 爬虫Python AI Sql

BeautifulSoup库实战-爬取豆瓣top250图书

2019-02-20  本文已影响0人  5a41eb2ceec6

日拱一卒|数据挖掘016

之前写过一篇用基于正则表达式来爬取豆瓣图书信息:
requests库实战-爬取豆瓣top250的图书

这次推文用BeautifulSoup代替正则表达式来抽取网页中的文本信息

推文对应的代码链接:https://github.com/piyixiaeco/daily-code/blob/master/Beautiful%20Soup-douban%20book%20top250.ipynb

主要使用三个python库,requests,lxml,BeautifulSoup
requests库主要是获取网页的内容和结构
lxml库用来解析网页
BeautifulSoup则是用来抽取网页中的文本信息

第一步,导入有关的库

1

第二步,构造函数allurl()得到图书top250所有链接

2

第三步,使用requests库获取网页内容

3

第四步,使用BeautifulSoup来解析网页,并提取所需信息

4

这里解释下table
通过查看网页源代码(Chrome浏览器Ctrl+U),可知图书信息存放在属性为width=100%名称为table的标签里。比如胡塞尼的《追风筝的人》

5

比如东野奎吾的《解忧杂货店》


6

1.获取书名

7

Python strip()方法

源代码

2.获取评分

8 源代码

3.获取评价人数

9 源代码

4.构造函数book()

10

第五步,合并函数并导出表格

11
12
13

参考资料:
python爬取豆瓣图书Top250

上一篇 下一篇

猜你喜欢

热点阅读