BeautifulSoup库实战-爬取豆瓣top250图书

2019-02-20 本文已影响0人 5a41eb2ceec6

日拱一卒|数据挖掘016

之前写过一篇用基于正则表达式来爬取豆瓣图书信息：
requests库实战-爬取豆瓣top250的图书

这次推文用BeautifulSoup代替正则表达式来抽取网页中的文本信息

主要使用三个python库，requests，lxml，BeautifulSoup
requests库主要是获取网页的内容和结构
lxml库用来解析网页
BeautifulSoup则是用来抽取网页中的文本信息

这里解释下table：
通过查看网页源代码（Chrome浏览器Ctrl+U），可知图书信息存放在属性为width=100%名称为table的标签里。比如胡塞尼的《追风筝的人》

比如东野奎吾的《解忧杂货店》

1.获取书名

Python strip()方法

源代码

2.获取评分

源代码

3.获取评价人数

源代码

4.构造函数book()