【零基础学爬虫】爬虫实战:爬取猫眼Top100电影
2019-03-25 本文已影响7人
大菜鸟_
准备
之前讲解过Requests库的使用,以及正则表达式基础。今天我们将两者结合起来,实现第一个爬虫实战:使用Requests和正则表达式爬取猫眼电影的Top100。
爬取流程
(1)目标分析
打开网址:https://maoyan.com/board/4?offset=0,发现100部一篇一共分了10页,每一页10部影片:涵盖影片的名字,主演,时间以及评分。
经过分析发现,分页的控制具体体现在url中:
- 第一页的url:https://maoyan.com/board/4?offset=0
- 第二页的url:https://maoyan.com/board/4?offset=10
- 第三页的url:https://maoyan.com/board/4?offset=20
- ......
规律很简单,下一页的offset是在前一页的基础上加了10,具体实现时是需要使用range函数产出0到90,间隔10的序列,然后拼接到url上就可以了。
(2)页面代码的分析
右键->检查:
页面源码发现:每一部影片的信息都在"<dd>...</dd>"标签中,所以在正则表达式中只需要匹配到dd标签,然后提取响应的数据即可,正则也比较容易。值得注意的是,评分分了两部分:一个是整数部分,另外一个是小数部分。
(3)流程框架
源码和结果图:
源码
扫描下方二维码,公众号菜鸟名企梦
后台发送关键词“top100”即可获取本文的完整源码和详细程序注释
公众号菜鸟名企梦
专注:互联网求职面经、java、python、爬虫、大数据等技术、海量资料分享:
公众号菜鸟名企梦
后台发送“csdn文库下载”即可免费领取【csdn】和【百度文库】下载服务;
公众号菜鸟名企梦
后台发送“资料”:即可领取5T精品学习资料、java面试考点和java面经总结,以及几十个java、大数据项目,资料很全,你想找的几乎都有