【零基础学爬虫】爬虫实战：爬取猫眼Top100电影

2019-03-25 本文已影响7人大菜鸟_

准备

之前讲解过Requests库的使用，以及正则表达式基础。今天我们将两者结合起来，实现第一个爬虫实战：使用Requests和正则表达式爬取猫眼电影的Top100。

爬取流程

（1）目标分析
打开网址：https://maoyan.com/board/4?offset=0，发现100部一篇一共分了10页，每一页10部影片：涵盖影片的名字，主演，时间以及评分。
经过分析发现，分页的控制具体体现在url中：

第一页的url：https://maoyan.com/board/4?offset=0
第二页的url：https://maoyan.com/board/4?offset=10
第三页的url：https://maoyan.com/board/4?offset=20
......
规律很简单，下一页的offset是在前一页的基础上加了10，具体实现时是需要使用range函数产出0到90，间隔10的序列，然后拼接到url上就可以了。
（2）页面代码的分析
右键->检查：

页面源码发现：每一部影片的信息都在"<dd>...</dd>"标签中，所以在正则表达式中只需要匹配到dd标签，然后提取响应的数据即可，正则也比较容易。值得注意的是，评分分了两部分：一个是整数部分，另外一个是小数部分。
（3）流程框架

源码和结果图：

源码

扫描下方二维码，公众号菜鸟名企梦后台发送关键词“top100”即可获取本文的完整源码和详细程序注释

扫码关注，及时获取更多精彩内容。（博主今日头条大数据工程师）

公众号菜鸟名企梦专注：互联网求职面经、java、python、爬虫、大数据等技术、海量资料分享：
公众号菜鸟名企梦后台发送“csdn文库下载”即可免费领取【csdn】和【百度文库】下载服务；
公众号菜鸟名企梦后台发送“资料”:即可领取5T精品学习资料、java面试考点和java面经总结，以及几十个java、大数据项目，资料很全，你想找的几乎都有

【零基础学爬虫】爬虫实战：爬取猫眼Top100电影

准备

爬取流程

源码和结果图：

源码

猜你喜欢

热点阅读