【实战试听课】第三节:爬取真实网页
2016-03-04 本文已影响212人
麻瓜编程
今天我们来爬取真实的网页。如果你有过海外游的经历,一定会知道这个网站,叫做:Tripadvisor。
![](https://img.haomeiwen.com/i1692820/67edd10b89b43d7d.jpeg)
具体的运作过程是这样的:
![](https://img.haomeiwen.com/i1692820/9f4f403c8b0cd521.gif)
在你打开一个网页的时候,你的电脑就向服务器发起了一个 Request 请求,服务器为了回应你,给你返回一个 Response 请求。
![](https://img.haomeiwen.com/i1692820/ad9e05c76c8ba587.gif)
那么,为了用程序模拟人类向服务器发起请求,就要用程序发起 Request,在 HTTP 1.1 协议中,有8种方法,其中最常用的是 get 方法。
![](https://img.haomeiwen.com/i1692820/db8707dd1828df5a.jpeg)
我们请求了之后,服务器会返回给我们一个状态码,如果成功了就是200,如果失败了则是404等等。
![](https://img.haomeiwen.com/i1692820/b512e5e5ed169d08.png)
![](https://img.haomeiwen.com/i1692820/01d584b32e6f9a85.jpeg)
在网页中定位元素位置,最关键的点是:找唯一特征。
![](https://img.haomeiwen.com/i1692820/3cdf0fa8b9486a4b.jpeg)
在课程案例里面详细讲解了爬取连续多页的方法,以及模拟登录的方法。
![](https://img.haomeiwen.com/i1692820/9169736dcc376b52.jpeg)
Tripadvisor 的图片有着反爬取策略,为了解决这个问题,介绍一个小技巧。具体是什么,可以看视频。
3、如何爬取网页【Python零基础爬虫实战】
在亲身实践之后才能真正学会。所以,每节课都有一道配套的实战练习题,这节课的练习作业是:爬取小猪短租的房源信息。
![](https://img.haomeiwen.com/i1692820/191c1c23ea9faed4.jpeg)
上面的内容来自网易云课堂畅销课程 Python实战课程:四周实现爬虫系统
![](https://img.haomeiwen.com/i1692820/845dab12978d2623.png)
加入课程后,可以看到完整四周课程,获赠零基础预习教程魔力手册,并得到班级老师的辅导与答疑。
欢迎加入预备班 QQ 群和大家讨论 Python 课程问题,参加每周的老学员分享,QQ 群号是:454652648,加群回复:实战计划
![](https://img.haomeiwen.com/i1692820/d46c9f09a469571b.jpg)