【实战试听课】第三节：爬取真实网页

2016-03-04 本文已影响212人麻瓜编程

今天我们来爬取真实的网页。如果你有过海外游的经历，一定会知道这个网站，叫做：Tripadvisor。

具体的运作过程是这样的：

在你打开一个网页的时候，你的电脑就向服务器发起了一个 Request 请求，服务器为了回应你，给你返回一个 Response 请求。

那么，为了用程序模拟人类向服务器发起请求，就要用程序发起 Request，在 HTTP 1.1 协议中，有8种方法，其中最常用的是 get 方法。

我们请求了之后，服务器会返回给我们一个状态码，如果成功了就是200，如果失败了则是404等等。

在网页中定位元素位置，最关键的点是：找唯一特征。

在课程案例里面详细讲解了爬取连续多页的方法，以及模拟登录的方法。

Tripadvisor 的图片有着反爬取策略，为了解决这个问题，介绍一个小技巧。具体是什么，可以看视频。

3、如何爬取网页【Python零基础爬虫实战】

在亲身实践之后才能真正学会。所以，每节课都有一道配套的实战练习题，这节课的练习作业是：爬取小猪短租的房源信息。

上面的内容来自网易云课堂畅销课程 Python实战课程：四周实现爬虫系统

加入课程后，可以看到完整四周课程，获赠零基础预习教程魔力手册，并得到班级老师的辅导与答疑。

欢迎加入预备班 QQ 群和大家讨论 Python 课程问题，参加每周的老学员分享，QQ 群号是：454652648，加群回复：实战计划