Python爬虫（1）- 初识Python爬虫

2017-06-26 本文已影响0人 James_Qiu

大一的时候，有一门课（Programming Techniques & Tools）教了好多杂七杂八的东西：各种IDE，Linux，C语言基础，一些常见数据结构，STL库，还有Python。那个时候刚学完C++，看见Python就像是看见了一个新的世界：整齐的代码格式，没有眼花缭乱的大括号，没有variable declaration，好灵活简单“好学”的一门语言（那时真是拿衣服了。。）！那门课教授在Lab里教我们用Python做了一个脚本可以用别人的email发给另一个人邮件，而且就是短短的几行代码而已！当时感觉这么六啊，Python一定得学好~

由于当时学Python时间不长（不到一学期的一半），所以学习的也不深，今年暑假在家闲着没事，又对网络爬虫很感兴趣，想用Python做几个爬虫小项目。于是重新拾起Python，一边读《Learning Python》一边码代码做练习，算是把基础又打了一遍（依然觉得代码还是很整洁，很喜欢这种风格）。然后就开始琢磨着开始爬虫啦！

什么是网络爬虫呢？

随着互联网的发展，人们在各种网络行为中产生了无数的数据：图片、音频、用户信息等各种数据充斥着当今的互联网世界。尽管Google、百度等等搜索引擎提供了获取用户想要的信息的途径，但是往往有很多不相干的网页混杂其中。这个时候，有效的网络爬虫就起到了重要的作用。如果把网络爬虫比作把一只蜘蛛放到一张网上，然后他可以获取网上的信息，是不是就形象了呢？来让我们看看网络爬虫的定义：

“网络爬虫（又被称为网页蜘蛛，网络机器人，在FOAF社区中，更经常的被称为网页追逐着），是一种按照一定的规则，自动抓取万维网信息的程序或者脚本。另外一些不常使用的名字还有蚂蚁、自动索引、模拟程序或者蠕虫。” ——取自百度百科

爬虫的实质

爬虫的实质就是模拟浏览器打开网页，获取网页中我们想要的那些数据。当你输给浏览器地址时，经过DNS服务器找到服务器主机，向服务器发送一个请求，服务器经过解析之后再发送给浏览器结果，包括html、js、css等文件内容，浏览器在解析之后再呈献给用户在浏览器上看到的结果。实际上呢，给用户看到在浏览器的结果就是由html代码构成的，负责展示，我们爬虫就是为了获取这些内容，通过分析和过滤html代码，从中获取我们想要的资源：URL，文本，图片，音频等等。

爬虫的基本流程

发起请求：通过HTTP库向目标站点发起请求，也就是发送一个request，请求可以包含额外的header等信息，等待服务器相应。
获取相应内容：如果服务器正常相应，会得到一个Response，response的内容便是所获取的页面内容，类型可能是html、Json字符串、二进制数据（图片或者视频）等类型。
解析内容：得到的内容可能是html，可以用正则表达式，页面解析库进行解析，可能是Json，可以直接转换为Json对象解析，可能是二进制数据，可以做保存或者进一步处理。
保存数据：保存形式多样，可以存为文本，也可以保存到数据库，或者保存特定格式的文件。

Request包含了什么？

请求方式：Get/Post
请求URL
请求的头部信息：user-agent，Host，Cookies等
请求体，即携带的数据

Response包含了什么？

响应状态：200代表成功，301是跳转，404Not Found，502服务器错误
响应头
响应体：如html、图片、二进制数据

能爬取什么数据？

网页文本
图片
视频
其他可以请求到的

如何解析数据：

直接处理
Json解析
正则表达式解析
BeautifulSoup解析处理
PyQuery解析处理
XPath解析处理