爬虫|崔神的干货总结

2019-01-28 本文已影响1人 5a41eb2ceec6

来源：这可能是你见过的最全的网络爬虫干货总结！

日拱一卒|数据挖掘005

崔神从五个方面介绍了利用 Python 进行网络爬虫开发的相关知识点和技巧：

抓取
解析
存储
反爬
加速

一、爬取

爬取的目标可以大致分为两类：网页、APP

对于网页，可以分为两种类别，即

服务端渲染
客户端渲染

对于APP，可以分为四类，即

普通接口
加密参数接口
加密内容接口
非常规协议接口

（一）网页爬取

网页爬取

服务端渲染

对于服务端渲染，用一些基本的HTTP请求库就可以实现爬取，如 urllib、urllib3、pycurl、hyper、requests、grab 等框架，其中应用最多的可能就是 requests 了。

服务端渲染

客户端渲染

对于客户端渲染，有四种处理方法：

寻找Ajax接口
此种情形可以直接使用 Chrome/Firefox 的开发者工具直接查看 Ajax 具体的请求方式、参数等内容，然后用 HTTP 请求库模拟即可，另外还可以通过设置代理抓包来查看接口，如 Fiddler/Charles。
模拟浏览器执行
此种情形适用于网页接口和逻辑较为复杂的情况，可以直接以可见即可爬的方式进行爬取，如可以使用 Selenium、Splinter、Spynner、pyppeteer、PhantomJS、Splash、requests-html 等来实现。
直接提取JavaScript数据
此种情形适用于真实数据没有经过 Ajax 接口获取，而是直接包含在 HTML 结果的某个变量中，直接使用正则表达式将其提取即可。
模拟执行JavaScript
某些情况下直接模拟浏览器执行效率会偏低，如果把 JavaScript 的某些执行和加密逻辑摸清楚了，可以直接执行相关的 JavaScript 来完成逻辑处理和接口请求，比如使用 Selenium、PyExecJS、PyV8、js2py 等库来完成即可。

客户端渲染1
客户端渲染2
客户端渲染3

（二）APP爬取

对于APP的爬取分为四种情况：

普通无加密接口
直接抓包拿到接口的具体请求形式就好，可用的抓包工具有 Charles、Fiddler、mitmproxy。
加密参数接口
一种方法可以实时处理，例如 Fiddler、mitmdump、Xposed 等，另一种方法是将加密逻辑破解，直接模拟构造即可，可能需要一些反编译的技巧。
加密内容接口
即接口返回结果完全看不懂是什么东西，可以使用可见即可爬的工具 Appium，也可以使用 Xposed 来 hook 获取渲染结果，也可以通过反编译和改写手机底层来实现破解。
非常规协议
可以使用 Wireshark 来抓取所有协议的包，或者使用 Tcpdump 来进行 TCP 数据包截获。

APP爬取1

APP爬取2

APP爬取3

二、解析

对于 HTML 类型的页面来说，常用的解析方法其实无非那么几种，正则、XPath、CSS Selector，另外对于某些接口，常见的可能就是 JSON、XML 类型，使用对应的库进行处理即可。

解析

这些规则和解析方法其实写起来是很繁琐的，如果我们要爬上万个网站，如果每个网站都去写对应的规则，那么不就太累了吗？所以智能解析便是一个需求。智能解析意思就是说，如果能提供一个页面，算法可以自动来提取页面的标题、正文、日期等内容，同时把无用的信息给刨除。

智能解析

三、存储

存储，即选用合适的存储媒介来存储爬取到的结果

存储1

存储2

推荐崔神的公众号进击的Coder

进击的Coder

四、反爬虫

爬虫现在已经越来越难了，非常多的网站已经添加了各种反爬措施，在这里可以分为非浏览器检测、封 IP、验证码、封账号、字体反爬等。

反爬虫

（一）防封IP

防封IP

（二）验证码

验证码分为非常多种，如普通图形验证码、算术题验证码、滑动验证码、点触验证码、手机验证码、扫二维码等。

对于普通图形验证码，如果非常规整且没有变形或干扰，可以使用 OCR 识别，也可以使用机器学习、深度学习来进行模型训练，当然打码平台是最方便的方式。
对于算术题验证码，推荐直接使用打码平台。
对于滑动验证码，可以使用破解算法，也可以模拟滑动。后者的关键在于缺口的找寻，可以使用图片比对，也可以写基本的图形识别算法，也可以对接打码平台，也可以使用深度学习训练识别接口。
对于点触验证码，推荐使用打码平台。
对于手机验证码，可以使用验证码分发平台，也可以购买专门的收码设备，也可以人工验证。
对于扫二维码，可以人工扫码，也可以对接打码平台。

验证码1

验证码2

验证码3

（三）防封号

一些网站需要登录才能爬取，但是一个账号登录之后请求过于频繁会被封号，为了避免封号，可以采取如下措施：

防封号

五、加速

当爬取的数据量非常大时，如何高效快速地进行数据抓取是关键。常见的措施有多线程、多进程、异步、分布式、细节优化等。

加速

（一）多线程、多进程

爬虫是网络请求密集型任务，所以使用多进程和多线程可以大大提高抓取效率，如使用 threading、multiprocessing 等。

（二）异步

将爬取过程改成非阻塞形式，当有响应式再进行处理，否则在等待时间内可以运行其他任务，如使用 asyncio、aiohttp、Tornado、Twisted、gevent、grequests、pyppeteer、pyspider、Scrapy 等。

线程和异步

（三）分布式

分布式的关键在于共享爬取队列，可以使用 celery、huey、rq、rabbitmq、kafka 等来实现任务队列的对接，也可以使用现成的框架 pyspider、Scrapy-Redis、Scrapy-Cluster 等。

分布式

（四）优化

优化

（五）架构

架构

推荐进击的Coder 崔神公号

爬虫|崔神的干货总结

一、爬取

（一）网页爬取

（二）APP爬取

二、解析

三、存储

四、反爬虫

（一）防封IP

（二）验证码

（三）防封号

五、加速

（一）多线程、多进程

（二）异步

（三）分布式

（四）优化

（五）架构

猜你喜欢

热点阅读

爬虫|崔神的干货总结

一、爬取

（一）网页爬取

（二）APP爬取

二、解析

三、存储

四、反爬虫

（一）防封IP

（二）验证码

（三）防封号

五、加速

（一）多线程、多进程

（二）异步

（三）分布式

（四） 优化

（五）架构

猜你喜欢

热点阅读

（四）优化