我爱编程

2018-05-10 D3 继续安装环境

2018-05-10  本文已影响0人  dongdonghao

1.6 Web库的安装

现在日常访问的网站都是Web服务程序搭建而成的。Python也有Web服务程序,比如Flask, Django等,我们可以使用它来开发网站和接口等。

主要作用是构建代理池。本书中的Web服务成雪主要是Flask和Tornado。

1.6.1 Flask的安装

Flask是一个轻量级的Web服务程序,它简单,易用,灵活。

1.6.2 Tornado的安装

Tornado是一个支持异步的Web框架,通过使用非阻塞I/O流, 它可以支撑成千上万的开放连接,效率非常高。

利用Tornado + Redis来搭建一个ADSL拨号代理池

1.7 APP爬取相关库的安装

简单的接口 Charles或者mitmproxy分析

复杂的结构用mitmdump来对抓取的请求和相应进行实时处理和保存

自动化App操作, 使用Appium。

1.7.1 Charles的安装

Charles是一个网络抓包工具,相比Fiddler,其功能更强大,跨平台支持得更好,

由于使用时间是30天,所以先下载,等用到再配置

1.7.2  mitmproxy的安装

mitmproxy是一个支持HTTP和HTTPS的抓包程序,类似Fiddler, Charles的功能,只不过它通过控制台的形式操作。

此外, mitmproxy还是两个关联组建,一个是mitmdump,它是mitmproxy的命令行接口,利用它可以对接Pyhton脚本,实现监听后的处理,另一个是mitmweb,它是一个Web程序,通过它可以清楚的观察到mitmproxy捕获的请求

1.7.3 Appium的安装

1.8 爬虫框架的安装

我们直接用requests,Selenium等库写爬虫,爬取量不大,速度要求不高,完全可以满足需求,但是很多代码和组件可以复用,我们吧这些组件抽离出来,将各个功能模块化,就慢慢会形成一个框架出行,久而久之,爬虫框架就诞生了。

利用框架,我们可以不用关心某些功能的具体实现,只关心逻辑即可,有了它们,可以大大简化代码量,而且框架也会变得清晰,爬取效率也会高很多。

主要介绍了爬虫框架有pyspider和Scrapy.

1.8.1 pyspider的安装

pyspider是国人binux写的强大的爬虫框架,它带有强大的WebUI, 脚本编辑器,任务控制器,项目管理器以及结果处理器,同时支持多种数据库后端,多种消息队列,另外还支持JavaScript渲染页面的爬去,使用起来非常方便。

1.8.2 Scrapy的安装

Scrapy-Splash是一个Scrapy中支持JavaScript渲染的工具

1.9 部署相关库的安装

上一篇下一篇

猜你喜欢

热点阅读