爬虫相关django数据可视化我爱编程

边读pyspider源码边学习边使用

2017-05-16  本文已影响1146人  沸腾的小茄克

用了一段时间的pyspider,一直没有研究源码。这两天抽空看了看,稍微拿几个点出来研究一下,如果读到哪里不对的地方,请及时指出我好纠正,本文我也会在今后实际使用过程中不断修正。

本文会有错误!写本文的目的是我希望一边写文章,一边看源码。所以并不是看完源码之后的总结,请谨慎阅读。

主要参考文章:

  1. pyspider架构设计
  2. pyspider架构

导航栏:

[TOC]

目录结构

1. database
2. fetcher
3. libs
4. message_queue
5. processor
6. result
7. scheduler
8. webui

结构分析

PySpider主要由schedulerfetcherprocessor三大组件,webui提供前端页面,databaseresult提供持久层(数据层),lib常用工具类,message_queue消息传递层。

三大数据库表

projectdb: project项目管理,管理该项目的代码,状态,速率,上一次的更新时间等基础信息。
taskdb: 组件中互相传递信息的json,封装了所有需要传递给各个组件进行使用和调用的数据,用户的整个爬虫都会被翻译成一系列的task,在组件中进行传递,最后获得结果。
resultdb: 如果将数据存在本地数据库,则一般以resultdb存储

总体结构

pyspider 主要流程图pyspider 主要流程图

三大组件介绍

scheduler

按照binux的介绍该组件有以下特点:

那么从源码的角度来看可以归为下面7个方法,由scheduler.py中的Scheduler类的run()方法进入run_once(),可看到下面7个方法:

def run_once(self):
   '''comsume queues and feed tasks to fetcher, once'''

   self._update_projects()
   self._check_task_done()
   self._check_request()
   while self._check_cronjob():
       pass
   self._check_select()
   self._check_delete()
   self._try_dump_cnt()

这7个方法我还没完全过掉,先说我觉得正确的几个,希望之后您也可以帮我补充一下:

fetcher

按照binux的介绍该组件有以下特点:

fetcher中主要看 tornado_fetcher.py 和 phantomjs_fetcher.js 两个文件。

tornado_fetcher.py

看名字就知道该.py文件和tornado有所关系,点开可以看到tornado_fetcher.py继承了tornado的两个类:

class MyCurlAsyncHTTPClient(CurlAsyncHTTPClient):

    def free_size(self):
        return len(self._free_list)

    def size(self):
        return len(self._curls) - self.free_size()
class MySimpleAsyncHTTPClient(SimpleAsyncHTTPClient):

    def free_size(self):
        return self.max_clients - self.size()

    def size(self):
        return len(self.active)

查看 tornado.httpclient - 异步HTTP客户端 文档后,很清楚的看到pyspider异步特性就是借助了tornado里的httpclient客户端。

还从以Fetcher类中的run方法为入口看,发现会不断从inqueue队列中取task,进行fetch;
fetch默认为异步,那么抓取的核心方法就是async_fetch(self, task, callback=None)
fetch几点步骤和内容,还没弄懂的内容我没打勾:

phantomjs_fetcher.js

先附上phantomjs WebServer部分的官方文档

webPage是PhantomJS的核心模块,可以通过下面方式获得一个webPage模块的实例:

var webPage = require('webpage')
var page = webPage.create()

再介绍phantomjs_fetcher.js中几个核心的方法:

* id: 所请求资源的id号,这个应该是phantomjs给标识的
* method: 所使用的HTTP方法(GET/POST/PUT/DELETE等)
* url: 所请求资源的URL
* time: 包含请求该资源时间的一个Date对象。
* headers: 该请求的http请求头中的信息数组。
* id: 所请求的资源编号,此编号phantomjs标识。
* url: 所请求的资源的URL
* time: 包含HTTP回应时间的Date对象
* headers: 响应的HTTP头信息数组
* bodySize: 解压缩后的收到的内容大小
* contentType: 接到的内容种类
* redirectURL: 重定向URL(如果有的话)
* stage: 对于多数据块的HTTP回应,头一个数据块为start,最后一个数据块为end
* status: HTTP状态码,成功时为200
* statusText: HTTP状态信息,比如OK

最后通过调用page.open发送请求给Phantomjs
通过make_result方法返回response

processor

按照binux的介绍该组件有以下特点:

我还没具体看,简单的看了一眼先得出以下结论:

其他组件

webui

前端页面是用Flask框架搭建的Web页面,具有以下功能:

message_queues

因为暂时就用到了Redis,所以介绍一下源码中用到的Redis方法,其他的可见Redi官方文档

上一篇 下一篇

猜你喜欢

热点阅读