技术栈

[译]Node Crawler:强大的Node开源爬虫

2017-05-22  本文已影响901人  pockry

自从Node横空出世后,很快有人就用它来开发爬虫,网上也常见Node爬虫教程。然而,很难看到一个通用的、功能丰富的爬虫开源项目,到Github上找了一下找到这个,算是目前能找到的最好的了。

这里将它的文档翻译一下,期待更多的实用案例。

node-crawler

目标打造成Node社区最强大和流行的爬虫/内容抽取工具库,且支持生产环境。

特性:

更新日志:https://github.com/bda-research/node-crawler/blob/master/CHANGELOG.md

上手指南

安装

$ npm install crawler

使用

var Crawler = require("crawler");

var c = new Crawler({
    maxConnections : 10,
    // 这个回调每个爬取到的页面都会触发
    callback : function (error, res, done) {
        if(error){
            console.log(error);
        }else{
            var $ = res.$;
            // $默认使用Cheerio
            // 这是为服务端设计的轻量级jQuery核心实现
            console.log($("title").text());
        }
        done();
    }
});

// 爬取一个URL,使用默认的callback
c.queue('http://www.amazon.com');

// 爬取URL列表
c.queue(['http://www.google.com/','http://www.yahoo.com']);

// 爬取页面,自定义callback和参数
c.queue([{
    uri: 'http://parishackers.org/',
    jQuery: false,

    // 覆盖全局的callback
    callback: function (error, res, done) {
        if(error){
            console.log(error);
        }else{
            console.log('Grabbed', res.body.length, 'bytes');
        }
        done();
    }
}]);

// 在队列中加入一些HTML代码,无需爬取(mostly for tests)
c.queue([{
    html: '<p>This is a <strong>test</strong></p>'
}]);

控制爬取间隔时间

当你在流量网站时,使用 rateLimit 控制间隔时间。

var crawler = require("crawler");

var c = new Crawler({
    rateLimit: 1000, // `maxConnections` 会强制为1个
    callback: function(err, res, done){
        console.log(res.$("title").text());
        done();
    }
});

c.queue(tasks);//在两次任务间最小时间间隔为 1000 (ms)

配置项指南

你可以将这些配置发给 Crawler() 构造器,让它们成为全局配置,或者自定义 queue() 的请求已覆盖全局配置。

这个配置列表在mikeal的request项目配置的基础上做了扩展,并且会直接发送给 request() 方法。

基本请求配置项:

回调:

计划任务选项:

重试选项:

服务端DOM配置:

字符集编码:

缓存:

其它:

Class:Crawler

Event: 'schedule'

当一个任务被加到计划时触发.

crawler.on('schedule',function(options){
    options.proxy = "http://proxy:port";
});

Event: 'limiterChange'

当limiter改变时触发.

Event: 'request'

当爬虫准备好发送请求时触发.

如果你想在发出请求之前的最后阶段改变配置,可以监听这个事件。

crawler.on('request',function(options){
    options.qs.timestamp = new Date().getTime();
});

Event: 'drain'

当队列为空时触发。

crawler.on('drain',function(){
    // 执行一些操作,如,释放数据库连接。
    db.end(); // 关闭MySQL连接。
});

crawler.queue(uri|options)

将任务加入队列并等待执行。

crawler.queueSize

队列数量,该属性为只读。

处理瓶颈

使用limiter控制爬取频率。所有提交到limiter的任务都需要遵守rateLimitmaxConnections 的限制。rateLimit是两个任务之间的最小间隔,maxConnections是最大的并发数。limiters之间是互相独立的。一个通常的用例是为不同的代理设置不同的limiter。另外值得一提的是,当rateLimit设置为非0的值时,maxConnections 的值将被强制为1.

var crawler = require('crawler');

var c = new Crawler({
    rateLimit: 2000,
    maxConnections: 1,
    callback: function(error, res, done) {
        if(error) {
            console.log(error)
        } else {
            var $ = res.$;
            console.log($('title').text())
        }
        done();
    }
})

// 如果你想以2000毫秒的间隔执行任务
c.queue('http://www.somewebsite.com/page/1')
c.queue('http://www.somewebsite.com/page/2')
c.queue('http://www.somewebsite.com/page/3')

// 如果你想为设置代理,并为每个代理设置2000毫秒的间隔
c.queue({
    uri:'http://www.somewebsite.com/page/1',
    limiter:'proxy_1',
    proxy:'proxy_1'
})
c.queue({
    uri:'http://www.somewebsite.com/page/2',
    limiter:'proxy_2',
    proxy:'proxy_2'
})
c.queue({
    uri:'http://www.somewebsite.com/page/3',
    limiter:'proxy_3',
    proxy:'proxy_3'
})
c.queue({
    uri:'http://www.somewebsite.com/page/4',
    limiter:'proxy_1',
    proxy:'proxy_1'
})

Work with Cheerio or JSDOM

爬虫默认使用Cheerio,并将JSDOM作为可选的替代。JSDOM更稳定,如果你想使用JSDOM,你需要引入该依赖require('jsdom'),并配置爬虫。

Working with Cheerio

jQuery: true //(default)
//OR
jQuery: 'cheerio'
//OR
jQuery: {
    name: 'cheerio',
    options: {
        normalizeWhitespace: true,
        xmlMode: true
    }
}

这些解析配置从htmlparser2里继承而来。你可以使用所有可用的配置。默认的配置为:

{
    normalizeWhitespace: false,
    xmlMode: false,
    decodeEntities: true
}

需要所有的配置项和它们的效果,查看 这里 以及
htmlparser2的配置项来源

Work with JSDOM

要使用JSDOM,你需要先在项目目录下npm install jsdom,然后配置爬虫。

var jsdom = require('jsdom');
var Crawler = require('crawler');

var c = new Crawler({
    jQuery: jsdom
});

如何测试

安装并运行Httpbin

爬虫使用本地的httpbin来测试。你可以从PyPI安装httpbin并将其作为WSGI应用来允许。比如,使用Gunicorn:

$ pip install httpbin
# launch httpbin as a daemon with 6 worker on localhost
$ gunicorn httpbin:app -b 127.0.0.1:8000 -w 6 --daemon
# Finally
$ npm install && npm test

使用Docker

在安装 Docker 之后, 你可以执行:

# Builds the local test environment
$ docker build -t node-crawler .

# Runs tests
$ docker run node-crawler sh -c "gunicorn httpbin:app -b 127.0.0.1:8000 -w 6 --daemon && cd /usr/local/lib/node_modules/crawler && npm install && npm test"

# You can also ssh into the container for easier debugging
$ docker run -i -t node-crawler bash

一些比较困难的待办事项

上一篇 下一篇

猜你喜欢

热点阅读