菜鸟要飞

WebMagic学习(三)之Pipeline保存结果

2017-04-30  本文已影响79人  万总有点菜

爬虫获取的数据,如何进行展示或者保存?
WebMagic用于保存结果的组件叫做Pipeline。WebMagic有许多内置的Pipeline。

ConsolePipeline输出
 public JsonFilePipeline() {
        this.setPath("/data/webmagic");
    }
 public JsonFilePipeline(String path) {
        this.setPath(path);
    }

JsonFilePipeline的构造方法,提供了存储路径的输入,默认路径为 /data/webmagic。
实现代码及效果截图如下:

public static void main(String[] args) {
        Spider.create(new GankRepoPageProcessor())
                .addUrl("http://gank.io")//从该url开始
                .addPipeline(new JsonFilePipeline("/Users/cmcs303/Desktop/crawler/"))
                .thread(5)
                .run();
    }
效果截图
上一篇 下一篇

猜你喜欢

热点阅读