webmagic高级:(五)
2018-03-20 本文已影响0人
沙漏如心
这个呢,也就是我对webmagic 做的最后一篇的内容了,在这个里面我打算说很多的的对象,只不过这些对象内容较为简单,或者说容易理解!
首先呢,第一个对象就是pipeline 里面的ResultItems对象了!
ResultItems这个呢就是这个对象里面的所有的内容,剩下的都是一些简单的方法!, 有图片我们可以看出来,ResultItems 这个对象里面最核心的内容就是一个Map一个用来存出一些数据的集合!在自己解析完页面之后,将自己需要保存的一些数据传到这个里面去,然后在pipe line 里面进行一些保存,就是这个样子;了!
剩下的,就是代理!
Proxy干过爬虫的人呢,都会知道代理这个词,而webmagic呢,内部也是集成了代理系统的!
相应的,有代理就会有代理池了!
ProxyProvider这个呢,就是webmagic 内部集成的代理池了。 具体使用方法,请自己摸索,我没有使用过他内部自己集成的代理。 而且官网也没有这部分内容哦!
https://blog.csdn.net/qq_36783371 一个大佬写的博客,欢迎去砸鸡蛋!