webmagic初级

2018-03-13  本文已影响0人  沙漏如心

       本人从事java爬虫开发已经时间不短了,但是一直因为某种原因,一直没有写一些文章来巩固自己所学习的一些知识!

        现在打算,写一写自己所知道的东西,来跟大家分享一下!

        首先呢,webmagic是一款开源的java爬虫框架,经过时间的沉淀,已经形成了属于自己的良好风格!

         具体的内容,可以参考中文网站:http://webmagic.io/

         然后呢,我就在这里简单说一下自己的理解,webmagic呢,里面共有5大部分。Spider,scheduler,pipeline,processeror,download.

         shceduler,是整个爬虫的url管理器,负责爬虫里面的url地址的分发跟缓存到内存中等一系列功能。

         processor,是页面解析器,每当我们拿到一个页面的时候,在这个地方进行页面解析的操作。webmagic在此进行了良好的封装,支持正则,xpath,jsonpath.,jquery解析等多种解析方式,总有一种适合你!

         download,是整个爬虫的接受请求,并对数据进行封装的地方,在这里会将我们所传递过去的Reuqest发送出去,并将接受到的reponse进行一些简单的判断,然后重新封装成page,并返回到processer里面,来进行下一步的操作。

         pipeline,这个部分呢,是整个爬虫的数据管道,在经过processer进行页面解析完成之后,在这里进行对数据的下一步操作,无论是入库啊,还是保存文件存入硬盘,都是在这个位置进行操作的。

          Spider,是整个爬虫的控制器,里面主要负责了针对整个爬虫一些管理方面的东西!

 话不多说,直接上代码,在这里,鉴于懒得原因,我们直接使用官网的代码,来进行展示。

     首先,第一步,导包,如果你使用了maven,

         这个将会是你的最终选择!

否则,这个才是属于你的方式!

     接下来,就是代码了:

基础教程

如果有什么疑问,请直接咨询我!

     https://blog.csdn.net/qq_36783371  一个大佬写的博客,欢迎去砸鸡蛋!

上一篇下一篇

猜你喜欢

热点阅读