webmagic的一些总结

2017-07-27  本文已影响0人  KavinDotG

1、page.getRequest().getUrl()可以获得当前所爬取的URL是什么
2、使用xpath获取某个颜色的内容

xpath("//b[@style='color:black;background-color:#ffff66']/text()").get()

3、可以在
public void process(Page page) {}方法中添加正则区分URL属于第几轮
并在main方法中利用isExitWhenComplete()方法判断第一轮spider是否完成采集

            Spider spider = Spider.create(new BaiduKuaiZhao())
                        .addUrl(kwsList().get(0)).thread(50);
            spider.run();
            if (spider.isExitWhenComplete()) {
                  spider.close();
                  System.out.println("spider1已经结束");
                  System.out.println(kzList.size());
                  Spider spider1 = Spider.create(new BaiduKuaiZhao())
                              .addUrl(kzList.get(0)).thread(5);
                  spider1.run();
                  spider1.close();
            }
      }

上一篇下一篇

猜你喜欢

热点阅读