我爱编程

scrapy crawlspider中使用selenium+ph

2018-02-02  本文已影响352人  腿长袖子短
def parse(self, response):
        # 提取符合规则的链接,重新发送请求,让PhantomJS渲染页面
        for link in self.link_extractor['follow_url'].extract_links(response):
            yield scrapy.Request(url=link.url, callback=self.result_handdle)

而且LinkExtractor也是从scrapy.linkextractors里边导入的,压根就和CrawlSpider没有半毛钱关系了(因为之前比较懒,一直喜欢用它的自动提取链接和链接跟进功能)

上一篇 下一篇

猜你喜欢

热点阅读