Scrapy之LinkExtractor2019-03-06

2019-03-06  本文已影响0人  oldfred

如何取得列表页中的内容链接呢?方法有很多,但LE应当是最简单的一个了。
使用这个工具之前,先引入。

from scrapy.linkextractors import LinkExtractor

注意,linkextractors是个复数。
然后在程序中就可以使用了。
先用LinkExtractor确定查链方法。如:

l = LinkExtractor(restrict_xpaths='//div[@class="alist"]/ul/li/a',allow = 'shtml$')

再用extract_links()提取到一个列表中。

links= l.extract_links(response)

用.url或.txt实例之。

print(link.url,link.text)
上一篇 下一篇

猜你喜欢

热点阅读