混沌初开之感悟到啥就写啥

2018-06-23  本文已影响2人  平头说人生

概念:

1继承scrapy.Spider的class是爬虫的主要文件,

其中name是关键字,代表此爬虫程序的唯一ID

allowed_domains也是关键字,限定可访问的域名,

start_urls也是关键字,代表要爬虫的网址,

def parse(self, response)

要复写此函数来解析爬虫网址,

response是返回来的html文本

爬虫关键就是提取数据,

Scrapy提供了基于XPath和CSS表达式的Selectors,

官方说XPath比CSS更牛逼,带X的都挺牛逼的,所以后面重点我们就学习使用XPath来提取数据就好了。

上一篇 下一篇

猜你喜欢

热点阅读