混沌初开之感悟到啥就写啥

2018-06-23 本文已影响2人平头说人生

概念：

1继承scrapy.Spider的class是爬虫的主要文件，

其中name是关键字，代表此爬虫程序的唯一ID

allowed_domains也是关键字，限定可访问的域名，

start_urls也是关键字，代表要爬虫的网址，

def parse(self, response)

要复写此函数来解析爬虫网址，

response是返回来的html文本

爬虫关键就是提取数据，

Scrapy提供了基于XPath和CSS表达式的Selectors,

官方说XPath比CSS更牛逼，带X的都挺牛逼的，所以后面重点我们就学习使用XPath来提取数据就好了。