2018-09-05 scrapy-spider(一)
2018-09-06 本文已影响0人
认真的史莱冰
介绍scrapy发出请求,并且处理数据的文件 spider.
首先介绍命令 scrapy genspider -l
这个命令可以显示出当前可用的spider模板
这里有四个模板常用模板是 basic 和 crawl(也不是常用,目前我只用过这两个模板)
basic模板就是很普通很基础的模板,但是可以用来爬去用ajax渲染数据的网站(比如拉勾网),crawl更偏向于有规则的数据,面对有规律的网站可以很轻松的做到全站爬去。
如果想创建spider文件,就进入项目中的spider目录(用cmd进入),输入命令 scrapy genspider -t 模板名(比如crawl) 爬虫名 域名
这样就能创建好一个爬虫软件