聚焦Python分布式爬虫必学框架 Scrapy 打造搜索引擎
2018-07-07 本文已影响22人
江湖十年
通过 CrawlSpider 创建爬虫
- 在项目目录中,通过命令
scrapy genspider --list
查看 Scrapy 提供的所有爬虫模板,其中basic
是默认模板
scrapy genspider --list
- 通过命令
scrapy genspider -t crawl lagou www.lagou.com
创建拉钩网爬虫,其中-t
参数用来指明创建爬虫所用模板
scrapy genspider -t crawl lagou www.lagou.com
![](https://img.haomeiwen.com/i9538421/f74e86c128beb93e.png)
- 插入一个小技巧
![](https://img.haomeiwen.com/i9538421/81a37362920e9c85.png)
要解决上述问题,只需在项目文件 settings.py 中加入如下两行代码即可
# 将 settings.py 所在路径配置到 Python Path
BASE_DIR = os.path.dirname(os.path.abspath(os.path.dirname(__file__)))
sys.path.append(os.path.join(BASE_DIR, 'ArticleSpider'))
![](https://img.haomeiwen.com/i9538421/a4d674ca62ae412a.png)