scrapy笔记
创建项目步骤:
0:pycharm安装scrapy
1:创建一个空目录,用来存放项目
2:File->new projiect->pure python 选择上面创建的目录,点完成
3.当前项目下点Terminal,进入项目跟目录(默认就是),输入scrapy startproject <projectName>
4.当前项目下点Terminal,cd进入项目的spider目录(默认目录两级子目录)输入scrapy genspider <spiderName> <域名>
注意:spiderName和projectName不能重复
5.编辑item文件
6.编辑spider文件
7.运行spider:Terminal中用cd进入 scrapy.cfg所在目录下 执行:scrapy crawl <spiderName> 【-o data.json/data.csv】
8.如果包403,更改setting文件的USER_AGENT值,值可以在你要爬的网站中找一个请求,复制里面的user_agent值
9.上面每次要运行spider都要在Terminal输入命令,很麻烦,可以在和settings文件同一文件加下创建main.py文件,加入以下内容:
from scrapyimport cmdline
cmdline.execute('scrapy crawl douban_spider'.split())
通过运行该文件来启动spider
10.setting文件中打开pipline,配置数据库连接信息;编写pipline文件
11.http代理设置:
download_midleware中(注意不是spider_midleware)定义代理类,并在setting文件中配置
12.useragent伪装
同上