Python爬虫Scrapy框架:关于scrapy中scrapy

2019-12-23  本文已影响0人  25岁学Python

一.源码

    def __init__(self, url, callback=None, method='GET', headers=None, body=None,
                 cookies=None, meta=None, encoding='utf-8', priority=0,
                 dont_filter=False, errback=None, flags=None):

一.url(必须)

填写的参数:请求的地址

数据类型:str

二.callback

填写的参数:响应返回的回调函数(必须是类当中或者父类当中的方法),默认为parse方法

数据类型:str

三.method

填写的参数:请求的方式

数据类型:str


推荐Python大牛在线分享技术 扣qun:855408893

领域:web开发,爬虫,数据分析,数据挖掘,人工智能

零基础到项目实战,7天学习上手做项目

四.headers

填写的参数:请求头

数据类型:dict

五.meta

填写的参数:我是这样理解的理解成传输时候一个类似容器的东西

数据类型:dict

response.meta['key']可以获得设置的value

六.dont_filter

填写的参数:表明该请求不由调度器过滤。这是当你想使用多次执行相同的请求,忽略重复的过滤器。默认为False.

数据类型:bool

七.encoding

填写的参数:编码格式

数据类型:str

八.errback

填写的参数:响应返回的错误的回调函数(必须是类当中或者父类当中的方法)默认返回'dealerr'方法

数据类型:dict

九.body补充点post参数提交

方法一.

scrapy.FormRequest(url=url,formdata=formdata)
#这里的formdata是dict格式的,里面不能存在数字,如果有数字用引号括起来;

方法二.

scrapy.Request(url=url,method="POST",body=formdata)
#这里的formdata必须得是字符串,如果是表单格式,那么需要用json.dumps()转为字符串格式;

十.priority和flags(我没怎么用资料都是网上的)

priority是优先级,(默认为0,越大优先级越大),实际应用中我没用过.

flags网上说指针,我没怎么用,也没深究,如果有知道的人欢迎补充

上一篇下一篇

猜你喜欢

热点阅读