Python爬虫Scrapy框架:爬虫程序相关属性和方法汇总

2019-12-23  本文已影响0人  25岁学Python

一.爬虫项目类相关属性

二.爬虫项目类相关方法

#一般配置数据库的属性时候稍微用影响
#简单些下
@classmethod
def from_crawler(cls,crawler):
    HOST = crawler.settings.get('HOST') #这里面的属性都是在settings中设置的名称
    PORT = crawler.settings.get('PORT')
    USER = crawler.settings.get('USER')
    PWD = crawler.settings.get('PWD')
    DB = crawler.settings.get('DB')
    TABLE = crawler.settings.get('TABLE')
    return cls(HOST,PORT,USER,PWD,DB,TABLE)
def __init__(self,HOST,PORT,USER,PWD,DB,TABLE):
    self.HOST = HOST
    self.PORT = PORT
    self.USER = USER
    self.PWD = PWD
    self.DB = DB
    self.TABLE = TABLE
#看一眼就知道了吧

推荐Python大牛在线分享技术 扣qun:855408893

领域:web开发,爬虫,数据分析,数据挖掘,人工智能

零基础到项目实战,7天学习上手做项目

举例

如果不写start_requests方法:他会把start_urls的两个网址都发送过去

import scrapy
class BaiduSpider(scrapy.Spider):
    name = 'test'
    allowed_domains = ['http://httpbin.org/get']
    start_urls = ['http://httpbin.org/get','http://httpbin.org/get']

    def parse(self, response):
        print('接受一次')

如果写start_requests方法:他会把我们指定的Request对象发送出去,发送必须以迭代器的形式输出

上一篇 下一篇

猜你喜欢

热点阅读