大师兄的Python学习笔记(三十）: 爬虫（十一）

2020-09-16 本文已影响0人 superkmi

大师兄的Python学习笔记(二十九）: 爬虫（十）
大师兄的Python学习笔记(三十一）: 爬虫（十二）

十一、Scrapy框架

6. 关于Selector

Selector是Scrapy自己的选择器。
Selector基于lxml,支持xpath选择器、css选择器和正则表达式。

6.1 使用方法

首先使用Selector模块创建一个选择器对象。
使用.extract()获取内容列表，使用.extract_first()获取第一个匹配内容。

1) xpath选择器

xpath选择器使用selector.xpath()
在xpath选择器中添加/text()选取文本内容。
在xpath选择器中添加/@(<name>)选取属性。

>>>from scrapy import Selector

>>>html = '''
>>>    <html>
>>>        <head>
>>>            <title>
>>>                hello
>>>            </title>
>>>        </head>
>>>    </html>'''
>>>selector = Selector(text=html)
>>>title = selector.xpath('//title/text()').extract()
>>>print(title)
['\n                hello\n            ']

2) css选择器

css选择器使用selector.css()。
在选择器中添加::text选取文本内容。
在选择器中添加::attr(<name>)选取某个属性。

>>>from scrapy import Selector

>>>html = '''
>>>    <html>
>>>        <head>
>>>            <title>
>>>                hello
>>>            </title>
>>>        </head>
>>>    </html>'''
>>>selector = Selector(text=html)
>>>title = selector.css('title::text').extract()
>>>print(title)
['\n                hello\n            ']

3) 正则匹配

正则使用selector.re()匹配所有内容，或使用selector.re_first()匹配第一个内容。

>>>from scrapy import Selector

>>>html = '''
>>>    <html>
>>>        <head>
>>>            <title>
>>>                hello
>>>            </title>
>>>        </head>
>>>    </html>'''
>>>selector = Selector(text=html)
>>>title = selector.re('h.*o')
>>>print(title)
['hello']

正则匹配还可以和选择器搭配使用

>>>from scrapy import Selector

>>>html = '''
>>>    <html>
>>>        <head>
>>>            <title>
>>>                hello
>>>            </title>
>>>        </head>
>>>    </html>'''
>>>selector = Selector(text=html)
>>>title = selector.css('title::text').re('e.*o')
>>>print(title)
['ello']

7. 关于Spider

爬虫(Spider)模块负责定义爬取网站的动作，并分析爬取的网页。

7.1 爬虫的爬取流程

1) 以初始URL初始化Request,并设置回调函数parse(self, response)。请求成功后将response做为参数传给回调函数。

2) 在回调函数中分析网页内容，内容分两类:

如果是有效结果，则返回Item或字典。

如果是下一页，则用新的URL构造request并设置新的回调函数。

2-1) 如果返回结果，可通过Feed Exports等组件将返回结果存入文件，如果设置了Pipeline，则使用Pipeline处理并保存。

2-2) 如果返回下一页的请求，则根据请求结果并执行相应的回调函数, 解析并生成Item。
重复以上步骤，直到完成爬取。

7.2 scrapy.spiders.Spider类

Scrapy中所有的爬虫都必须继承scrapy.spiders.Spider类。
scrapy.spiders.Spider类包含以下属性和方法：

属性	介绍
name	爬虫的名称。
allowed_domains	允许爬取的域名白名单，可选。
start_urls	默认起始url列表，在没有实现`start_requests()`方法时从这里默认爬取。
custom_settings	爬虫的配置字典，会覆盖全局设置。
crawler	爬虫对应的Crawler对象，可以用来获取项目的配置信息`settings`。
settings	`Settings`对象，可以直接获取项目的全局设置变量。

方法	介绍
start_requests()	用于生成初始请求，默认使用`start_urls`里的URL构造请求，并返回一个可迭代对象。
parse()	当`Response`没有指定回调函数时被默认调用。负责处理返回结果，并从中提取数据和下一步请求。返回一个包含`Request`或`Item`的可迭代对象。
closed()	当爬虫被关闭时调用。

8. 关于Downloader Middleware

即下载器中间件，负责处理引擎和下载器之间的请求(requet)和响应(response)。
观察上图，下载器中间件在以下两个位置起作用：

1) 请求发送给下载器之前。

Scheduler -> Engine -> Downloader Middlewares-> Downloader

2) 响应发送给引擎->爬虫之前。

Downloader ->Downloader Middlewares-> Engine -> Spider

下载器中间件的主要功能包括: 修改User-Agent、重定向、设置代理、失败重试、Cookies等。

8.1 核心方法

下载器中间件有process_request(request,spider)、process_response(request,response,spider)、process_exception(request,exception,spider)三个核心方法，至少实现其中一个，即可定义一个下载器中间件。

1) process_request(request,spider)

在请求发送给下载器之前调用。

参数:

参数说明

request 被处理的Request对象

spider 对应的爬虫对象

返回值必须是None、Response对象、Request对象之一, 或抛出IgnoreRequest异常:

返回值说明

None - 继续执行其他process_request()方法，直到下载器获得Response。
- 本质是根据优先级修改Request。
- 最后发送给Downloader执行。

Response对象 - 更低优先级的process_request()方法和process_exception()方法不会被继续调用。
- 每个process_response()方法转而被依次调用。
- 完成后将Response发送给爬虫处理。

Request对象 - 更低优先级的process_request()方法会停止执行。
- 这个Request会作为一个全新的Request放到调度队列里，等待调度。
- 被调度后，process_request()会被重新按照顺序执行。

抛出IgnoreRequest异常 - 所有的process_exception()方法依次执行。
如果异常没有被处理，则使用Request的errorback()方法回调。
如果异常还没有被处理，则忽略。

2) process_response(request,response,spider)

在相应发送给爬虫之前调用。

参数:

参数说明

request Response对应的Request对象。

response 等待被处理的Response对象。

spider 对应的爬虫对象。

返回值必须是Request对象、Response对象之一，或抛出IgnoreRequest异常。

返回值说明

Request对象 - 更低优先级的process_response()方法不会继续调用。
- 这个Request会作为一个全新的Request放到调度队列里，等待调度。
- 被调度后，process_request()会被按照顺序执行。

Response对象 - 更低优先级的process_response()方法会继续调用，对该Response对象进行处理。

抛出IgnoreRequest异常 - Request的errorback()方法回调。
- 如果异常还没有被处理，则忽略。

3) process_exception(request,exception,spider)

当下载器或process_request()方法抛出异常时被调用。

参数:

参数说明

request 产生异常的Request对象。

exception 被抛出的Exception对象。

spider 对应的爬虫对象。

返回值必须是None、Response对象、Request对象之一。

参数说明

None - 更低优先级的process_exception()会被继续按顺序调用，直到所有方法都被调度完毕。

Response对象 - 更低优先级的process_exception()不再被继续调用。
- process_response()方法装而被依次调用。

Request对象 - 更低优先级的process_exception()不再被继续调用。
- 这个Request会作为一个全新的Request放到调度队列里，等待调度。
- 被调度后，process_request()会被按照顺序执行。

参数	说明
request	被处理的Request对象
spider	对应的爬虫对象

返回值	说明
None	- 继续执行其他`process_request()`方法，直到下载器获得Response。 - 本质是根据优先级修改Request。 - 最后发送给Downloader执行。
Response对象	- 更低优先级的`process_request()`方法和`process_exception()`方法不会被继续调用。 - 每个`process_response()`方法转而被依次调用。 - 完成后将Response发送给爬虫处理。
Request对象	- 更低优先级的`process_request()`方法会停止执行。 - 这个Request会作为一个全新的Request放到调度队列里，等待调度。 - 被调度后，`process_request()`会被重新按照顺序执行。
抛出IgnoreRequest异常	- 所有的`process_exception()`方法依次执行。如果异常没有被处理，则使用Request的`errorback()`方法回调。如果异常还没有被处理，则忽略。

参数	说明
request	Response对应的Request对象。
response	等待被处理的Response对象。
spider	对应的爬虫对象。

返回值	说明
Request对象	- 更低优先级的`process_response()`方法不会继续调用。 - 这个Request会作为一个全新的Request放到调度队列里，等待调度。 - 被调度后，`process_request()`会被按照顺序执行。
Response对象	- 更低优先级的`process_response()`方法会继续调用，对该Response对象进行处理。
抛出IgnoreRequest异常	- Request的`errorback()`方法回调。 - 如果异常还没有被处理，则忽略。

参数	说明
request	产生异常的Request对象。
exception	被抛出的Exception对象。
spider	对应的爬虫对象。

参数	说明
None	- 更低优先级的`process_exception()`会被继续按顺序调用，直到所有方法都被调度完毕。
Response对象	- 更低优先级的`process_exception()`不再被继续调用。 - `process_response()`方法装而被依次调用。
Request对象	- 更低优先级的`process_exception()`不再被继续调用。 - 这个Request会作为一个全新的Request放到调度队列里，等待调度。 - 被调度后，`process_request()`会被按照顺序执行。

使用前需要在settings.py中配置中间件:

>>>DOWNLOADER_MIDDLEWARES = {
>>>   'project_sample.middlewares.ProjectSampleDownloaderMiddleware': 543,
>>>}

一个简单案例，从settings中读取并修改request的user_agent:

>>>class ProjectSampleDownloaderMiddleware(object):
>>>    def __init__(self,user_agent):
>>>        self.user_agent=user_agent

>>>    @classmethod
>>>    def from_crawler(cls, crawler):
>>>        s = cls(crawler.settings['USER_AGENT'])
>>>        crawler.signals.connect(s.spider_opened, signal=signals.spider_opened)
>>>        return s

>>>    def process_request(self, request, spider):
>>>        if self.user_agent:
>>>            request.headers.setdefault(b'User-Agent',self.user_agent)
>>>        return None

>>>    def spider_opened(self, spider):
>>>        self.user_agent = getattr(spider,'user_agent',self.user_agent)

9. 关于Spider Middleware

即爬虫中间件，位于引擎和爬虫间的Hook框架，主要处理向爬虫输入的响应和输出的结果及新的请求。
主要在以下三个位置起作用:

1) 下载器将生成的响应发送给爬虫之前

Downloader -> Engine -> Spider Middlewares -> Spiders

2) 爬虫将请求发送给Scheduler之前

Spider -> Spider Middlewares ->Engine -> Scheduler

3) 爬虫将生成的项目发给Item Pipeline之前
Spider -> Spider Middlewares ->Engine -> Item Pipeline

9.1 核心方法

爬虫中间件的核心方法有:process_spider_input(response,spider)、process_spider_output(response,result,spider)、process_spider_exception(response,exception,spider)、process_start_requests(start_requests,spider)。

1) process_spider_input(response,spider)

当爬虫中间件处理response时，该方法会被调用。

参数:

参数说明

response 将被处理的Response对象。

spider 对应的爬虫对象。

返回值应该是None或者抛出异常：

返回值说明

None 调用其它中间件，直到Spider处理这个Response。

抛出异常 - 不会调用其它的爬虫中间件，而是调用errback()方法。
- errback()的输出使用process_spider_output()方法处理。
- 异常调用process_spider_exception()处理。

2) process_spider_output(response,result,spider)

当爬虫处理Response返回结果时调用。

参数:

参数说明

response 将被处理的Response对象。

result 爬虫的返回结果，包含Request或Item的可迭代对象。

spider 对应的爬虫对象。

返回值是处理过的result，必须包含Request或item的可迭代对象。

3) process_spider_exception(response,exception,spider)

当process_spider_input()抛出异常时调用。

参数:

参数说明

response 将被处理的Response对象。

exception 被抛出的Exception对象。

spider 对应的爬虫对象。

返回值应该是None或者包含Response/Item的可迭代对象：

返回值说明

None 继续调用其它process_spider_exception()方法，直到全部被调用。

Response/Item可迭代对象调用process_spider_output()方法。

4) process_start_requests(start_requests,spider)

当爬虫发起参数时被调用。

参数说明

start_requests 包含Request的可迭代对象

spider 对应的爬虫对象。

返回处理过的start_requests,也就是包含Request的可迭代对象。

参数	说明
response	将被处理的Response对象。
spider	对应的爬虫对象。

返回值	说明
None	调用其它中间件，直到Spider处理这个Response。
抛出异常	- 不会调用其它的爬虫中间件，而是调用`errback()`方法。 - `errback()`的输出使用`process_spider_output()`方法处理。 - 异常调用`process_spider_exception()`处理。

参数	说明
response	将被处理的Response对象。
result	爬虫的返回结果，包含Request或Item的可迭代对象。
spider	对应的爬虫对象。

参数	说明
response	将被处理的Response对象。
exception	被抛出的Exception对象。
spider	对应的爬虫对象。

返回值	说明
None	继续调用其它`process_spider_exception()`方法，直到全部被调用。
Response/Item可迭代对象	调用`process_spider_output()`方法。

参数	说明
start_requests	包含Request的可迭代对象
spider	对应的爬虫对象。

使用前需要先在settings.py配置中间件:

>>>SPIDER_MIDDLEWARES = {
>>>>   'project_sample.middlewares.ProjectSampleSpiderMiddleware': 543,
>>>}

简单案例

class ProjectSampleSpiderMiddleware(object):
    def process_spider_output(self, response, result, spider):
        for i in result:
            if isinstance(i, scrapy.Item):
                print('现在将把Item发送到pipeline')
            yield i
... ...
现在将把Item发送到pipeline
2020-09-15 11:12:22 [scrapy.core.scraper] DEBUG: Scraped from <200 https://movie.douban.com/subject/26357307/>
{'actors': 27,
 'director': '妮琪·卡罗',
 'title': '花木兰 Mulan',
 'url': 'https://movie.douban.com/subject/26357307/'}
... ...

10. 关于Item Pipeline

Item Pipeline即项目管道，接收并处理爬虫返回的Item(项目)。
Item Pipeline常用的操作有：

1) 清理HTML数据。
2) 验证爬取数据，检查爬取字段。
3) 查重并丢弃重复内容。
4) 将爬取结果保存到数据库。

10.1 使用Item Pipeline

Item Pipeline即项目管道，主要在爬虫流程的结尾部分生效：Spider -> Engine -> Item Pipeline
使用Item Pipeline,必须在pipelines.py文件的类中添加一个process_item(item,spider)方法，除此之外还有open_spider(spider)、close_spider(spider)、from_crawler(cls,crawler)等方法。

1) process_item(item,spider)

定义后的Item Pipeline会默认调用此方法。

参数：

参数说明

item 爬虫生成的Item对象。

spider 对应的爬虫。

可以返回Item对象或抛出DropItem异常：

返回值说明

Item对象所有Item Pipeline按优先级继续处理。

抛出DropItem异常 Item对象被丢弃，不在进行处理。

2) open_spider(spider)

在爬虫开启时被自动调用, 通常用来执行初始化工作。

参数spider是相应的爬虫对象。

3) close_spider(spider)

在爬虫关闭时被自动调用, 通常用来执行收尾工作。

参数spider是相应的爬虫对象。

4) from_crawler(cls,crawler)

from_crawler()是类方法, 用@classmethod标识。

类方法的第一个参数(cls)必须是类的实例。

参数crawler是crawler对象，可以用于获得scrapy的全局配置信息。

参数	说明
item	爬虫生成的Item对象。
spider	对应的爬虫。

返回值	说明
Item对象	所有Item Pipeline按优先级继续处理。
抛出DropItem异常	Item对象被丢弃，不在进行处理。

简单案例:

>>>from scrapy.exceptions import DropItem

>>>class ProjectSamplePipeline(object):
>>>    def process_item(self, item, spider):
>>>        # 将演员名称替换为演员数量
>>>        if item.get('actors'):
>>>            item['actors'] = len(item['actors'])
>>>            return item
>>>        else:
>>>            return DropItem("No actors")

在使用前还需要在settings.py中配置item pipeline, 数字代表执行优先级权重:

>>># Configure item pipelines
>>># See https://doc.scrapy.org/en/latest/topics/item-pipeline.html
>>>ITEM_PIPELINES = {
>>>   'project_sample.pipelines.ProjectSamplePipeline': 300,
>>>}

运行爬虫查看结果，演员名称已经被替换为演员数:

D:\project_sample>scrapy crawl douban
... ...
{'actors': 18,
 'director': '泰特·泰勒',
 'title': '艾娃 Ava',
 'url': 'https://movie.douban.com/subject/30289869/'}
2020-09-10 09:56:46 [scrapy.core.engine] DEBUG: Crawled (200) <GET https://movie.douban.com/subject/30129061/> (referer: https://movie.douban.com/chart)
2020-09-10 09:56:46 [scrapy.core.engine] DEBUG: Crawled (200) <GET https://movie.douban.com/subject/27131969/> (referer: https://movie.douban.com/chart)
2020-09-10 09:56:46 [scrapy.core.engine] DEBUG: Crawled (200) <GET https://movie.douban.com/subject/34462775/> (referer: https://movie.douban.com/chart)
2020-09-10 09:56:46 [scrapy.core.scraper] DEBUG: Scraped from <200 https://movie.douban.com/subject/35141706/>
{'actors': 10,
 'director': '周润泽',
 'title': '东北往事：我叫刘海柱',
 'url': 'https://movie.douban.com/subject/35141706/'}
2020-09-10 09:56:46 [scrapy.core.scraper] DEBUG: Scraped from <200 https://movie.douban.com/subject/30330875/>
{'actors': 27,
 'director': '亨利·朱斯特',
 'title': '超能计划 Project Power',
 'url': 'https://movie.douban.com/subject/30330875/'}
2020-09-10 09:56:47 [scrapy.core.scraper] DEBUG: Scraped from <200 https://movie.douban.com/subject/30479644/>
{'actors': 27,
 'director': '杨宇硕',
 'title': '铁雨2：首脑峰会 강철비2: 정상회담',
 'url': 'https://movie.douban.com/subject/30479644/'}
2020-09-10 09:56:47 [scrapy.core.scraper] DEBUG: Scraped from <200 https://movie.douban.com/subject/26389321/>
{'actors': 14,
 'director': '约什·布恩',
 'title': '新变种人 The New Mutants',
 'url': 'https://movie.douban.com/subject/26389321/'}
2020-09-10 09:56:47 [scrapy.core.scraper] DEBUG: Scraped from <200 https://movie.douban.com/subject/30129061/>
{'actors': 15,
 'director': '查理·考夫曼',
 'title': "我想结束这一切 I'm Thinking of Ending Things",
 'url': 'https://movie.douban.com/subject/30129061/'}
2020-09-10 09:56:47 [scrapy.core.scraper] DEBUG: Scraped from <200 https://movie.douban.com/subject/27131969/>
{'actors': 6,
 'director': '李云波',
 'title': '无名狂',
 'url': 'https://movie.douban.com/subject/27131969/'}
2020-09-10 09:56:47 [scrapy.core.scraper] DEBUG: Scraped from <200 https://movie.douban.com/subject/34462775/>
{'actors': 2,
 'director': '赵一亨',
 'title': '#活着 #살아있다',
 'url': 'https://movie.douban.com/subject/34462775/'}
2020-09-10 09:56:47 [scrapy.core.engine] DEBUG: Crawled (200) <GET https://movie.douban.com/subject/26357307/> (referer: https://movie.douban.com/chart)
2020-09-10 09:56:47 [scrapy.core.engine] DEBUG: Crawled (200) <GET https://movie.douban.com/subject/30299515/> (referer: https://movie.douban.com/chart)
2020-09-10 09:56:47 [scrapy.core.scraper] DEBUG: Scraped from <200 https://movie.douban.com/subject/26357307/>
{'actors': 27,
 'director': '妮琪·卡罗',
 'title': '花木兰 Mulan',
 'url': 'https://movie.douban.com/subject/26357307/'}
2020-09-10 09:56:47 [scrapy.core.scraper] DEBUG: Scraped from <200 https://movie.douban.com/subject/30299515/>
{'actors': 8,
 'director': '延尚昊',
 'title': '釜山行2：半岛 부산행2-반도',
 'url': 'https://movie.douban.com/subject/30299515/'}
... ...

10.2 将数据保存到数据库

首先需要在settings.py中配置Item pipeline和数据库信息。

>>># Configure item pipelines
>>># See https://doc.scrapy.org/en/latest/topics/item-pipeline.html
>>>ITEM_PIPELINES = {
>>>   'project_sample.pipelines.ProjectSamplePipeline': 300,
>>>   'project_sample.pipelines.MongoDBPipeline': 400,
>>>}
>>>MONGO_URI='localhost'
>>>MONGO_DB='project'

在pipelines.py文件中增加一个Item pipeline类:

>>>import pymongo

>>>class MongoDBPipeline(object):
>>>    def __init__(self,mongo_uri,mongo_db):
>>>        self.mongo_uri = mongo_uri
>>>        self.mongo_db = mongo_db

>>>    @classmethod
>>>    def from_crawler(cls,crawler):
>>>        # 类方法，用于获取settings中的全局的配置信息
>>>        return cls(
>>>            mongo_uri=crawler.settings.get('MONGO_URI'),
>>>            mongo_db=crawler.settings.get('MONGO_DB')
>>>        )

>>>    def open_spider(self,spider):
>>>        '''
>>>        spider开启时调用
>>>        用于初始化mongodb
>>>        '''
>>>        self.client = pymongo.MongoClient(self.mongo_uri)
>>>        self.db = self.client[self.mongo_db]

>>>    def close_spider(self,spider):
>>>        '''
>>>        spider结束时调用
>>>        用于关闭数据库链接
>>>        '''
>>>        self.client.close()

>>>    def process_item(self, item, spider):
>>>        name = item.__class__.__name__
>>>        self.db[name].insert(dict(item))
>>>        return item

运行爬虫后，在数据库中查询:

> db.ProjectSampleItem.find()
{ "_id" : ObjectId("5f59929c69d6a3f8e7263087"), "url" : "https://movie.douban.com/subject/35141706/", "title" : "东北往事：我叫刘海柱", "actors" : 10, "director" : "周润泽" }
{ "_id" : ObjectId("5f59929c69d6a3f8e7263088"), "url" : "https://movie.douban.com/subject/34462775/", "title" : "#活着 #살아있다", "actors" : 2, "director" : "赵一亨" }
{ "_id" : ObjectId("5f59929c69d6a3f8e7263089"), "url" : "https://movie.douban.com/subject/30289869/", "title" : "艾娃 Ava", "actors" : 18, "director" : "泰特·泰勒" }
{ "_id" : ObjectId("5f59929c69d6a3f8e726308a"), "url" : "https://movie.douban.com/subject/26389321/", "title" : "新变种人 The New Mutants", "actors" : 14, "director" : "约什·布恩" }
{ "_id" : ObjectId("5f59929c69d6a3f8e726308b"), "url" : "https://movie.douban.com/subject/30330875/", "title" : "超能计划 Project Power", "actors" : 27, "director" : "亨利·朱斯特" }
{ "_id" : ObjectId("5f59929c69d6a3f8e726308c"), "url" : "https://movie.douban.com/subject/30479644/", "title" : "铁雨2：首脑峰会 강철비2: 정상회담", "actors" : 27, "director" : "杨宇硕" }
{ "_id" : ObjectId("5f59929c69d6a3f8e726308d"), "url" : "https://movie.douban.com/subject/27131969/", "title" : "无名狂", "actors" : 6, "director" : "李云波" }
{ "_id" : ObjectId("5f59929c69d6a3f8e726308e"), "url" : "https://movie.douban.com/subject/30129061/", "title" : "我想结束这一切 I'm Thinking of Ending Things", "actors" : 15, "director" : "查理·考夫曼" }
{ "_id" : ObjectId("5f59929d69d6a3f8e726308f"), "url" : "https://movie.douban.com/subject/30299515/", "title" : "釜山行2：半岛 부산행2-반도", "actors" : 8, "director" : "延尚昊" }
{ "_id" : ObjectId("5f59929d69d6a3f8e7263090"), "url" : "https://movie.douban.com/subject/26357307/", "title" : "花木兰 Mulan", "actors" : 27, "director" : "妮琪·卡罗" }
{ "_id" : ObjectId("5f5995018155a8757b4937eb"), "url" : "https://movie.douban.com/subject/30479644/", "title" : "铁雨2：首脑峰会 강철비2: 정상회담", "actors" : 27, "director" : "杨宇硕" }
{ "_id" : ObjectId("5f5995018155a8757b4937ec"), "url" : "https://movie.douban.com/subject/34462775/", "title" : "#活着 #살아있다", "actors" : 2, "director" : "赵一亨" }
{ "_id" : ObjectId("5f5995018155a8757b4937ed"), "url" : "https://movie.douban.com/subject/30330875/", "title" : "超能计划 Project Power", "actors" : 27, "director" : "亨利·朱斯特" }
{ "_id" : ObjectId("5f5995018155a8757b4937ee"), "url" : "https://movie.douban.com/subject/30129061/", "title" : "我想结束这一切 I'm Thinking of Ending Things", "actors" : 15, "director" : "查理·考夫曼" }
{ "_id" : ObjectId("5f5995018155a8757b4937ef"), "url" : "https://movie.douban.com/subject/27131969/", "title" : "无名狂", "actors" : 6, "director" : "李云波" }
{ "_id" : ObjectId("5f5995018155a8757b4937f0"), "url" : "https://movie.douban.com/subject/30289869/", "title" : "艾娃 Ava", "actors" : 18, "director" : "泰特·泰勒" }
{ "_id" : ObjectId("5f5995018155a8757b4937f1"), "url" : "https://movie.douban.com/subject/35141706/", "title" : "东北往事：我叫刘海柱", "actors" : 10, "director" : "周润泽" }
{ "_id" : ObjectId("5f5995018155a8757b4937f2"), "url" : "https://movie.douban.com/subject/26389321/", "title" : "新变种人 The New Mutants", "actors" : 14, "director" : "约什·布恩" }
{ "_id" : ObjectId("5f5995018155a8757b4937f3"), "url" : "https://movie.douban.com/subject/30299515/", "title" : "釜山行2：半岛 부산행2-반도", "actors" : 8, "director" : "延尚昊" }
{ "_id" : ObjectId("5f5995018155a8757b4937f4"), "url" : "https://movie.douban.com/subject/26357307/", "title" : "花木兰 Mulan", "actors" : 27, "director" : "妮琪·卡罗" }

参考资料

https://blog.csdn.net/u010138758/article/details/80152151 J-Ombudsman
https://www.cnblogs.com/zhuluqing/p/8832205.html moisiet
https://www.runoob.com 菜鸟教程
http://www.tulingxueyuan.com/ 北京图灵学院
http://www.imooc.com/article/19184?block_id=tuijian_wz#child_5_1 两点水
https://blog.csdn.net/weixin_44213550/article/details/91346411 python老菜鸟
https://realpython.com/python-string-formatting/ Dan Bader
https://www.liaoxuefeng.com/ 廖雪峰
https://blog.csdn.net/Gnewocean/article/details/85319590 新海说
https://www.cnblogs.com/Nicholas0707/p/9021672.html Nicholas
https://www.cnblogs.com/dalaoban/p/9331113.html 超天大圣
https://blog.csdn.net/zhubao124/article/details/81662775 zhubao124
https://blog.csdn.net/z59d8m6e40/article/details/72871485 z59d8m6e40
https://www.jianshu.com/p/2b04f5eb5785 MR_ChanHwang
《Python学习手册》Mark Lutz
《Python编程从入门到实践》Eric Matthes
《Python3网络爬虫开发实战》崔庆才

本文作者：大师兄(superkmi)

大师兄的Python学习笔记(三十）: 爬虫（十一）

十一、Scrapy框架

6. 关于Selector

6.1 使用方法

7. 关于Spider

7.1 爬虫的爬取流程

7.2 scrapy.spiders.Spider类

8. 关于Downloader Middleware

8.1 核心方法

9. 关于Spider Middleware

9.1 核心方法

10. 关于Item Pipeline

10.1 使用Item Pipeline

10.2 将数据保存到数据库

参考资料

猜你喜欢

热点阅读