网络爬虫：多任务-协程

2018-12-30 本文已影响0人牛耀

迭代器

迭代是访问集合元素的一种方式。迭代器是一个可以记住遍历的位置的对象。迭代器对象从集合的第一个元素开始访问，直到所有的元素被访问完结束。迭代器只能往前不会后退

可迭代对象我们已经知道可以对list、tuple、str等类型的数据使用for...in...的循环语法从其中依次拿到数据进行使用，我们把这样的过程称为遍历，也叫迭代。
如何判断一个对象是否可以迭代

from collections import Iterable

print(isinstance([],Iterable)) --> True

print(isinstance(1,Iterable)) -->False

可迭代对象进行迭代使用的过程，每迭代一次（即在for...in...中每循环一次）都会返回对象中的下一条数据，一直向后读取数据直到迭代了所有数据后结束。

可迭代对象通过_iter方法向我们提供一个迭代器，我们在迭代一个可迭代对象的时候，实际上就是先获取该对象提供的一个迭代器，然后通过这个迭代器来依次获取对象中的每一个数据。一个具备了 _iter 方法的对象，就是一个可迭代对象

iter()函数与next()函数

list、tuple等都是可迭代对象，我们可以通过iter()函数获取这些可迭代对象的迭代器。然后我们可以对获取到的迭代器不断使用next()函数来获取下一条数据。iter()函数实际上就是调用了可迭代对象的_iter_方法。

如何判断一个对象是否是迭代器

from collections import Iterator

print(isinstance([1,2], Iterator)) -->False

print(isinstance(iter([1,2]), Iterator)) -->True

迭代器是用来帮助我们记录每次迭代访问到的位置，当我们对迭代器使用next()函数的时候，迭代器会向我们返回它所记录位置的下一个位置的数据。实际上，在使用next()函数的时候，调用的就是迭代器对象的next方法。所以，我们要想构造一个迭代器，就要实现它的next方法。并且python要求迭代器本身也是可迭代的，所以我们还要为迭代器实现iter方法，迭代器的iter方法返回自身即可。

一个实现了_iter_方法和next方法的对象，就是迭代器。

生成器

利用迭代器，我们可以在每次迭代获取数据（通过next()方法）时按照特定的规律进行生成。但是我们在实现一个迭代器时，关于当前迭代到的状态需要我们自己记录，进而才能根据当前状态生成下一个数据。为了达到记录当前状态，并配合next()函数进行迭代使用，我们可以采用更简便的语法，即生成器(generator)。生成器是一类特殊的迭代器。

在使用生成器实现的方式中，我们将原本在迭代器_next_方法中实现的基本逻辑放到一个函数中来实现，但是将每次迭代返回数值的return换成了yield，此时新定义的函数便不再是函数，而是一个生成器了。

使用了yield关键字的函数不再是函数，而是生成器。（使用了yield的函数就是生成器）
yield关键字有两点作用：
    保存当前运行状态（断点），然后暂停执行，即将生成器（函数）挂起
    将yield关键字后面表达式的值作为返回值返回，此时可以理解为起到了return的作用
可以使用next()函数让生成器从断点处继续执行.

协程

协程，又称微线程，纤程
协程是python个中另外一种实现多任务的方式，只不过比线程更小占用更小执行单元（理解为需要的资源）。它自带CPU寄存器上下文。这样只要在合适的时机，我们可以把一个协程切换到另一个协程。只要这个过程中保存或恢复 CPU上下文那么程序还是可以运行的。

协程和线程差异

在实现多任务时, 线程切换从系统层面远不止保存和恢复 CPU上下文这么简单。操作系统为了程序运行的高效性每个线程都有自己缓存Cache等等数据，操作系统还会帮你做这些数据的恢复操作。所以线程的切换非常耗性能。但是协程的切换只是单纯的操作CPU的上下文，所以一秒钟切换个上百万次系统都抗的住。

yeild简单实现

import time

def work1():
    while True:
        print("----work1---")
        yield
        time.sleep(0.5)

def work2():
    while True:
        print("----work2---")
        yield
        time.sleep(0.5)

def main():
    w1 = work1()
    w2 = work2()
    while True:
        next(w1)
        next(w2)

if __name__ == "__main__":
    main()
实质： 其实任务是在主线程中并发执行的，看上去像同时执行而已，当执行next()的时候，函数执行到yield的时候先暂停一下，然后之后再调用next()的时候，接着上一次暂停的位置执行

实现协程

.greenlet的使用

from greenlet import greenlet
import requests

def download1():
    print('正在下载１')
    #耗时的操作
    response = requests.get(url='https://github.com/')
    gre2.switch()
    print('download1下载完了')
    gre2.switch()


def download2():
    print('正在下载２')
    response = requests.get(url='https://github.com/')
    gre1.switch()
    print('download2下载完了')


gre1 = greenlet(download1)
gre2 = greenlet(download2)
gre1.switch()

greenlet已经实现了协程，但是这个还的人工切换，python还有一个比greenlet更强大的并且能够自动切换任务的模块gevent

#gevent能够在内部自己实现携程之间的切换

from gevent import monkey,pool
import gevent,requests
import lxml.etree as etree

# 有耗时操作时需要
monkey.patch_all()  # 将程序中用到的耗时操作的代码，换为gevent中自己实现的模块


def download(url):
    print(url+'正在下载1')
    header = {'User-Agent':'Mozilla/5.0 (X11; Ubuntu; Linux x86_64; rv:61.0) Gecko/20100101 Firefox/61.0'}
    response = requests.get(url,headers=header)
    print(len(response.text),url+'已完成１')

def download2(url):
    print(url+'正在下载2')
    header = {'User-Agent':'Mozilla/5.0 (X11; Ubuntu; Linux x86_64; rv:61.0) Gecko/20100101 Firefox/61.0'}
    response = requests.get(url,headers=header)
    print(len(response.text),url+'已完成2')

pool = pool.Pool(2)

gevent.joinall(
    [
        pool.spawn(download,'https://www.yahoo.com/'),
        pool.spawn(download,'https://www.taobao.com/'),
        pool.spawn(download,'https://github.com/'), 
        pool.spawn(download2,'https://www.yahoo.com/'),
        pool.spawn(download2,'https://www.taobao.com/'),
        pool.spawn(download2,'https://github.com/'), 
    ]
)

网络爬虫：多任务-协程

迭代器

生成器

协程

协程和线程差异

实现协程

猜你喜欢

热点阅读