Python Yield 精髓

2018-02-06 本文已影响8454人宇智波鼬Zero

对 Python 中的 Yield 一直理解的不够深刻，甚至存在误解。遇到一个神奇的用法后（多个 yield 连续使用）又好好研究了下，以下记录鄙人粗糙见解。

首先简单科普一下 yield：

要理解 yield 语句，关键要理解 python 的生成器。用官网的说法1、2，生成器就是一个返回迭代器（iterator）的函数。和普通函数唯一的区别就是这个函数包含 yield 语句。
包含了 yield 的函数，就是一个生成器

我是在学爬虫 scrapy 框架时遇见多个yield 连续使用的
在最后两行代码：

# 例1
def parse(self, response):
        # 1取出符合条件的  tr列表
        tr_list = response.xpath('//tr[@class="even"] | //tr[@class="odd"]')

        # 判断数据的有无 ,没有 到底了
        if not tr_list:
            return

        # 2.遍历 每一个 tr 取出内容
        for tr in tr_list:
            item = TencentItem()
            item['work_name'] = tr.xpath('./td[1]/a/text()').extract_first()
            item['work_type'] = tr.xpath('./td[2]/text()').extract_first()
            item['work_count'] = tr.xpath('./td[3]/text()').extract_first()
            item['work_place'] = tr.xpath('./td[4]/text()').extract_first()
            item['work_time'] = tr.xpath('./td[5]/text()').extract_first()
            item['work_link'] = 'https://hr.tencent.com/' + tr.xpath('./td[1]/a/@href').extract_first()

            # 给 引擎 -->管道
            yield item

            # 告诉 引擎  请求详情页
            yield scrapy.Request(url=item['work_link'], callback=self.detail_parse)

初次看到时，对于以上代码执行机制实在难以理解！
因为在最初的理解里， yield 有两个作用：

暂停执行当前代码，并记录当前位置

相当于 return，可以在后面返回值

继续执行 yield 下面的代码需要使用 next() 或者 send()。
我就困惑了，这里两个 yield 之间没有使用 next() 或者 send() 方法呀，那么它是怎么执行的呢？
然后我自己写了一个简单的测试函数，来探究 yield 的执行机制：

# 例2
# 自定义一个生成器
def genter():
    a = 4
    b = 5
    c = 6
    for i in range(5):
        yield a
        print('hhh'+str(i))
        yield b
        print("aaa" + str(i))
        yield c

# 包含了yield 的 genter() 就是一个生成器
res = genter()
for i, c in enumerate(res):
    if i > 1:
        # 通过 break 来测试执行的结果
        break
    print(c)

而其结果是：

4
hhh0
5
aaa0

大家应该知道：

在取值时，使用 for 语句，里面封装了 next 方法。来一个个取出生成器的值，由程序运行结果可知：例2 中 genter() 实际是通过多个 yield 实现了包含多个值的生成器
颠覆认知的是：yield 并没有暂停，yield 语句后面的 print 正常打印了！！
因此与其说 yield 的作用是暂停并记录位置，不如严谨地说成：只有在只有一个yield 的情况下，才是暂停并记录位置。函数的反复调用，也是这个值（迭代器）的反复调用；而上述yield 之间的 next 方法就通过 for 循环调用了
多个 yield 的情况下，应该理解成：这个函数本身就是一个拥有多个值（迭代器）的迭代器，此时 yield 的暂停，应该暂停于下一个 yield 之前！

一般我们所见到的生成器，只有一个 yield，通过反复调用这个方法，来实现所谓的生成器。在这样的情况下，我们也习惯地以为 yield 的两个作用之一就是暂停执行当前的代码，并记录当前位置，并且有 return 的作用。

不过多个 yield 和单个 yield 的情况，为何会不一样呢？
其底层的原理应该一样才对！

对于这个，啃了下官方文档，没看太明白。可能要去学了 C 语言才能理解。现在粗浅理解：之所以包含了 yield 关键字的函数就是一个生成器，是因为 yield自身就是生成器！

那么对于例1 中的情况就很好理解了，parse 本身是一个生成器，scrapy 引擎会在调用其中值时添加next() 方法吧~
另外，除了官方文档，还可以看下这篇讲协程的文档。

由于学艺未精，如有错误，望不吝赐教，谢谢！

Python Yield 精髓

猜你喜欢

热点阅读