Python

Python Yield 精髓

2018-02-06  本文已影响8454人  宇智波鼬Zero

对 Python 中的 Yield 一直理解的不够深刻,甚至存在误解。遇到一个神奇的用法后(多个 yield 连续使用)又好好研究了下,以下记录鄙人粗糙见解。

首先简单科普一下 yield:

要理解 yield 语句,关键要理解 python 的生成器。 用官网的说法12, 生成器就是一个返回迭代器(iterator)的函数。 和普通函数唯一的区别就是这个函数包含 yield 语句。
包含了 yield 的函数,就是一个生成器

我是在学爬虫 scrapy 框架时遇见多个yield 连续使用
在最后两行代码:

# 例1
def parse(self, response):
        # 1取出符合条件的  tr列表
        tr_list = response.xpath('//tr[@class="even"] | //tr[@class="odd"]')

        # 判断数据的有无 ,没有 到底了
        if not tr_list:
            return

        # 2.遍历 每一个 tr 取出内容
        for tr in tr_list:
            item = TencentItem()
            item['work_name'] = tr.xpath('./td[1]/a/text()').extract_first()
            item['work_type'] = tr.xpath('./td[2]/text()').extract_first()
            item['work_count'] = tr.xpath('./td[3]/text()').extract_first()
            item['work_place'] = tr.xpath('./td[4]/text()').extract_first()
            item['work_time'] = tr.xpath('./td[5]/text()').extract_first()
            item['work_link'] = 'https://hr.tencent.com/' + tr.xpath('./td[1]/a/@href').extract_first()

            # 给 引擎 -->管道
            yield item

            # 告诉 引擎  请求详情页
            yield scrapy.Request(url=item['work_link'], callback=self.detail_parse)

初次看到时,对于以上代码执行机制实在难以理解!
因为在最初的理解里, yield 有两个作用:

  • 暂停执行当前代码,并记录当前位置
  • 相当于 return, 可以在后面返回值

继续执行 yield 下面的代码需要使用 next() 或者 send()
我就困惑了, 这里两个 yield 之间没有使用 next() 或者 send() 方法呀,那么它是怎么执行的呢?
然后我自己写了一个简单的测试函数,来探究 yield 的执行机制:

# 例2
# 自定义一个生成器
def genter():
    a = 4
    b = 5
    c = 6
    for i in range(5):
        yield a
        print('hhh'+str(i))
        yield b
        print("aaa" + str(i))
        yield c

# 包含了yield 的 genter() 就是一个生成器
res = genter()
for i, c in enumerate(res):
    if i > 1:
        # 通过 break 来测试执行的结果
        break
    print(c)

而其结果是:

4
hhh0
5
aaa0

大家应该知道:

在取值时,使用 for 语句,里面封装了 next 方法。来一个个取出生成器的值,由程序运行结果可知:例2 中 genter() 实际是通过 多个 yield 实现了包含多个值的生成器
颠覆认知的是:yield 并没有暂停,yield 语句后面的 print 正常打印了!!
因此与其说 yield 的作用是暂停并记录位置, 不如严谨地说成:只有在只有一个yield 的情况下, 才是暂停并记录位置。函数的反复调用,也是这个值(迭代器)的反复调用;而上述yield 之间的 next 方法就通过 for 循环调用了
多个 yield 的情况下,应该理解成:这个函数本身就是一个拥有多个值(迭代器)的迭代器,此时 yield 的暂停, 应该暂停于下一个 yield 之前!

一般我们所见到的生成器,只有一个 yield,通过反复调用这个方法,来实现所谓的生成器。在这样的情况下,我们也习惯地以为 yield 的两个作用之一就是暂停执行当前的代码, 并记录当前位置,并且有 return 的作用。

不过多个 yield 和单个 yield 的情况,为何会不一样呢?
其底层的原理应该一样才对!

对于这个,啃了下官方文档,没看太明白。可能要去学了 C 语言才能理解。现在粗浅理解:之所以包含了 yield 关键字的函数就是一个生成器, 是因为 yield自身就是生成器

那么对于例1 中的情况就很好理解了,parse 本身是一个生成器,scrapy 引擎会在调用其中值时添加next() 方法吧~
另外,除了官方文档, 还可以看下这篇讲协程的文档。

由于学艺未精,如有错误,望不吝赐教,谢谢!

上一篇 下一篇

猜你喜欢

热点阅读