python生成器
基础知识
生成器是python的一个特别特的特性,在许多场合都有重要应用。比如range函数产生的就是一个生成器。其主要的好处就是降低了内存的占用。为什么呢?拿range函数来讲吧,它的目的是生成一系列的数。假如我们想生成一列数0,1,2,3,4,则(以下两个紧跟的代码块中,第一个是实际的代码,第二个是输出)
range(5)
range(0, 5)
欸?怎么回事,输出的不是0,1,2,3,4,而是一个函数。这个函数实际上便是一个生成器。我们可以采用下面的方法把它展开
list(range(5))
[0, 1, 2, 3, 4]
或者使用一个for循环
for i in range(5):
print(i)
0
1
2
3
4
生成器常常与for循环结合使用。在上述循环过程中,每循环一步,range产生一个数,直至range抛出一个结束的异常,for捕获异常后结束循环。
通过运行步骤,我们可以明白生成器节省空间的道理所在。range并没有一次性将数列都生成,而是逐渐生成。
自制生成器
为了进一步掌握生成器的编写方式,我们一起来实现range函数。当然这不一定是python内部的实现。如前文所述,range函数的作用是生成一列数。range的原本功能可以指定起始数、终止数和间隔。为了演示突出生成器的重点,我们将实现一个简化版的range,只给一个输入n,让其生成由0到n-1的数。并且,这个函数只是我们自己使用,就不做输入合法性检查了。闲言少叙,先看代码
def _range(n):
step = 0
while step < n:
yield step
step = step + 1
print(list(_range(5)))
[0, 1, 2, 3, 4]
注释讲解版函数如下
# 为了与python内置range函数进行区分,我们将其命名为_range.
# 那么如果你说我就不区分会怎么样?如果不区分的话,那么咱在这里定义的函数便会覆盖原函数。
def _range(n):
# 采用一个变量暂存步数
step = 0
# 采用一个while循环,产生数据。
# 当步数小于输入值n时,执行循环迭代
while step < n:
# 这是迭代器最关键的一步。yield表示输出。
# 每当调用一次_range,便会执行到一个yield处,产生一个数据,同时暂停函数运行,直至再次调用。
# 稍后会给出另外一个版本,加强大家在这方面的理解。
yield step
# 当再次调用时,会从这里开始,而非函数头部。步数加1,继续迭代
step = step + 1
# 调用并将产生的数据展开后输出
print(list(_range(5)))
为了进一步加强大家对生成器的理解,接下来我们将上述版本稍作修改。我们想要产生一个0,0,1,1,2,2.。。。n-1,n-1的数列。该如何是好?且看
def _range(n):
step = 0
while step < n:
yield step
yield step
step = step + 1
print(list(_range(5)))
[0, 0, 1, 1, 2, 2, 3, 3, 4, 4]
同时采用了两个yield,每当对_range函数调用一次,便从函数暂停的位置运行至下一个yield处,产生数据,随后输出。
接下来再举一个例子。我们产生一个0,0,1,0,1,2,0,1,2,3等等。这就要用到yield from这个语法了。它是生成器中的生成器。
def _range(n):
step = 0
while step < n:
# range是另外一个生成器,yield from表示函数运行到此处时,进入range函数继续执行,直至range函数执行完毕。
yield from range(step)
step = step + 1
print(list(_range(5)))
[0, 0, 1, 0, 1, 2, 0, 1, 2, 3]
如果不用yield from会怎么样?想想。答案如下:
def _range(n):
step = 0
while step < n:
# range是另外一个生成器,yield from表示函数运行到此处时,进入range函数继续执行,直至range函数执行完毕。
yield range(step)
step = step + 1
print(list(_range(5)))
for i in _range(5):
print(i)
for i in _range(5):
print(list(i))
[range(0, 0), range(0, 1), range(0, 2), range(0, 3), range(0, 4)]
range(0, 0)
range(0, 1)
range(0, 2)
range(0, 3)
range(0, 4)
[]
[0]
[0, 1]
[0, 1, 2]
[0, 1, 2, 3]
一个实际应用
不知道大家对生成器的基本原理及用法是否理解?下面我用一个更为实际的例子讲解生成器的妙用。
我在做数据处理时,单个数据文件可能非常大,直接读进内存很困难。这时候,便可采用生成器逐步读取处理。如
import os
def getFrame(filename):
pos = 0
frameSize = 100
fullSize = os.path.getsize(filename)
with open(filename, 'rb') as fid:
while pos < fullSize:
fid.seek(pos)
yield fid.read(frameSize)
pos = pos + frameSize
for frame in getFrame('SomeFilePath'):
print(frame)
对于以上代码,我不过多讲解。大家对于其中有不明白的地方,可以自行查找帮助手册或者百度。如果还有不明白的地方,可以留言。其中大家可以重点理解with用法,这是在文件读取时常用并且非常好用的一个语法。
jupyter notebook原文件位于https://gitee.com/bolang/python-lesson.git