Python:数据操作
切片
切片就是用于截取集合,字符串的工具。下面是如何使用:
Ls = list(range(100))
# 取前面2个元素,如果是0 可以省略不写
print(Ls[:2])
# 取倒数第一个到倒数第三个元素
print(Ls[-3:])
# 前10个数,每两个取一个
print(Ls[:10:2])
# 所有数,每5个取一个
print(Ls[::5])
# 只写[:]就可以原样复制一个list
print(Ls[:])
Tp = (0, 1, 2, 3, 4, 5, 6, 7)
# 使用切片后获取的还是一个tuple
tp_ = Tp[:3]
print(tp_)
str = "ABCDEFG"
# 切片也可以截取字符串,截取之后仍然是字符串
print(str[:3])
迭代
我们都知道,可以使用 for in这个循环来遍历集合,字典,字符串等等,这种遍历就叫做迭代,那么如何判断一个对象是否可以被迭代?可以写如下代码,使用Iterable来判断:
from collections import Iterable
s = "123456"
if isinstance(s,Iterable):
for ch in s:
print(ch)
那么如果要对list实现类似Java那样的下标循环怎么办?Python内置的enumerate函数可以把一个list变成索引-元素对,这样就可以在for循环中同时迭代索引和元素本身:
l = list(range(20))
for i,value in enumerate(l):
print(i,", ",value)
那么问问,以下程序执行结果是什么?
for x, y in [(3, 1), (2, 4), (3, 9)]:
print(x, y)
for x, y, z in [(3, 1, 3), (2, 4, 3), (3, 9, 3)]:
print(x, y, z)
# 比如dict的items()可以同时迭代key和value
for k, v in d.items():
print(k, '=', v)
for循环其实可以同时使用两个甚至多个变量
列表生成式
列表生成式就是简化生成指定格式列表的一种表达式,举个例子,我们要生成1到n之间数的nn的列表,这个时候,通常需要定义一个1到n的集合,然后在循环这个集合,计算nn的再装入一个集合。这样比较麻烦,而列表生成式把要生成的元素x * x放到前面,后面跟for循环,就可以把list创建出来:
# 计算1-10之间元素的平方
print([a * a for a in list(range(1, 10))])
# 加入if判断,筛选出偶数的平方
print([a * a for a in list(range(1, 10)) if a % 2 == 0])
# 使用两层循环,可以生成全排列,当然 也可以两层以上的循环
print([m + n for m in 'ABC' for n in 'XYZ'])
# 也可以使用两个变量来生成list:
d = {'x': 'A', 'y': 'B', 'z': 'C' }
print([k + '=' + v for k, v in d.items()])
生成器
上面的列表生成式我们是生成了10的集合列表,加入我们需要生成一个1000万的集合?但是一般我们只需要访问其中前面几个元素,后面的只是在特殊情况下面才用到,这个时候就有两个问题了,第一:需要大量的内存,第二:浪费大量内存。我们希望生成的这个集合只是在需要的时候产出元素,所以,如果列表元素可以按照某种算法推算出来,那我们是否可以在循环的过程中不断推算出后续的元素,这样就不会出现上面两个问题了。那么在Python中,这种一边循环一边计算的机制,称为生成器:generator。
- 第一种创建generator的方式:只要把一个列表生成式的[]改成(),就创建了一个generator
# 创建一个generator
l = (x * x for x in list(range(10)))
print(l)
# 通过next()函数获得generator的下一个返回值,generator保存的是算法,每次调用next(g),
# 就计算出g的下一个元素的值,直到计算到最后一个元素,没有更多的元素时,抛出StopIteration的错误。
# 这里,generator也是可迭代对象,我们创建了一个generator后,基本上永远不会调用next(),而是通过for
# 循环来迭代它,并且不需要关心StopIteration的错误
for n in l:
print(n)
- 第二种创建generator方式:如果一个函数定义中包含yield关键字,那么这个函数就不再是一个普通函数,而是一个generator
# 实现一个斐波拉契数列,fib函数实际上是定义了斐波拉契数列的推算规则,可以从第一个元素开始,
# 推算出后续任意的元素,这种逻辑其实非常类似generator
def fib(max):
n, a, b = 0, 0, 1
while n < max:
# 加上下面代码,这个就不是函数而是一个generator,在执行过程中,遇到yield就中断,下次又继续执行。
yield b
# t = (b, a + b) # t是一个tuple
# a = t[0]
# b = t[1]
a, b = b, a + b
n = n + 1
return 0
# 直接获取数列,为了不报StopIteration错误,一般都用for来遍历,不会用next函数
for x in fib(6):
print(x)
# 如果需要拿到fib生成的return值,可以这么写:
f = fib(6)
while True:
try:
print(next(f))
except StopIteration as e: # 捕捉这个异常就可以获取了
print(e.value)
break
Iterable与Iterator区别
-
Iterable:凡是可作用于for循环的对象都是Iterable类型,如list、tuple、dict、set、str等,可以使用isinstance()判断一个对象是否是Iterable对象
-
Iterator: 凡是可作用于next()函数的对象都是Iterator类型,它们表示一个惰性计算的序列,生成器都是Iterator对象,但list、dict、str虽然是Iterable,却不是Iterator。因为Python的Iterator对象表示的是一个数据流,Iterator对象可以被next()函数调用并不断返回下一个数据,直到没有数据时抛出StopIteration错误。可以把这个数据流看做是一个有序序列,但我们却不能提前知道序列的长度,只能不断通过next()函数实现按需计算下一个数据,所以Iterator的计算是惰性的,只有在需要返回下一个数据时它才会计算。Iterator甚至可以表示一个无限大的数据流,例如全体自然数。而使用list是永远不可能存储全体自然数的。
把list、dict、str等Iterable变成Iterator可以使用iter()函数:
print( isinstance(iter('abc'), Iterator))