str、unicode、bytes和编码
在Java界也算是老司机了,基本理解Unicode、UTF8、GBK等等的概念和关系。在Python 2.7里遇到的编码问题还是让老夫虎躯一震。在Java里str存的始终都是Unicode,所以理论上只要getBytes里指定的编码能支持给到字符,就能转成对应的编码。做为一个Python新手,一开始我也是这么理解的。
于是,当str.decode('utf-8')报错时让我产生了很多疑惑。直到我发觉不应该把对等到Java的String,而是对应到特定编码的字节数组。str
和unicode
的转换关系才算理解。
不过马上新的困惑就袭来了,到现在依然没有答案。如果str
理解为编码好的字节的话,那bytes
是什么,和str
什么区别?
官方文档说,bytes
只是str
的别名,在命令行测试了下,
>>> bytes == str
True
看起来确实是一个东西,问题是如果只是别名,那为什么要提供两个类型呢? 有了解这个问题的大神欢迎留言或者站内信帮忙解释一下,以解心中疑惑。
Python3拨乱反正了,str对应的是unicode,和Java中类似,bytes是编码后的字节。解决让我混淆的bytes和str的问题。
1. 编码,又是编码
1.1 在控制台定义变量
>>> v = '中'
>>> v
'\xd6\xd0'
1.2 用decode('utf-8')报错
>>> v.decode('utf-8')
Traceback (most recent call last):
File "<stdin>", line 1, in <module>
File "D:\programs\Python27\lib\encodings\utf_8.py", line 16, in decode
return codecs.utf_8_decode(input, errors, True)
UnicodeDecodeError: 'utf8' codec can't decode byte 0xd6 in position 0: invalid continuation byte
产生的原因是Python 2.7中str本身存储的是字符串对应的编码后的字节数组,采用的编码和系统的默认编码有关,以下命令我们拿到默认编码:
>>> sys.stdout.encoding
'cp936'
cp936也就是我们常见的GBK,str里存储的实际是'中'字在GBK编码下,对应的字节数组,如果我们这个时候尝试'utf-8'来转换成unicode显然是不对的。
1.3 问题的根源
正确的做法是先通过GBK解码,转成unicode,然后通过unicode字符再次编码为'utf-8',代码如下:
>>> r = v.decode('gbk').encode('utf-8')
>>> r
'\xe4\xb8\xad'
>>> print(r)
涓
可是输出问什么不是'中',而是乱码呢,实际是因为控制台本身是自带编码的,encode后的str里边存储的是字节数组,输出时会按控制台编码sys.stdout.encoding输出,然后导致的乱码。
如果此时我们使用一个'utf-8'编码的Python文件,再次输出r
对应的值,可以看到他实际上就是'中'字
#!/usr/bin/env python
# -*- coding: utf-8 -*-
v = '\xe4\xb8\xad'
print(v)
image.png