str、unicode、bytes和编码

2020-09-25 本文已影响0人 RandyLou

在Java界也算是老司机了，基本理解Unicode、UTF8、GBK等等的概念和关系。在Python 2.7里遇到的编码问题还是让老夫虎躯一震。在Java里str存的始终都是Unicode，所以理论上只要getBytes里指定的编码能支持给到字符，就能转成对应的编码。做为一个Python新手，一开始我也是这么理解的。

于是，当str.decode('utf-8')报错时让我产生了很多疑惑。直到我发觉不应该把对等到Java的String，而是对应到特定编码的字节数组。str和unicode的转换关系才算理解。

不过马上新的困惑就袭来了，到现在依然没有答案。如果str理解为编码好的字节的话，那bytes是什么，和str什么区别？

官方文档说，bytes只是str的别名，在命令行测试了下，

>>> bytes == str
True

看起来确实是一个东西，问题是如果只是别名，那为什么要提供两个类型呢？有了解这个问题的大神欢迎留言或者站内信帮忙解释一下，以解心中疑惑。

Python3拨乱反正了，str对应的是unicode，和Java中类似，bytes是编码后的字节。解决让我混淆的bytes和str的问题。

1. 编码，又是编码

1.1 在控制台定义变量

>>> v = '中'
>>> v
'\xd6\xd0'

1.2 用decode('utf-8')报错

>>> v.decode('utf-8')
Traceback (most recent call last):
  File "<stdin>", line 1, in <module>
  File "D:\programs\Python27\lib\encodings\utf_8.py", line 16, in decode
    return codecs.utf_8_decode(input, errors, True)
UnicodeDecodeError: 'utf8' codec can't decode byte 0xd6 in position 0: invalid continuation byte

产生的原因是Python 2.7中str本身存储的是字符串对应的编码后的字节数组，采用的编码和系统的默认编码有关，以下命令我们拿到默认编码:

>>> sys.stdout.encoding
'cp936'

cp936也就是我们常见的GBK，str里存储的实际是'中'字在GBK编码下，对应的字节数组，如果我们这个时候尝试'utf-8'来转换成unicode显然是不对的。

1.3 问题的根源

正确的做法是先通过GBK解码，转成unicode，然后通过unicode字符再次编码为'utf-8'，代码如下:

>>> r = v.decode('gbk').encode('utf-8')
>>> r
'\xe4\xb8\xad'
>>> print(r)
涓

可是输出问什么不是'中'，而是乱码呢，实际是因为控制台本身是自带编码的，encode后的str里边存储的是字节数组，输出时会按控制台编码sys.stdout.encoding输出，然后导致的乱码。

如果此时我们使用一个'utf-8'编码的Python文件，再次输出r对应的值，可以看到他实际上就是'中'字

#!/usr/bin/env python
# -*- coding: utf-8 -*-

v = '\xe4\xb8\xad'
print(v)

image.png

str、unicode、bytes和编码

1. 编码，又是编码

1.1 在控制台定义变量

1.2 用decode('utf-8')报错

1.3 问题的根源

猜你喜欢

热点阅读