str、unicode、bytes和编码

2020-09-25  本文已影响0人  RandyLou

在Java界也算是老司机了,基本理解Unicode、UTF8、GBK等等的概念和关系。在Python 2.7里遇到的编码问题还是让老夫虎躯一震。在Java里str存的始终都是Unicode,所以理论上只要getBytes里指定的编码能支持给到字符,就能转成对应的编码。做为一个Python新手,一开始我也是这么理解的。

于是,当str.decode('utf-8')报错时让我产生了很多疑惑。直到我发觉不应该把对等到Java的String,而是对应到特定编码的字节数组。strunicode的转换关系才算理解。

不过马上新的困惑就袭来了,到现在依然没有答案。如果str理解为编码好的字节的话,那bytes是什么,和str什么区别?

官方文档说,bytes只是str的别名,在命令行测试了下,

>>> bytes == str
True

看起来确实是一个东西,问题是如果只是别名,那为什么要提供两个类型呢? 有了解这个问题的大神欢迎留言或者站内信帮忙解释一下,以解心中疑惑。

Python3拨乱反正了,str对应的是unicode,和Java中类似,bytes是编码后的字节。解决让我混淆的bytes和str的问题。

1. 编码,又是编码

1.1 在控制台定义变量
>>> v = '中'
>>> v
'\xd6\xd0'
1.2 用decode('utf-8')报错
>>> v.decode('utf-8')
Traceback (most recent call last):
  File "<stdin>", line 1, in <module>
  File "D:\programs\Python27\lib\encodings\utf_8.py", line 16, in decode
    return codecs.utf_8_decode(input, errors, True)
UnicodeDecodeError: 'utf8' codec can't decode byte 0xd6 in position 0: invalid continuation byte

产生的原因是Python 2.7中str本身存储的是字符串对应的编码后的字节数组,采用的编码和系统的默认编码有关,以下命令我们拿到默认编码:

>>> sys.stdout.encoding
'cp936'

cp936也就是我们常见的GBK,str里存储的实际是'中'字在GBK编码下,对应的字节数组,如果我们这个时候尝试'utf-8'来转换成unicode显然是不对的。

1.3 问题的根源

正确的做法是先通过GBK解码,转成unicode,然后通过unicode字符再次编码为'utf-8',代码如下:

>>> r = v.decode('gbk').encode('utf-8')
>>> r
'\xe4\xb8\xad'
>>> print(r)
涓

可是输出问什么不是'中',而是乱码呢,实际是因为控制台本身是自带编码的,encode后的str里边存储的是字节数组,输出时会按控制台编码sys.stdout.encoding输出,然后导致的乱码。

如果此时我们使用一个'utf-8'编码的Python文件,再次输出r对应的值,可以看到他实际上就是'中'字

#!/usr/bin/env python
# -*- coding: utf-8 -*-

v = '\xe4\xb8\xad'
print(v)
image.png
上一篇下一篇

猜你喜欢

热点阅读