About encoding

2016-11-10  本文已影响0人  KIDJourney

About Coding

简述

所有编码都是二进制到真实字符的映射

无论是是ASCII,ISO,GBK,还是unicode

只不过上面这些编码规则中,每一种二进制对应的字符不相同。

UTF-8

UTF-8(Unocde Transformation Format)是一种传输格式,是一种unicode的实现方式。

UTF-8是变长的

UTF-8用前置的1来表示需要的字节数

Encoding in Python

下面这些内容可能有误

Python2

str类型是二进制根据一定编码规则(GBK,UTF等等),encode之后的结果,个人理解为显示的结果,也就是对应的可见的字符。同一段二进制可以被不同的编码规则encode成不同的字符。

在unicode中对应的二进制为0x6d4b

utf-8的传输格式下,编码为\xe6\xb5\x8b
GBK的传输格式下,编码为\xb2\xe2

在保存一个文件时,可以选择以不同的编码方式进行保存。同一个字,在用'utf-8'进行保存时,文件内容为\xe6\xb5\x8b,用GBK进行保存时,文件内容为\xb2\xe2

上一篇 下一篇

猜你喜欢

热点阅读