字符集和字符编码

2017-10-30  本文已影响11人  __Jasmine__

乱码

乱码是怎么出现的呢?对同一组二进制数据,不同的编码会解析出不同的字符,用对了编码,解析出来的字符组成的文字是有意义的,用错了编码,解析出来的字符组成的文字是没意义的,也就是通常所说的乱码。

一句话:编码和解码时用了不同或者不兼容的字符集。

字符

是各种符号和文字的总称。包括各国家文字、标点符号、图形符号、数字等。 字符是一个信息单位,一个数字是一个字符,一个文字是一个字符,一个标点符号也是一个字符。

字节

字节是一个8bit的存储单元,0~255,根据字符编码的不同一个字符可以是单个字节也可以是多个字节。

字符集

字符的集合就是字符集。英语可以看成一个字符集,中文可以看成一个字符集,日语也可以看成一个字符集。不同集合支持的字符范围自然也不一样,譬如ASCII只支持英文,GB18030支持中文等等。在字符集中,有一个码表的存在,每一个字符在各自的字符集中对应着一个唯一的码。但是同一个字符在不同字符集中的码是不一样的,譬如字符“中”在Unicode和GB18030中就分别对应着不同的码(20013与54992)。

字符编码

由于计算机只认得电压高低,所以信息都是以0、1存在计算机里。信息通过转换成二进制比特流就可以在计算机上存储传输。 字符集和字符编码一般一一对应。字符集与字符编码都是一一对应的。但一个例外就是Unicode字符集,它有多种编码实现(UTF-8,UTF-16,UTF-32等)。

对于一个字符集来说要正确编码转码一个字符需要三个关键元素:字库表(character repertoire)、编码字符集(coded character set)、字符编码(character encoding form)。其中字库表是一个相当于所有可读或者可显示字符的数据库,字库表决定了整个字符集能够展现表示的所有字符的范围。编码字符集,即用一个编码值code point来表示一个字符在字库中的位置。字符编码,将编码字符集和实际存储数值之间的转换关系。一般来说都会直接将code point的值作为编码后的值直接存储。

ASCII

American Standard Code for Information Interchange ,即美国信息互换标准代码。使用7位二进制共可以表示128个码位0~127,可表示阿拉伯数字,大小写字母,特殊字符。一个字符用一个字节表示即可。

ASCII表

汉字编码

GB2312,GBK(GuoBiao KuoZhan),GB18030,都兼容ASCII码,都用两个字节表示,高位低位。

Unicode字符集

Unicode 就是一种编码字符集,编码方式可以有多种:UTF-8,UTF-16,UTF-32等

UTF-8编码

变长的字节编码方式(有控制位)。

单字节字符:0xxx xxxx

如果一个字节的第一位为0,那么代表当前字符为单字节字符,占用一个字节的空间。0之后的所有部分(7个bit)代表在Unicode中的序号。

双字节字符:110x xxxx            10xx xxxx

如果一个字节以110开头,那么代表当前字符为双字节字符,占用2个字节的空间。110之后的所有部分(5个bit)加上后一个字节的除10外的部分(6个bit)代表在Unicode中的序号。且第二个字节以10开头

三字节字符:1110 xxxx    10xx xxxx       10xx xxxx

如果一个字节以1110开头,那么代表当前字符为三字节字符,占用3个字节的空间。110之后的所有部分(5个bit)加上后两个字节的除10外的部分(12个bit)代表在Unicode中的序号。且第二、第三个字节以10开头

多字节字符:

如果一个字节以10开头,那么代表当前字节为多字节字符的第二个字节。10之后的所有部分(6个bit)和之前的部分一同组成在Unicode中的序号。如:

4字节 11110xxx 10xxxxxx 10xxxxxx 10xxxxxx

5字节 111110xx 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx

6字节 1111110x 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx

UTF-8 最多可用到6个字节。

不同字符编码的转换

如果是相同字符集,由于相同字符集中的码都是一样的,所以只需要针对不同的编码方式转变而已。譬如UTF-16转UTF-8,首先会取到当前需要转换的字符的Unicode码,然后将当前的编码方式由双字节(有4字节的拓展就不赘述了),变为变长的1,2,3等字节

如果是不同的字符集,由于不同字符集的码是不一样的,所以需要各自的码表才能进行转换。譬如UTF-16转GBK,首先需要取到当前需要转换的字符的Unicode码,然后根据Unicode和GBK码表一一对应的关系(只有部分共同都有的字符才能在码表中查到),找到它对应的GBK码,然后用GBK的编码方式(双字节)进行编码

对比

GBK 和 UTF-8

1. 区别:字节不同

              GBK 中英文统一两字节

              UTF-8 英文1个字节,中文3个字节

2. 区分:可用 BOM(Byte Order Mark)标记

3. 互换:必须通过 Unicode 编码

字符集合:GB2312 < GBK < UTF-8

4. 各自的适用场合:

    英文字符多时,用 UTF-8 省空间

    中文多时,用 GBK 省空间

    GBK 是中国的,在国家标准 GB2312 基础上扩充的,通用性差

    UTF-8 世界的,国际编码,通用性好

UTF-32 和 UTF-8

Unicode 只规定了每个字符的码点,如何表示则就涉及到了编码方法。

UTF-32:一个码点用4个字节表示,完全对应 Unicode 编码(前面加两字节的0喽)

             优点:查找效率高

            缺点:浪费空间,比相同的 ASCII 编码文件大四倍。

UTF-8: 是一种变长的编码方法,字符长度从1个字节-4个字节不等。

               越常用的字符,字节越短;

               最前面的128个字符,只用1个字节表示,和ASCII码完全相同。

上一篇下一篇

猜你喜欢

热点阅读