字符集和字符编码
乱码
乱码是怎么出现的呢?对同一组二进制数据,不同的编码会解析出不同的字符,用对了编码,解析出来的字符组成的文字是有意义的,用错了编码,解析出来的字符组成的文字是没意义的,也就是通常所说的乱码。
一句话:编码和解码时用了不同或者不兼容的字符集。
字符
是各种符号和文字的总称。包括各国家文字、标点符号、图形符号、数字等。 字符是一个信息单位,一个数字是一个字符,一个文字是一个字符,一个标点符号也是一个字符。
字节
字节是一个8bit的存储单元,0~255,根据字符编码的不同一个字符可以是单个字节也可以是多个字节。
字符集
字符的集合就是字符集。英语可以看成一个字符集,中文可以看成一个字符集,日语也可以看成一个字符集。不同集合支持的字符范围自然也不一样,譬如ASCII只支持英文,GB18030支持中文等等。在字符集中,有一个码表的存在,每一个字符在各自的字符集中对应着一个唯一的码。但是同一个字符在不同字符集中的码是不一样的,譬如字符“中”在Unicode和GB18030中就分别对应着不同的码(20013与54992)。
字符编码
由于计算机只认得电压高低,所以信息都是以0、1存在计算机里。信息通过转换成二进制比特流就可以在计算机上存储传输。 字符集和字符编码一般一一对应。字符集与字符编码都是一一对应的。但一个例外就是Unicode字符集,它有多种编码实现(UTF-8,UTF-16,UTF-32等)。
对于一个字符集来说要正确编码转码一个字符需要三个关键元素:字库表(character repertoire)、编码字符集(coded character set)、字符编码(character encoding form)。其中字库表是一个相当于所有可读或者可显示字符的数据库,字库表决定了整个字符集能够展现表示的所有字符的范围。编码字符集,即用一个编码值code point来表示一个字符在字库中的位置。字符编码,将编码字符集和实际存储数值之间的转换关系。一般来说都会直接将code point的值作为编码后的值直接存储。
ASCII
American Standard Code for Information Interchange ,即美国信息互换标准代码。使用7位二进制共可以表示128个码位0~127,可表示阿拉伯数字,大小写字母,特殊字符。一个字符用一个字节表示即可。
ASCII表汉字编码
GB2312,GBK(GuoBiao KuoZhan),GB18030,都兼容ASCII码,都用两个字节表示,高位低位。
Unicode字符集
Unicode 就是一种编码字符集,编码方式可以有多种:UTF-8,UTF-16,UTF-32等
UTF-8编码
变长的字节编码方式(有控制位)。
单字节字符:0xxx xxxx
如果一个字节的第一位为0,那么代表当前字符为单字节字符,占用一个字节的空间。0之后的所有部分(7个bit)代表在Unicode中的序号。
双字节字符:110x xxxx 10xx xxxx
如果一个字节以110开头,那么代表当前字符为双字节字符,占用2个字节的空间。110之后的所有部分(5个bit)加上后一个字节的除10外的部分(6个bit)代表在Unicode中的序号。且第二个字节以10开头
三字节字符:1110 xxxx 10xx xxxx 10xx xxxx
如果一个字节以1110开头,那么代表当前字符为三字节字符,占用3个字节的空间。110之后的所有部分(5个bit)加上后两个字节的除10外的部分(12个bit)代表在Unicode中的序号。且第二、第三个字节以10开头
多字节字符:
如果一个字节以10开头,那么代表当前字节为多字节字符的第二个字节。10之后的所有部分(6个bit)和之前的部分一同组成在Unicode中的序号。如:
4字节 11110xxx 10xxxxxx 10xxxxxx 10xxxxxx
5字节 111110xx 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx
6字节 1111110x 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx
UTF-8 最多可用到6个字节。
不同字符编码的转换
如果是相同字符集,由于相同字符集中的码都是一样的,所以只需要针对不同的编码方式转变而已。譬如UTF-16转UTF-8,首先会取到当前需要转换的字符的Unicode码,然后将当前的编码方式由双字节(有4字节的拓展就不赘述了),变为变长的1,2,3等字节
如果是不同的字符集,由于不同字符集的码是不一样的,所以需要各自的码表才能进行转换。譬如UTF-16转GBK,首先需要取到当前需要转换的字符的Unicode码,然后根据Unicode和GBK码表一一对应的关系(只有部分共同都有的字符才能在码表中查到),找到它对应的GBK码,然后用GBK的编码方式(双字节)进行编码
对比
GBK 和 UTF-8
1. 区别:字节不同
GBK 中英文统一两字节
UTF-8 英文1个字节,中文3个字节
2. 区分:可用 BOM(Byte Order Mark)标记
3. 互换:必须通过 Unicode 编码
字符集合:GB2312 < GBK < UTF-8
4. 各自的适用场合:
英文字符多时,用 UTF-8 省空间
中文多时,用 GBK 省空间
GBK 是中国的,在国家标准 GB2312 基础上扩充的,通用性差
UTF-8 世界的,国际编码,通用性好
UTF-32 和 UTF-8
Unicode 只规定了每个字符的码点,如何表示则就涉及到了编码方法。
UTF-32:一个码点用4个字节表示,完全对应 Unicode 编码(前面加两字节的0喽)
优点:查找效率高
缺点:浪费空间,比相同的 ASCII 编码文件大四倍。
UTF-8: 是一种变长的编码方法,字符长度从1个字节-4个字节不等。
越常用的字符,字节越短;
最前面的128个字符,只用1个字节表示,和ASCII码完全相同。