字符集和字符编码以及编码转换
文档是用的幕布编辑的,不是标准markdown,因此只有层次结构,懒得转换了,见谅~
by the way,推荐一下:幕布,极其适合速记、思维导图、读书笔记、会议记录、工作内容梳理等。链接:https://mubu.com
-
字符、字符集和二进制
-
计算机只能识别二进制数据,就是01串,每个数字是一个二进制位
-
字符是便于人理解和识别的符号,比如一个字母,一个逗号,一个数字
-
字符编码就是指,一个字符应该由几个二进制位表示,比如在ASCII字符集里,大写字母A就是用01000001表示,也就是十进制的32
-
字符集是在一套编码规则下的字符集合,包含两个部分
- 规定一个字符由几个二进制位组成,一般是按照字节为单位
比如上文的大写字母A,在ASCII中规定,一个字符由一个字节(也就是8个二进制位)表示,这是编码规则
- 指定映射关系,每个字符的对应的字节内容是什么
比如上文的大写字符A,在ASCII中规定,一个字符由一个字节表示,且01000001映射了字符A,所以根据这套编码和映射规则,大致可以理解为,当计算机读到了01000001时,就把它翻译成A
-
由于字符集必须以某种编码规则进行映射,所以通常字符编码和字符集形成对应关系
-
-
常用字符编码标准/字符集
-
ASCII
- 描述:英文字符编码,因此其形成的字符集是英文字符集
- 编码规则:每个字符由一个字节表示
- 映射关系:ASCII编码表,一共128个字符编码。后续ISO又陆续制定了适应别的国家和的确的字符编码表
-
ANSI
一些字符编码标准的统称,比如GB2312、BIG5、JIS等,这些都是适用于特定国家和地区的编码标准及相应的字符集,这些都是ANSI标准
- ANSI字符集空间比ASCII要大很多,通常一个字符需要多个字节来表示
- ANSI编码一般会兼容ASCII标准
- 每种ANSI编码标准值规定自己国家的字符编码规则和映射关系
-
Unicode/UCS和UTF
由于 ANSI 码的第一个特点:各个国家或地区在编制自己的 ANSI 码时并未考虑到其他国家或地区的 ANSI 码,导致编码空间有重叠,比如:汉字'中'的编码是[0xD6,0xD0],这个编码在其他国家的 ANSI 编码标准中则不一定就是该编码了。于是,同一个二进制数字可以被解释成不同的符号。因此,要想打开一个文本文件,就必须知道它的编码方式,否则用错误的编码方式解读,就会出现乱码。这样一来当在不同ANSI编码标准之间进行信息交换和显示的时候,乱码就不可避免了。
-
Unicode是通用字符编码集,它为美中与原中的每个字符设定了统一并且唯一的二进制编码,以满足跨语言、跨平台进行文本转换、处理的要求。
-
UCS是也是通用字符集,是ISO和Unicode协会统一了两家的标准之后的产物,是所有其他字符集标准的一个超集,也可以理解为Unicode和UCS互相兼容--因为世界上不需要两套统一的字符集。
-
UTF是Unicode的实现方式,称为Unicode转换格式,常见的友UTF-16/UTF-32/UTF-8等。
Unicode/UCS只是一个字符集,他只规定了符号的二进制代码,却没有规定这个二进制代码如何存储。比如汉字“严”的Unicode码是4E25,转成二进制数足足有15位(100111000100101),也就是说这个符号的表示至少需要2个字节。对于其他的更大的符号,可能需要3个字节或者4个字节,甚至更多。
- UTF-8是最广泛使用的UTF方案,使用可变长度字节来存储Unicode字符。
比如ASCII字母继续使用1字节存储,重音文字、希腊字母或者西里尔字母等使用2个字节来存储,而常用的汉子就需要使用3个字节来存储,辅助平面字符使用4个字节等。
-
-
UTF-8
这里将UTF-8单独拎出来讲一下,因为他实在是太广泛了,而且越来也越成为约定俗成的编码方式
-
UTF-8是Unicode的一种实现方式,因为Unicode已经规定好了字符的映射关系,也就是说已经规定好了字符表,因此UTF-8主要是解决了如何存储的问题。
-
UTF-8以8位单元对Unicode进行编码,附件中图片为转换规则
image例如汉子的“汉”字,Unicode的编码是6C49,6C49在0800-FFFF之间,因此使用3个字节模板来存储。将6C49写成二进制是0100110001001001,用这个比特流一次代替模板中的x,得到11100110 10110001 10001001,即E6 B1 89
-
那么当软件打开一个文件的时候如何识别文本的字符集和编码呢——检测文件头标识或者提示用户选择或者根据一定的规则猜测
-
-
-
字符编码转换-java
这里总结一下java里无处不见却又很难弄清楚的字符编码转换——头疼的乱码问题
-
首先我们要明白,在java的世界里,所有字符的存储都是Unicode(UTF-16),因此所有的数据到java里,都会被以这种方式编码
- 例如读入GBK的编码文件,那么java将读入文件的字节流,并且根据GBK编码规则正确识别每个字符,然后转换成Unicode码存储在内存中。
-
读取文件原则:如果知道文件的编码格式,在读取的时候,手动指定编码格式,否则会读到乱码
-
输出文件原则:输出文件的时候,指定编码格式,将以指定的格式进行编码输出
-
编码转换:new String(src.getBytes(target_Encode),targetEncode),getBytes(target_Encode)的含义是按照指定的编码格式获取字节数组,并且按照指定格式编码成字符串
- 例如GBK编码格式的文件fileA,其内容是“汉子”,那么读取的时候,我们应当指定编码格式为GBK,然后才能读到正确的数据。这时候如果我们需要将其编码格式更改为UTF-8,我们可以直接使用new String(line.getBytes("UTF-8"),"UTF-8")来进行,line是正确读取的内容,其结果是编码好的UTF-8格式的数据。如果我们要输出,那么只要在读取和输出的时候,分别制定相应的编码格式即可。
-
by the way,网上随处可见的new String(src.getBytes(srcEncode),targetEncode)是错误的,在tomcat中可以正确做到,那只是个巧合。可以参见getBytes的API说明:以指定的编码格式获取字节数组,你获取了encodeA的字节,然后以encodeB编码方式来编码,肯定得不到正确的结果
-