字符串编码

2017-03-30 本文已影响0人 allanYan

最近做部分老接口的升级工作，这些老接口是采用php开发的，调用端读取文件发送到服务端；

新的服务端采用Java开发，在联调过程中发现，文件上传之后被损坏了，检查发现上传前后的文件大小发生了变化；通过调试发现，客户端上传的Content-Type为application/x-www-form-urlencoded，这意味着Web容器会将上传的文件二进制转换成字符串，而我们默认的编码为UTF-8;这意味着文件在编码转换过程中出现了问题，尝试将容器的编码改为ISO-8859-1，发现OK了；之前在工作中也遇到很多编码问题，但并未深入探讨，准备借这个机会详细了解下；

计算机是基于二进制0和1的，为了便于人类交流，产生了各种字符编码，将二进制转换为字符，可以简单的理解为一种映射关系，常见字符编码有以下几种：

US-ASCII：
可以表示128个字符，对应的二进制为0～127；
ISO-8859-1:
也叫做Latin1，单字节编码，编码范围是0x00-0xFF，0x00-0x7F之间完全和ASCII一致，0x80-0x9F之间是控制字符，0xA0-0xFF之间是文字符号;

因为ISO-8859-1编码范围使用了单字节内的所有空间，在支持ISO-8859-1的系统中传输和存储其他任何编码的字节流都不会被抛弃。换言之，把其他任何编码的字节流当作ISO-8859-1编码看待都没有问题。这是个很重要的特性，MySQL数据库默认编码是Latin1就是利用了这个特性。

GB2312：
一个小于127的字节表示的字符与ASCII相同，但两个大于127的字节连在一起时，就表示一个汉字，前面的一个字节（称之为高字节）从0xA1用到 0xF7，后面一个字节（低字节）从0xA1到0xFE，这样我们组合出大约7000多个简体汉字，每个汉字占用2个字节的脑容量;
UTF-8:
对于单字节字符，字节的第一位为0，后7位为这个符号的Unicode码，所以对于拉丁字母，UTF-8与ASCII码是一致的。

对于n字节(n>1)的字符，第一个字节前n位都设为1，第n+1位为0，后面字节的前两位一律设为10，剩下没有提及的位，全部为这个符号的Unicode编码。

Paste_Image.png

再回到之前的问题，当采用new String(byte bytes[])将二进制转换为字符时，默认采用file.encoding指定的编码，如果未指定，则使用UTF-8;查看源码会发现，内部是使用StringDecoder完成转换的：

private StringDecoder(Charset cs, String rcn) {
    this.requestedCharsetName = rcn;
    this.cs = cs;
    this.cd = cs.newDecoder()
        .onMalformedInput(CodingErrorAction.REPLACE)
        .onUnmappableCharacter(CodingErrorAction.REPLACE);
    this.isTrusted = (cs.getClass().getClassLoader0() == null);
}

但比较坑爹的出现在这，可以看到当发生输入格式错误或发现无法映射的字符时，默认的行为是REPLACE,对于UTF-8是采用"\uFFFD"进行替换；

Paste_Image.png

可以看到由于-1(0xFF)和－2（0xFE)无法被映射为UTF-8字符，因此默认采用"\uFFFD"(10进值65533)替换，导致转码前后的二进制发生了变化；因此对于二进制文件，最安全的方式是采用ISO-8859-1,由于它是单字节编码，不会发生数据的丢失；

其实上面问题的根源在于客户端未遵守HTTP协议规范，如果采用multipart/form-data方式上传文件，则不会将二进制转换为字符串，也就不会导致后面一系列的问题了；

字符串编码

猜你喜欢

热点阅读