字符集
2019-01-26 本文已影响0人
金泽祺
UTF-8编码规范
UTF-8是一种可变长的编码方式,规则如下:
总字节 | 规则 |
---|---|
1字节 | 0xxxxxxx |
2字节 | 110xxxxx 10xxxxxx |
3字节 | 1110xxxx 10xxxxxx 10xxxxxx |
所以,2个字节的中文unicode被UTF-8编码成了3个字节。比如“中”:
unicode | UTF-8 |
---|---|
\u4e2d | 0xe4b8ad |
01001110 00101101 | 11100100 10111000 10101101 |