utf-8 和 unicode之间关系

2019-09-26 本文已影响0人 mark_x

转载说明：
版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。
本文链接：https://blog.csdn.net/guodejie/article/details/81352845
————————————————
ASCII码用一个字节（8位）的编码表示对应英文字符；世界上有各种各样的语言，用ASCII显然是不能完全对应的，因此产生了Unicode——统一码。简单来说，就是为世界上每一个字符都对应一个数字编码。

Unicode 为世界上所有字符都分配了一个唯一的数字编号，这个编号范围从 0x000000 到 0x10FFFF (十六进制)，有 110 多万，每个字符都有一个唯一的 Unicode 编号，这个编号一般写成 16 进制，在前面加上 U+。例如：“马”的 Unicode 是U+9A6C。
Unicode 就相当于一张表，建立了字符与编号之间的联系。

编号范围从 0x000000 到 0x10FFFF (十六进制)，因此最多需要4个字节，但是全部字符都用4个字节就太浪费了，因此使用utf-8这种可变长字节的表示。

utf-8 和 unicode之间关系

猜你喜欢

热点阅读