utf-8 和 unicode之间关系
2019-09-26 本文已影响0人
mark_x
转载说明:
版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。
本文链接:https://blog.csdn.net/guodejie/article/details/81352845
————————————————
ASCII码用一个字节(8位)的编码表示对应英文字符;世界上有各种各样的语言,用ASCII显然是不能完全对应的,因此产生了Unicode——统一码。简单来说,就是为世界上每一个字符都对应一个数字编码。
Unicode 为世界上所有字符都分配了一个唯一的数字编号,这个编号范围从 0x000000 到 0x10FFFF (十六进制),有 110 多万,每个字符都有一个唯一的 Unicode 编号,这个编号一般写成 16 进制,在前面加上 U+。例如:“马”的 Unicode 是U+9A6C。
Unicode 就相当于一张表,建立了字符与编号之间的联系。
编号范围从 0x000000 到 0x10FFFF (十六进制),因此最多需要4个字节,但是全部字符都用4个字节就太浪费了,因此使用utf-8这种可变长字节的表示。