字符集、码位、编码

2021-08-19  本文已影响0人  一个好汉

基本概念
字符集(可见字符、控制字符…)
字符码位(字符在字符集中的位置)
字符编码规则(编码的二进制存储规则)

2. ASCII系列

2.1 ASCII码

字符集(ASCII字符集):128个字符
码位:128个
编码(ASCII码):码位的二进制

主要是为了解决美国字符编码问题
美国哪有那么多字符 一个字节就搞定了

2.2 LATIN1

遵循ISO-8859-1 扩展的ASCII码
在ASCII码的基础上,新增了128个字符,解决欧洲一些国家的字符编码问题
基本每个欧洲国家的标准都不一样 还有什么其他ISO-8859-2 3 ……

3. GB系列

兼容ASCII

3.1 GB2312码

解决中国常见汉字编码问题
字符集:6763个汉字,682个除汉字外的字符。
码位:分区管理,共计94个区,每个区含94个位,共8836个码位

3.1.1 为什么从 0xA1 编码

GB2312 是双字节编码,与 ASCII 码兼容,0x80 - 0x9f 要留给控制块,只能从 0xA0 开始咯。又因 0xA0 正好是图形块的空格,于是就从 0xA1 编码

3.2 GBK

相对于GB2312字符集,新增近20000个汉字和符号

3.3 GB18030

相对于GBK,又新增了几千个少数名族字符
好多生僻字 基本都用不到的汉字

4. Unicode标准

通用字符集(UCS,Universal Character Set)是由ISO制定的ISO 10646(或称ISO/IEC 10646)标准所定义的标准字符集
UCS-2用两个字节编码,UCS-4用4个字节编码

4.2.1 UTF-8编码规则

每次传送8位数据
是一种可变长的编码格式
兼容ASCII 可存放1到4个字节


utf8遵循严格的编码规则

字符“王”在UCS-4字符集中的码位为0x0000738B,存储编码为0xE78E8B

参考

字符集、码位、编码:ASCII、LATIN1、GB2312、GBK、Unicode、UTF-8、UTF-16、UTF-32

上一篇 下一篇

猜你喜欢

热点阅读