字节=x个汉字=y个字母，x=？

2019-04-02 本文已影响0人水岩

* 1 字母 = 1 byte = 8 bit(位)

* 1 汉字 = 2 byte 2字节 = 16 bit 16个

1. bit：位

1 bit = 1 二进制数据

1 byte = 8 bit

1 字母 = 1 byte = 8 bit

1 汉字 = 2 byte = 16 bit

1. bit：位

一个二进制数据0或1，是1bit；

2. byte：字节

存储空间的基本计量单位，如：MySQL中定义 VARCHAR(45) 即是指 45个字节；

1 byte = 8 bit

3. 一个英文字符占一个字节；

1 字母 = 1 byte = 8 bit

4. 一个汉字占2个字节；

1 汉字 = 2 byte = 16 bit

5. 标点符号

A>. 汉字输入状态下，默认为全角输入方式；

B>. 英文输入状态下，默认为半角输入方式；

C>. 全角输入方式下，标点符号占2字节；

D>. 半角输入方式下，标点符号占1字节；

故：汉字输入状态下的字符，占2个字节 (但不排除，自己更改了默认设置)；

英文输入状态下的字符，占1个字节 (但不排除，自己更改了默认设置)；

编码格式

UTF-8：编码是六个字节

1）ANSI：文件的编码就是两个字节D1 CF，这正是严的 GB2312 编码，这也暗示 GB2312 是采用大头方式存储的。

2）Unicode：编码是四个字节FF FE 25 4E，其中FF FE表明是小头方式存储，真正的编码是4E25。

3）Unicode big endian：编码是四个字节FE FF 4E 25，其中FE FF表明是大头方式存储。

4）UTF-8：编码是六个字节EF BB BF E4 B8 A5，前三个字节EF BB BF表示这是UTF-8编码，后三个E4B8A5就是严的具体编码，它的存储顺序与编码顺序是一致的。

http://www.ruanyifeng.com/blog/2007/10/ascii_unicode_and_utf-8.html