字符、字节、编码

2018-02-26  本文已影响0人  shanshanfei

这篇文章讲的很好,这么久以来的乱码问题终于有了一些明白。【http://www.regexlab.com/zh/encoding.htm

截图下其中精华部分:


image.png

字符就是各种符号,字节是衡量存储容量的单位,是一个8位的二进制数,编码是不同的编码方式(在不同的编码方式里,不同字符占据的字节不同),编码就是把不同的字符转换成了不同的字节来进行表示。

ASCII码中,一个英文字母(不分大小写)占一个字节的空间,一个中文汉字占两个字节的空间。---话说,ASC编码不是只支持英文吗???

UTF-8编码中,一个英文字符等于一个字节,一个中文(含繁体)等于三个字节。

Unicode编码中,一个英文等于两个字节,一个中文(含繁体)等于两个字节。

符号:英文标点占一个字节,中文标点占两个字节。举例:英文句号“.”占1个字节的大小,中文句号“。”占2个字节的大小。

UTF-16编码中,一个英文字母字符或一个汉字字符存储都需要2个字节(Unicode扩展区的一些汉字存储需要4个字节)。

UTF-32编码中,世界上任何字符的存储都需要4个字节。


1byte = 8bit


参考:
http://blog.csdn.net/andyzhaojianhui/article/details/53785656
http://www.regexlab.com/zh/encoding.htm
https://www.jianshu.com/p/8828d767c136?utm_campaign=maleskine&utm_content=note&utm_medium=seo_notes&utm_source=recommendation

上一篇下一篇

猜你喜欢

热点阅读