随笔:UNICODE
2017-12-27 本文已影响0人
pooncheukkei
unicode及unicode consortium:unicode与emoji
- 全球有近90%的人口使用表情符号;
- unicode emoji的支援需要厂商提供对应的unicode字型;
- unicode是一种象形文字;是万维网网页标准的基础;
- unicode可以解决不同语言之间的乱码问题;
- unicode码最大的好处就是对于每一个字元提供了一个跨平台、语音与程序的统一数码。
unicode:常见的表达形式
- url在编码时,会把非ascll字符及一些保留字符做转换,加以%符号以16进制符号表示,如:%F0%9F%98%80(url编码工具可用URL decoder/encoder或atool);
- 一般而言,unicode编码的书写表达形式以U+开头,如unicode的笑脸:
- U+1F600。unicode列表时如unicode5.0的全部表情符号都采取这种编码方式。
unicode标准统一编码的基础设施
- unicode基础设施的工作包括两部分,一为为文本中使用的每个字符提供一个数字,而unicode标准是这些数字的字典。二是协助设备处理世界上所有的语言;
- unicode标准是w3c规范的组成部分;
- 让文本以全球化方式放在网上这方面,w3c遵循unicode的道路。自html的早期开始到不断扩大xml系统规范,unicode标准是w3c规范的一个组成部分;
- unicode编码标准为文本中使用的每个字符提供一个数字。
- 美国信息交换标准代码—ascl
- 通用区域资料—cldr
unicode在东亚
- 专用汉字的特点在于,如是几种语言共享的符号且经同意,是共享同一编码,统一的汉子则否;
- unihan的早期发展涉及中日韩三种语言所用的汉字,又称cjk,后期以有越南用的汉字加入,称cjkv。
- URL的编码工具:URL decoder
unicode字符集
- 中文简体字早期标准gb-2312盒繁体字/正体字早期标准blg5放在一起会发生编码错误以致显示内容不正确;
- 中文简体字早期标准gb-2312盒繁体字/正体字早期标准blg5这两种标准的文字是无法同时出现在同一份文件中.
- 乱码—Mojibake
- 国际通用码—Unicode
- 编码—Encoding
- unicode cldr数据库存有不少数据,可以使用xml和json格式取用