汉字GBK与Unicode

殆知阁古代文献藏书2.0版txt文本质量如何

2019-08-11  本文已影响1人  iCloudEnd

最近想分析一下四大名著生僻字数量,苦于没有质量好的txt文本。解决方案有两个,一是自己从pdf或epub上提取,二是找txt版本。后来在知乎上知道了殆知阁,不知道这个资料库质量如何?

网上回答:

我下载下来看了,那些没加标点的四库全书文本肯定是从四库全书电子版中提取出来的,因为私有区的汉字两者是一样的。只是文本都转换成简体了,太可惜了。如果能在哪里找到提取方法就好了,一直都好想要里面的文本。只是用按键精灵复制的话,带双行夹注的文本都错乱了。

纯学术探讨。光盘版的《四库全书》造了很多字,对应的是一个个汉字小图片(记忆中是这样),所以提取出来的文本没有这些字。以前unicode不普及,很多字都没造出来,各家造的字编码又不统一,所以输入和显示都成问题,现在好多了

不是图片,光盘版自己造的字总共有三千多个,这些字都在汉字编码的私有区里,用FZKai-Z03或HT_CJK+这两个字体就可以显示,超出这个范围的(一般都在字书里)才用图片。提取出来的文本也要用这两个字体才能完美显示。

上一篇 下一篇

猜你喜欢

热点阅读