如何编辑制作MDICT词库?

2020-03-13  本文已影响0人  果壳里的星辰

作者:亚马逊的蝴蝶(Butterfly_of_Amazon)


Mdict是一个跨平台的词典软件,使用格式为mdd、mdx的字典资源,由于其开放性与便利性,得到广泛应用,拥有活跃的社区,有大量用户制作的精美词典可供下载。词库数量超过千种,包括各种不同的语言的著名词典。掌握词库编辑制作技术能给日常的学习与工作带来很多帮助。

虽然网上有很多MDict词库,但不一定满足你的需要,有的是内容不精简,有的是样式不精美。如果能够自己对它们进行加工,就可以通过精简留下你需要的内容,调整文字字体、大小、颜色,让它更加美观。
有时,你手里很多资料需要经常查阅,比如产品目录,如果能把它们制作成Mdict知识库,则通过手机上的词典软件就可以方便地检索了。

我曾经从网上下载过一个159M的多词典合集的金山词霸词库,我认真研究了Mdict的制作方法,把我需要的子字典抽取出来,进行加工美化,配上标准的真人版语音库,装到我的手机里,大大方便了英语学习与单词查询。

下面我结合我的编辑经验,说说如何制作MDICT词库文件。


第一步,将MDX格式的词库导成方便编辑的TXT文本

使用软件GetDict.exe,它的主要作用是将词库文件导出TXT文本,做为下一步加工处理的基础。

注意:要选择“MDX源文件”选项

第二步,从TXT文本中拆出想要的子词库

这一步不是必须的。因为我需要从多词典合集的金山词霸词库中抽取出来我要的词典,所以我需要做这一步。

视文件大小,选择不同的文本编辑软件。一般稍微大一些的词库导出来的文本文件都会比较大,比如我这个文件达到了800M,普通的文本处理软件无法打开,UltrEdit虽然可以,但处理速度太慢。我几经试验,选择了Linux下的Grep,它的优点是处理速度超快,像飞一样。

具体Linux上哪儿找,就看各位手头的条件了,推荐使用Ubuntu操作系统。Ubuntu操作系统是比较优秀的Linux内核的个人电脑操作系统,安装与使用都比较方便,界面非常漂亮,用习惯了你会喜欢上它。


Ubuntu

具体如何拆出你需要的单词子库,得看你的需求了,需要你自己找到判定规则,用Grep的查找替换功能,甚至手工添加、删除或修改了。

第三步,对拆出的TXT文本进行加工

词库文件使用的是 HTML 格式语言,为了让词库显示美观,这个环节你可以按照你自己的喜好,对词库的字体样式、显示颜色进行美化处理。需要掌握一些基本的 HTML 知识。

有时文本里会出现 &lt; &gt; &quot; &amp; ,需要将其替换为 < > " & 。

推荐使用 NotePad++ ,它的搜索替换速度很快,可以使用正则表达式,如果你对正则表达式有一定的了解,可以事半功倍。不过NotePad++有个缺点:文件达到约100M后,经常中途异常退出,所以对大的词库,可以将文件拆成几个小文件后再处理。

第四步,将处理完毕的词库文本文件生成为最终版MDX文件

使用MdxBuilder将前面处理完的词库文本文件生成为MDX文件,得到最终版MDX格式的词库文件。


生成MDX文件

至此,任务完成。

我把这些词库装到手机上的深蓝词典中,用起来非常方便,比原来的界面也好看多了。我再从网上找到了一个377M的真人语音库(非常好的语音库,重点推荐)配合使用,完美地同时满足了查单词和听发音的需求。



下面是前面用到的软件、真人语音库和我加工的几个词典的下载地址,感兴趣的朋友可以下载玩玩。
其中重点推荐真人语音库,完全真人的标准发音,比电脑自动阅读的不知强多少倍,是英语学习的好帮手。
相关下载


看完说点儿什么吧,要不点一下赞或踩一脚也行。您的任何一点儿反馈都能给我帮助,谢谢!

上一篇下一篇

猜你喜欢

热点阅读