中文分词工具及中文语料资源
关键词: 中文分词;分词;自然语言处理;中文语料
最近要做中文自然语言处理相关任务,牵涉到使用中文分词工具和相关算法的研究。
整理不同分词工具的比较研究:
Stanford团队开源工具。支持中文和阿拉伯语等分词。
分词采用两种模式:Two models with two different segmentation standards are included: Chinese Penn Treebank standard and Peking University standard.
清华大学现代汉语语料库加工规范——词语切分与词性标注,这个作为分词和词性标记的依据标准。
授权方式: licensed under the GNU General Public License
支持:Python包、C#和.NET扩展包。Python包被集成到了NLTK中。
持续更新,当前更新到3.8.0
老牌中文分词系统,中科院张华平博士研究团队开发,C++/JAVA/C#版本。持续更新
性能:
获取Bakeoff 1两项第一.
单机每秒可以查询 100 万词条
授权方式:
非商用永久免费,为确保我们大家拿到最新版本,非商用授权为1月;授权到期后,可以访问网站获得最新授权与最新的程序包;如果需要长期授权,请联系商用授权
GitHub 地址
“结巴”中文分词:做最好的 Python 中文分词组件.
语言支持最丰富,R、iOS、PHP、.NET(C#)、Go、Java、C++等都支持。
官方分词速度:1.5 MB / Second in Full Mode
400 KB / Second in Default Mode
支持三种分词模式:
精确模式:试图将句子最精确地切开,适合文本分析;
全模式:把句子中所有的可以成词的词语都扫描出来, 速度非常快,但是不能解决歧义;
搜索引擎模式: 在精确模式的基础上,对长词再次切分,提高召回率,适合用于搜索引擎分词。
支持繁体分词
支持自定义词典
授权方式:MIT 授权协议
在线演示
代码示例:
# encoding=utf-8
import jieba
seg_list = jieba.cut("我来到北京清华大学", cut_all=True)
print("Full Mode: " + "/ ".join(seg_list)) # 全模式
seg_list = jieba.cut("我来到北京清华大学", cut_all=False)
print("Default Mode: " + "/ ".join(seg_list)) # 精确模式
seg_list = jieba.cut("他来到了网易杭研大厦") # 默认是精确模式
print(", ".join(seg_list))
seg_list = jieba.cut_for_search("小明硕士毕业于中国科学院计算所,后在日本京都大学深造") # 搜索引擎模式
print(", ".join(seg_list))
输出:
【全模式】: 我/ 来到/ 北京/ 清华/ 清华大学/ 华大/ 大学
【精确模式】: 我/ 来到/ 北京/ 清华大学
【新词识别】:他, 来到, 了, 网易, 杭研, 大厦 (此处,“杭研”并没有在词典中,但是也被Viterbi算法识别出来了)
【搜索引擎模式】: 小明, 硕士, 毕业, 于, 中国, 科学, 学院, 科学院, 中国科学院, 计算, 计算所, 后, 在, 日本, 京都, 大学, 日本京都大学,深造
-
清华大学THULAC
THULAC(THU Lexical Analyzer for Chinese)由清华大学自然语言处理与社会人文计算实验室研制推出的一套中文词法分析工具包,具有中文分词和词性标注功能。
支持C++、python、Java。
THULAC具有如下几个特点:
能力强。利用我们集成的目前世界上规模最大的人工分词和词性标注中文语料库(约含5800万字)训练而成,模型标注能力强大。
准确率高。该工具包在标准数据集Chinese Treebank(CTB5)上分词的F1值可达97.3%,词性标注的F1值可达到92.9%,与该数据集上最好方法效果相当。
速度较快。同时进行分词和词性标注速度为300KB/s,每秒可处理约15万字。只进行分词速度可达到1.3MB/s。
授权方式:
THULAC面向国内外大学、研究所、企业以及个人用于研究目的免费开放源代码。
如有机构或个人拟将THULAC用于商业目的,请发邮件至thunlp@gmail.com洽谈技术许可协议。
-
哈工大LTP
使用HTTPS在线API方式使用.
授权方式:
语言技术平台面向国内外大学、中科院各研究所以及个人研究者免费开放源代码,但如上述机构和个人将该平台用于商业目的(如企业合作项目等)则需要付费。
除上述机构以外的企事业单位,如申请使用该平台,需付费。
-
分词算法
-
基于字符串匹配(基于字典的方式):
即扫描字符串,如果发现字符串的子串和词相同,就算匹配。这类分词通常会加入一些启发式规则。正向最大匹配法、逆向最大匹配法和双向匹配分词法等。
这类算法优点是速度块,都是O(n)时间复杂度,实现简单,效果尚可。
也有缺点,就是对歧义和未记录词处理不好。
1. 正向最大匹配法:
假设词典中最大词条所含的汉字个数为n个,取待处理字符串的前n个字作为匹配字段。若词典中含有该词,则匹配成功,分出该词,然后从被比较字符串的n+1处开始再取n个字组成的字段重新在词典中匹配;如果没有匹配成功,则将这n个字组成的字段的最后一位剔除,用剩下的n一1个字组成的字段在词典中进行匹配,如此进行下去,直到切分成功为止。(链接:http://www.jianshu.com/p/e978053b0b95)
2. 逆向最大匹配法:
与正向的区别在于如果匹配不成功则减去最前面的一个字。
3. 最少切分
使每一句中切出的词数最少。 -
基于字符串匹配(基于字典的方式):
ikanalyzer工具就是这一类
- 基于统计和机器学习
这类分词基于人工标注的词性和统计特征,对中文进行建模,即根据观测到的数据(标注好的语料)对模型参数进行估计,即训练。 在分词阶段再通过模型计算各种分词出现的概率,将概率最大的分词结果作为最终结果。常见的序列标注模型有HMM和CRF。
这类分词算法能很好处理歧义和未记录词问题,效果比前一类效果好,但是需要大量的人工标注数据,以及较慢的分词速度。
ICTCLAS是HMM算法
Jieba的精确模式也是采用HMM算法
Stanford是CRF算法
CRF算法默认被认为是最好的一种方式,基本思路是对汉字进行标注训练,不仅考虑了词语出现的频率,还考虑上下文,具备较好的学习能力,因此其对歧义词和未登录词的识别都具有良好的效果。
论文[Chinese word segmentation as character tagging]中较为详细地阐述了基于字标注的分词法
论文[Combining Classifiers for Chinese Word Segmentation]提出使用机器学习方法对每个字符进行标注,通过机器学习算法训练分类器进行分词。
思路比较:
一般来说,语言模型搜索匹配的方式速度更快,对专业词汇影响好,但是发现新词和消除歧义方面不好,对字典要求比较高,需要不停的更新词典。
词典可以使用CRF等算法训练生成,识别新词。
依据具体项目任务确定采用那种方式。
中文语料库
人民日报:貌似机器分词,错误率高
信息处理用现代汉语词类标记规范(现代汉语语料库词类标记集)
现代汉语语料库词频表
现代汉语语料库字频表
现代汉语语料库分词类词频表
四十万汉语大词库, 解压密码:www.hankcs.com
69万中文词库
wiki百科语料
维基百科语料库的预处理可参阅博客:维基百科简体中文语料的获取和中文Wiki语料获取
汉语开放词网,汉语语义词典chinese wordnet
部分资料来源:http://www.aihanyu.org/cncorpus/resources.aspx