《NLP汉语自然语言处理原理与实践》笔记摘要
2019-05-05 本文已影响2人
当我写下一亿行代码
语料库的类型划分为如下5个部分:
通用性和专用性。
异质性和同质性。
动态性和静态性。
共时性和历时性。
平行/双语语料库。
常见的语料库类别大概有两种:语法语料库和语义知识库。
国家语委语料库
1.语料检索 http://www.cncorpus.org/CCindex.aspx
2.字词检索 http://www.cncorpus.org/wdindex.aspx
3.分词/词性标注 http://www.cncorpus.org/CpsParser.aspx
4.汉语拼音自动标注 http://www.cncorpus.org/CpsPinyinTagger.aspx
5.字词频率统计 http://www.cncorpus.org/CpsTongji.aspx
深入理解HowNet 知网的构建思路和方式,可以对知识库的构建有所启发和指导。
还应该仔细查看中文维基百科是如何构建的。