当我写下一亿行代码

《NLP汉语自然语言处理原理与实践》笔记摘要

2019-05-05  本文已影响2人  当我写下一亿行代码

语料库的类型划分为如下5个部分:
通用性和专用性。
异质性和同质性。
动态性和静态性。
共时性和历时性。
平行/双语语料库。

常见的语料库类别大概有两种:语法语料库和语义知识库。

国家语委语料库
1.语料检索 http://www.cncorpus.org/CCindex.aspx
2.字词检索 http://www.cncorpus.org/wdindex.aspx
3.分词/词性标注 http://www.cncorpus.org/CpsParser.aspx
4.汉语拼音自动标注 http://www.cncorpus.org/CpsPinyinTagger.aspx
5.字词频率统计 http://www.cncorpus.org/CpsTongji.aspx

深入理解HowNet 知网的构建思路和方式,可以对知识库的构建有所启发和指导。
还应该仔细查看中文维基百科是如何构建的。

上一篇 下一篇

猜你喜欢

热点阅读