NLP

自然语言处理——4. 语料库与语言知识库

2018-10-03  本文已影响186人  SpareNoEfforts

基本概念

1. 语料库

2. 语料库语言学

3. 语料库语言学研究的内容:

语料库技术的发展

1. 20世纪50年代中期之前:早期

语料库在语言研究中被广泛使用:语言习得、方言学、语言教学、句法和语义、音系研究等

2. 1957~20世纪80年代初期:沉寂时期

3. 20世纪80年代以后:复苏与发展时期

4. 语料库技术复苏的原因

(1)计算机的迅速发展;
(2)转换生成语言学派对语料库语言学的批判不都正确(如指责计算机分析语料是伪技术),有的是片面的甚至是错误的(如对语料数据价值的否定)。

国内语料库研究状况

语料库的类型

1. 按内容构成和目的划分(4种类型)

2. 按语言种类划分

3. 是否标注?(生语料、熟语料)

4. 平衡语料库

5. 平行语料库

两种含义:一种是指在同一种语言的语料上的平行,例如,“国际英语语料库”,共有20个平行的子语料库,分别来自以英语为母语或官方语言和主要语言的国家,如英国、美国、加拿大、澳大利亚、新西兰等。其平行性表现为语料选取的时间、对象、比例、文本数、文本长度等几乎是一致的。建库的目的是对不同国家的英语进行对比研究。

另一种平行语料库是指在两种或多种语言之间的平行采样和加工,例如,机器翻译中的双语对齐语料库

6. 已有的双语资源

•加拿大议会会议录(Canadian Hansards) http://www.isi.edu/natural-language/download/hansard/
•克姆尼茨英-德翻译语料库(Chemnitz E-G Translation Corpus) http://www.tu-chemnitz.de/phil/english/chairs/linguist/real/independent/transcorpus/index.htm
•英语-挪威语平行语料库(ENPC) https://www.hf.uio.no/ilos/english/services/omc/enpc/
•葡-英双向平行语料库(Compara) http://www.linguateca.pt/COMPARA/Welcome.html
•香港立法委员会会议记录(Hong Kong Hansards) http://catalog.ldc.upenn.edu/LDC2000T50
•香港新闻(Hong Kong News)
•香港法律(Hong Kong Laws)

7. 共时语料库与历时语料库

语料库建设中的问题

1. 语料库设计需要考虑的问题

2. 汉语语料库开发中存在的问题

典型语料库介绍

1. 布朗语料库(Brown Corpus)

2. LLC口语语料库(London-Lund Corpus of Spoken English )

3. 朗文语料库(Longman Corpus)

4. 宾夕法尼亚大学(UPenn)树库(Tree Bank)(http://www.ldc.upenn.edu/)

5. 宾夕法尼亚大学树库的扩展

(1) PropBank (Proposition Bank)
(2) NomBank(Nominalization Bank)
(3) UPenn语篇树库

6.汉语篇章树库(CDTB)1.0

7. 北京大学开发的CLKB

8. 台湾中研院平衡语料库(SinicaCorpus)

9. 布拉格依存树库(Prague Dependency Treebank, PDT)(http://www.elsnet.org/nps/0040.html)

历时8年,两个阶段:1996年至2000年为第一阶段,主要完成了形态和句法分析层的标注工作,形成了PDT 1.0版;2000年至2004年为第二阶段,主要进行树库的深层语法层(tectogrammaticallayer) 的信息标注,形成PDT 2.0 版。

10. 中国中文语言资源联盟(Chinese LDC)

http://www.chineseldc.org(192. 168. 88. 2)

10. 口语语料库: BTEC (Basic Traveler’s Expression Corpus)

11. CASIA-CASSIL 语料库

词汇知识库

1. WordNet(http://wordnet.princeton.edu/ )

2. 知网(HowNet) (http://www.keenage.com)

上一篇下一篇

猜你喜欢

热点阅读