语料库检索

2016-03-29  本文已影响0人  如是写

第三章 语料库的基本技术

第一部分 语料库检索的目的和检索类别



简单检索

以AntCone为例

简单检索中,word是检索项的准确形式查询,如同同时选择Case,软件会区别大小写。在regex模式下,凡是包含所查找部分的单词都会被搜索出来。 所以在regex模式下,适合检索词缀。

简单检索中的通配符

1.*text 匹配text, context, pretext.   (0或多个字符)

2. text+ 匹配text和texts  (0或1个字符)

3.b?d    匹配bad,bed,bid等 (1个字符)

4.in@case  匹配in case, in the case, in any case (0或1个词)

5.in#case 匹配 in this case, in that case, in any case等 (1个词)

6.text|texts 匹配text和texts (或者)

利用好通配符可以在简单检索中定义检索项,例如:

?*_VB*@?_V?N      检索被动语态

复杂检索

1)了解赋码文本的规律,主要以TreeTagger和CLAWS为例

a.观察词汇相关的语言现象时分析生文本更方便,但观察语法属性时使用赋码文本更方便。

b.每一个形符(包括词和标点符号)后都带有赋码,形符和赋码之间形成一个“词_码”结构;而相邻的“词_码” 结构间有一个空格。

c.词性赋码器在赋码的同时对文本进行了分词和断句。

d.不同词性赋码器所使用的整套代码存在较大的差异性,且代码的总数也不相同。代码集被称为(tagset).

e.一般来说,每一个词性赋码由2至4个字母数字或其他符号构成,这些符号具有很强层级体系,第一个符号可以看出词类。

2)在AntCone中利用正则表达式进行复杂检索

在对赋码文本进行检索时,应抓住赋码的层级特点,充分利用正则表达式中的常量和变量。

上一篇 下一篇

猜你喜欢

热点阅读