干货 | 最好用的英语语料库!
汉译英的时候很多同学往往会因为不清楚单词的具体用法而造成用词不当。要想解决这个问题,除了平时大量阅读,在具体语境中体会单词的含义、语域、感情色彩,还可以适当运用一些权威词典和语料库。
今天向大家推荐美国当代英语语料库(Corpus of Contemporary American English,简称COCA)。它是目前最大的免费英语语料库,由包含 5.2 亿词的文本构成,相比传统词典,它不仅权威专业,而且时效性强。利用COOA可以快速查询单词的含义、词频、应用场景、单词搭配等,能够大幅提高翻译的准确性,建议大家花一点时间仔细研究下如何高效利用COCA进行查询。
语料库的地址(戳我)http://corpus.byu.edu/coca/
一、与传统词典相比,COCA 的优势:
(1)文本实时性强。
「COCA 」从 1999 年创立至今持续保持更新,每年都要更新大约 2000 万的词汇数量,所以比起普通的词典,「COCA 」则包含更多的最新语料。比如类似 life satisfaction, social media 这样的词,很多传统词典都没有收录,但在语料库中都可以查到。
(2)搜索速度非常快。
即使有这么庞大的语料库,但在「COCA 」搜寻的速度依然很快,瞬间就可以找到结果。
值得注意的是,在不登录的情况下,每个用户每天可以使用10 到 15 次的搜寻。注册一个帐户之后,就可以无限制的使用搜寻功能。
(3)来自专业正式文本,更接近正式的语法。
「COCA 」的语料来自于美国英语使用情境下的口语演讲、小说书籍、杂志报纸、学术期刊,也就是说比起搜寻网络用语素材,「COCA 」的语料来自于有更多严谨检查与使用的专业或正式文件,所以相对起来更能避开有争议的方法,而更接近正式的语法。
这对有「英文文稿翻译」、「英文正式报告」、「英文职场书信」需求的使用者来说,提供了更专业正确的查询渠道,并且查询时可以找到各种词汇在这些文件里的使用方法参考。
(4)语料库可以提供单词的词频信息。
提供单词的词频信息将有助于我们了解该单词在实际应用中的出现频率,从而实现准确用词。
(5) 语料库还能提供模糊搜索、同义词、单词搭配、搜寻一个词汇的所有变化型态等的功能。
二、如何高效使用COCA进行查询?
基本的使用非常简单,进入「COCA 美国现代英文语料库」网站后,在左方的搜寻栏位输入要查询的英文单字、词汇或句子,就可以找到相关的语料资料。如何正确使用「COCA 」,下面有几点操作提示:
(1)确认表达是否地道
翻译中,我们会碰到一些模棱两可的表达,比如“用鼠标点击一下”是 at the click of a mouse 还是 with the click of a mouse? “普通人”译为 the common people 是否为中式表达?这些细琐的知识点都可以在语料库中找到答案。
比如我们在网站上搜索“at the click of a mouse”,可以看到下面的结果:
结果表明这个表达在语料库中有30处例证,并且 at the click of a mouse 的意思与我们预想的一致,比如这是其中一句:Thanks to the internet, several lifetimes' worth of gardening wisdom is available at the click of a mouse. 这说明 at the click of a mouse 这个表达是没问题的。
再用相同的方法验证 with the click of a mouse,会出现37处例证。这说明 at / with the click of a mouse 这两个说法都是正确的。
ps:对于搜索的结果,一方面是按照时间顺序(由新到旧)排列,另一方面是有颜色高亮提示输入的内容,而对于输入框中的内容,还有智能拼写的查错功能(类似于word拼写错误)。
(2)确定单词的使用语境
COCA 的一个特色功能是能统计一个单词或短语在口语、小说、流行杂志、报纸以及学术文章五种不同文体中的出现频率,这意味着我们可以根据这些词频来确定它们的最佳使用场景。
举个例子,在学术写作中,我们一般推荐学生用 many 来代替 a lot of,因为a lot of 是一个非正式表达,更多出现在口语中。对此,我们在 COCA 中可以找到例证。
选择网站列表的Chart功能,然后输入 a lot of,点击 See frequency by section,我们可以看到 a lot of 这个词组在口语、小说、流行杂志、报纸以及学术文章这五种文体中的出现频率:
a lot of 在口语中出现了超过 10 万次,在小说、流行杂志、报纸中出现的次数也都超过了 1 万,但在学术文章中只出现了 4000 多次,这说明它在学术文章中的使用频率偏低。
而a lot of 的同义词 many,我们会发现它在学术文章中的出现频率较高,超过 11 万次,这说明在学术文章中使用 many 会比用 a lot of 更为合适。
所以通过使用的频次我们可以判断出什么语境用什么词更合适。
(3)比较近义词的区别
近义词辨析是一个很困恼翻译的问题,如此相近的两个词却又不能厘清TA们之间的关系,可犯难了。
COCA 有一个很好用的“比较”功能,这个功能可以用来比较两个近义词的区别。举个例子,murder 和 assassinate 都有“谋杀”的意思,两者有哪些区别呢?
在 COCA 网站中选择 Compare 功能,然后在 Word1 和 Word2 中分别输入 murder和assassinate,Collocates 框中输入 _nn*(表示查询的是与 murder/assassinate 搭配的名词),最后在下方的数字框中分别选择 3 和 3 (表示查询文本中与 murder/assassinate 相距三个单词及以内的所有名词)。
我们可以得到这样的结果:
从上面的表格中我们可以看出词与词之间的相关性,与 assassinate 搭配的大都是leaders/president/ambassador/king 这类重要人物,但与 murder 搭配的更多为 wife/victim/husband这类常见对象。而且某些特定单词只能跟 murder 搭配,比如 murder scene 这一搭配在语料库中出现了 372 次,但 assassinate scene 出现的次数是 0 次,说明在英语中很可能没有 assassinate scene 这样的用法。
(4)寻找合适的用词
COCA 的另一个特色功能是同义词选择功能。我们可以根据语料库的建议选择更加合适的用词。
举个例子,有个同学想表达“我们城市有一个很高大宏伟的超市”,英文写成:There is a large and tall supermarket in our city. 很明显这个句子中tall supermarket 的表达很别扭,而且在语料库中找不到例证。应该换成什么单词呢?COCA 可以给到答案。
在网站上选择List功能,输入 [=tall] supermarket(这个指令表示寻找 tall的近义词,并且该近义词要能够与 supermarket 搭配),结果如下:
根据语料库给出的建议,abig/large/giant/colossalsupermarket这几个表达都可以用来替换a tall supermarket,所以如果你不确定词汇的搭配你可以仔细检索一下。
最后再提醒大家一下的是,网站需要登录注册才可以无限使用哦,不然会出现下面这个提示信息:
总体来说,美国当代英语语料库COCA的功能非常强大,速度也挺快,匹配了译员的各种查询诉求。好好利用美国当代英语语料库COCA的资源和搜索特性,对我们的翻译一定会大有帮助的。