读书笔记D33: 语境、语料库和数据驱动学习
今天下午在译直播听了一个非常有趣的讲座,许家金老师讲的“语境、语料库和数据驱动学习”。许老师的讲座风格言简意赅,通俗易懂!深入浅出,毫不拖沓,学习了!我尤为赞同的是许老师强调的理念:既要学习新技术,也要把足够的精力放在内容开发上。现在技术的实时更新让人眼花缭乱,不知所措,但是底层的逻辑没有变,更重要的是内容,而不是形式。以下为我记录下来的部分精彩内容。
许老师结合来源于微博的时事讨论案例中brink这个词,给我们非常生动地阐释了语料库分析的用处。
柯林斯词典释义从何而来?它给出的词条是完全基于语料库,其特色在于不用近义词解释,而是用整句释义法(即用整段句子来分析)。这样有什么好处呢?这样可以补充详实的语义关联、语用色彩、语体分析,比如根据后面的collapse或者war可以判断出这一个词的使用语境偏向负面意义,而这些信息是查普通词典极易忽略的!而查词只知道这个词而不看这个词在上下文中是如何显现的,极容易造成一种割裂,不利于真正掌握词语。此外,语料库深度研究也有助于满足对语料的深度学习和开发需求,比如教材和试题编写。
比如许老师团队在这一思路下编写了《酒店英语词汇手册》,以这本书的产生过程为例,许老师也简明扼要地解释了语料编写的“四用原则”: 真材实用,优选常用,单词连用、情境活用。
许老师团队咨询专业人员确定重点关注的方面,田野调查搜集五星级网站语料、国外拍摄实地、网络爬虫爬取酒店英语主题词10万条。基于以上积累,许老师团队编纂出了《酒店英语词汇手册》。主题词方法:用酒店语料库和通用语料库进行对比(英语语料库the. 主题词key word analysis, 通用英语和专业英语对撞时会抵消,不计入主题词。)。针对高职院校19大类的19本词汇手册,后续还有18本正按照这个思路去做,包括体育、商务、艺术、传媒等等。
例子:1. complimentary 免费的
complimentary wifi / water/ phone call/ parking 免费水等
例子2: 俄罗斯方块考查 a series of这个语料使用的情景。
另外,许老师同我们分享了corpus.bfsu.cn、teccl. 语料库(大学生和中学生语料库)等语料库和资源,讲了国内外学者在语料库语言学上的研究进度和研究方向,比如有语料库篇章话语、批判话语分析、语篇衔接等。并鼓励大家关注其近期文章参考文献部分。对语料研究有兴趣可以报考北外,门槛不高。
许老师还提出,语料库语言学是描写与解释兼顾的语言学((在曲阜师范大学论坛的发言)。用语料库的方法做汉语学习者语言习得研究,中文系、国际汉语教育做得很多,也很早,北语老师1993年就开始了,独立做的、完全具有原创性。多因素语境共选,在语料库研究中做得很深,与国际一线接轨。语料研究扎根在汉语和中国学习者中间,也非常鼓励大家做汉语研究。
另外,附上部分讲座中许老师和学友们提到的资源供参考:
concordancer 典型的语料库工具,语料10的10次方。
powerconc 免费语料统计工具,计算词频
管新潮《语料库与翻译》,学友入门推荐。
语料库研究早已有,但现在仍有意义。
影响更大的语料库。“在国际范围内,中国是最早创建科技英语语料库的”。