语料库191106

2019-11-06  本文已影响0人  Suria007

TTR type/token ratio 反映的是在一千词里面有多少不同的单词,看文本词汇密度。lexical richness,文本语料词汇丰富度。

Standardlist TTR 有一个基数

mean word length 平均词长

types (distinct words) 类符,在一个文本中,不同类单词组数

sentences 句长

tokens (running words) 单词数

词形归并,对于出现的不同类型但意思相同的词.

加入词型合并表 效果图 txt文件加入stoplist 匹配txt中的词
上一篇下一篇

猜你喜欢

热点阅读