语料库191106
2019-11-06 本文已影响0人
Suria007
TTR type/token ratio 反映的是在一千词里面有多少不同的单词,看文本词汇密度。lexical richness,文本语料词汇丰富度。
Standardlist TTR 有一个基数
mean word length 平均词长
types (distinct words) 类符,在一个文本中,不同类单词组数
sentences 句长
tokens (running words) 单词数
词形归并,对于出现的不同类型但意思相同的词.
加入词型合并表 效果图 txt文件加入stoplist 匹配txt中的词