Text Normalization - Unix Tools

2019-03-13  本文已影响0人  IntoTheVoid

快速对语料进行词频统计

目的: 用于将文本序列中每一个non-characters更改至新行
A-Za-z : 字母
-c : A-Za-z的补集也即非字母
-s : 删除所有重复出现字符序列,只保留第一个;即将重复出现字符串压缩为一个字符串。

-c 折叠重复token并且计数

-n 按照数值进行排序
-r 从大到小排序

上一篇 下一篇

猜你喜欢

热点阅读