HSE-advanced level NLP- 1.1 Text

2020-06-01  本文已影响0人  快乐自由拉菲犬

分词对于英语而言,是比较容易的,毕竟每个词之间都是space or punctuation.
但是其他语言可能就没这么方便了,比如德语、日语、中文。期间没有明显的spaces.

尤其是日语,压根没有空格at all.

虽然这样,对于人类而言,却毫无难度。

token: you can think it as a useful unit for semantic processing

可见,这些tokens don't make any sense n't

所以tokenization如要让tokens具有意义。


(from:https://www.coursera.org/learn/language-processing/lecture/SCd4G/text-preprocessing)

上一篇下一篇

猜你喜欢

热点阅读