NLP模型

2020-01-13  本文已影响0人  Ary_zz

2020-01-11

word2vec

词袋

每个词有一个对应的onehot编码
可以得到文本的向量化结果,向量长度为词典大小,向量各个位置的值代表该词出行次数,存在的问题:
1.纬度灾难
2.未保留语序
3.语义鸿沟

n-gram

认为一个词的出现只与它前面n-1个词相关


image.png

连续词袋

去掉了最耗时的非线性隐藏层


image.png

假设目标词前后各取k个词,即窗口的大小是k,那么CBOW模型预测的将是


image.png

输入层到隐藏层,求和平均


image.png

隐藏层到输出层


image.png

最大化函数


image.png

skip gram

image.png

kip-Gram模型预测的是 [图片上传失败...(image-abc294-1578728260679)]

由于图中词前后只取了各两个词,所以窗口的总大小是2。假设词前后各取k个词,即窗口的大小是k,那么Skip-Gram模型预测的将是


image.png

输入层到隐藏层


image.png
隐藏层到输出层
image.png

最大化函数


image.png

参考
https://www.cnblogs.com/xlturing/p/6136690.html

上一篇 下一篇

猜你喜欢

热点阅读