20201021-词的向量转换的发展过程

2020-10-24  本文已影响0人  野山羊骑士
image

词的向量转换的发展过程

1 Knowledge-base representation

语言学家将词与词之间连接起来,构成一个wordNet,每个词由其他词链接表示。

python里边有一个这样的库:

image

缺点:无法表示词库中没有的词、主观的语言学家、只是链接到底链接多紧密呢?、计算相似性也困难

2 Corpus -based representation 语料库

2.1 开始是,构建语料库-->one-hot,缺点就是太长、太稀疏、词间无关联

2.2 然后是考虑上下文的:High-dimensional sparse word vactor 高维稀疏矩阵词向量;

 Neighbor-based representation  基于邻词的表示,如:Co-occurrence matrix gives
image

Neighbor definiton,缺点还是稀疏,维度太高,鲁棒性太差

2.3 然后是Low-dimensional dense word vector 低维稠密矩阵

2.3.1 有两种方法一种是利用SVD奇异值分解的降维方法;缺点是计算量太大,很难添加新词

2.3.2 一种是利用学习的方法:目前主流的方法

image

相对于基于词频的向量表示,神经网络的优势示例:

神经网络是基于向量空间的距离的,也就是基于上下文逻辑的。频数是基于语料库的,还是有局限性。

image
上一篇下一篇

猜你喜欢

热点阅读