数量遗传或生统NLPML&DL

词表征 1:WordNet、0-1表征、共现矩阵、SVD

2019-05-01  本文已影响72人  cherryleechen

一、基于知识的表征

图1.1 WordNet

参见图1.1,WordNet中包含同义词集(synonym sets)和上位词(hypernyms, is a关系)。
其存在的问题为:

二、基于数据库的表征

(一)词本身

图2.1 0-1表征

参见图2.1,0-1表征中,向量维度为数据库中总词汇数,每个词向量在其对应词处取值为1,其余处为0。
其存在的问题为:

(二)结合上下文

基本思想:相似的词有相似的上下文。

1、共现矩阵

1)基于整个文档

词-文档共现矩阵\in R^{|V|*M},其中,|V|为词汇量大小,M为文档数量。
常给出文档的主题信息。

2)基于上下文窗口

词-词共现矩阵\in R^{|V|*|V|},其中,|V|为词汇量大小。
窗口大小常取5~10,通常对称、不分左右。
常捕获语法、语义信息。

图2.2 基于上下文窗口的共现矩阵

图2.2中红框部分为基于窗口大小为1、不区分左右形成的"love"、"enjoy"对应的高维稀疏词向量。
其存在的问题为:

2、低维稠密词向量

1)基于SVD进行降维

图2.3 基于SVD进行降维

通过对共现矩阵进行SVD,得X=USV^T。选择U的前k列得到k维词向量。
通过计算\frac{\sum_{i=1}^{k}s_i}{\sum_{j=1}^{|V|}s_j}得到前k维捕获到的信息比例。
其优势为:

其存在的问题为:

其常用的解决办法为:

上一篇下一篇

猜你喜欢

热点阅读