【论文学习】《Lexical Sememe Prediction

2021-03-11  本文已影响0人  三方斜阳

《基于协同过滤和矩阵分解的义原预测》

数据预处理:

hownet.txt 是义原文件: 词:义原1,义原2 ... 义原n

提出三种预测义原的方法:

1. SPWE:Sememe Prediction via Word Embeddings

2. SPSE : Sememe Prediction with Sememe Embeddings

  1. 义原-义原矩阵:根据 hownet.txt 文件统计所有的词和对应的义原,根据义原与义原之间的共现频率计算点互信息,产生义原-义原矩阵,由义原之间的点互信息来定义
    点互信息
python Sememe_PMI_Matrix_Generator.py hownet.txt PMI.txt

PMI.txt : 义原-义原矩阵:


未截取完
  1. 词-义原矩阵:通过 hownet.txt 文件构造 词-义原矩阵,[word_size,sememe_size],矩阵元素全为0/1,当词 i 具有 义原 j 时,矩阵对应位置标1,否则置0
  2. 损失函数
    loss function
    损失函数的两个部分分别是分解矩阵 M(词-义原矩阵)和 P(义原-义原矩阵),分解义原-义原矩阵针对每个义原,会得到两个独立的义原嵌入,因为义原嵌入通过分解这两个矩阵得到,所以可以把词和义原同时编码到同一个语义空间;
  3. 训练细节
    其中因为词-义原矩阵非常稀疏,一个词通常用2-5个义原来表示,于是矩阵分解的过程中,对于 词-义原 矩阵中的0元素,用0.5% 的概率来分解,对于非0元素,总是对其进行分解,这样可以更加关注词-义原对
  4. 预测义原
    预测的时候,一个义原嵌入由训练分解得到的两个独立义原嵌入相加,然后直接计算目标词和每个义原嵌入的余弦相似度,得到推荐义原.

3. SPASE: Sememe Prediction with Aggregated Sememe Embeddings

上一篇 下一篇

猜你喜欢

热点阅读