session-based embedding

2019-03-13  本文已影响0人  xiiatuuo

前记

表示学习Representation Learning从word2vec火起来,一开始解决的是nlp中的词和词组embedding,然后成为通用的session-based 的embedding方法,目前开始在网络表示学习graph embedding中有了更为深刻的应用。本文主要讨论一下比较简单又比较实用的session-based的embedding在业界使用中的一些改进和优化技巧。涉及内容和论文比较多,还没完全看完,持续更新中...

综述

Embedding从入门到专家必读的十篇论文
嵌入方法在推荐系统中的应用

原理介绍

word2vec 中的数学原理详解
Word2vec数学原理全家桶

工业应用方法

-- 定量:对于音乐的类型,找到特别的10个分类下的音乐家,对其音乐作品打上label,使用tsne进行可视化。有一些交叉地方,使用knn分类发现评估集里面有一些错误的信息
-- 定量:对top q个热门的item,使用投票的knn(k=8)的作者的类型是否与item本身的作者类型一致,发现i2v比svd效果好,而且越长尾越好
-- 定性:评估4nn的结果
主流方法
-- 词聚类可以采用 kmeans 聚类,看聚类簇的分布
-- 词cos 相关性查找cos相近的词
-- Analogy对比a:b 与 c:d的cos距离 (man-king woman-queen )
-- 使用tnse,pca等降维可视化展示

词的分布,推荐用google的tensorboard,可以多视角查看,如果不想搭建服务,直接访问这里。另外可以用python的matplotlib。

工具和框架

gensim
GraphSAGE

性能

http://aial.shiroyagi.co.jp/2015/12/word2vec/

效率比较

todo

https://multithreaded.stitchfix.com/blog/2017/10/18/stop-using-word2vec/
这里有个其他的声音

上一篇 下一篇

猜你喜欢

热点阅读