第四章 Embedding
2021-01-18 本文已影响0人
奔跑的考拉_zdpg
提问:
Embedding的理解
Embedding的作用,重要性
1 Embedding基础知识
什么是Embedding?
Embedding是用一个低维稠密的向量“表示”一个对象。
本质是:向量;
对象:可以是任何对象;
表示:意味着能够表达相应对象的某些特征,同时向量之间的距离反映了对象之间的相似性。
1.1 词向量 word2vec
Embedding 方法始于自然语言处理领域对于词向量生成问题的研究。
Embedding 相当于从另一个空间表达物品,同时揭示物品之间的潜在关系。
1.2 其他领域
除了对“词”进行向量化,也可以对其他领域的物品生成其向量化表示。
词向量:使用大量文本语料作为样本训练;
视频推荐:使用用户的观看序列作为视频的embedding化;
电商品台:使用用户的购买历史作为训练样本
1.3 embedding在深度学习领域的重要性
embedding 深度学习的“基础核心操作”
《1》推荐场景 “one-hot”编码,导致特征向量极度稀疏,深度学习结构特点bu li yu
《2》embedding可以作为特征向量
《3》embedding对物品,用户相似度的计算是常见的推荐系统召回技术。
局部敏感哈希:一种快速最近邻搜索技术,embedding适用于对海量备选物品进行“初筛”
1.4 经典的embedding方法 - word2vec
word2vec "word to vector",生成对“词”的向量表达的模型;
CBPW模型:基于假设每个词都跟其相邻的词关系最为密切,即每个词由其相邻的词决定;
输入:wt周围的词;输出:wt
skip-gram模型:每个词都决定了相邻的词;
输入