推荐embedding总结2

最新推荐文章于 2025-04-08 08:00:00 发布

serenysdfg

最新推荐文章于 2025-04-08 08:00:00 发布

阅读量710

点赞数

CC 4.0 BY-SA版权

分类专栏：推荐系统

本文链接：https://blog.csdn.net/serenysdfg/article/details/107474679

推荐系统专栏收录该内容

35 篇文章

订阅专栏

Graph Embedding

需要提供和序列采样出的类似的关系样本数据，只不过现在高了一个维度，于是整个样本构建的流程就变成了先按照业务关系构造图，然后从图采样到序列，再从序列采样到样本，才能作为Embedding训练模型的输入

Item2Vec 也通过商品的组合去生成商品的 Embedding，这里商品的组合也是序列式的，我们可以称他们为“Sequence Embedding”

更多场景下，数据对象之间更多以图（网络）的结构呈现，这种结构生成Embedding的方法，我们称之为图嵌入（Graph Embedding）。例如下图，由淘宝用户行为数据生成的物品关系图（Item Graph），更能捕获Items间的高维相似性

关键算法：

DeepWalk：重点解决的就是如何从图采样到序列

主要思想是在由物品组成的图结构上进行「随机游走（Random Walk）」，产生大量物品序列，然后将这些物品序列作为训练样本输入word2vec进行训练，得到物品的Embedding。

LINE

微软亚洲研究院在 2015 年发布的 LINE

LINE 可以应用于有向图、无向图以及边有权重的网络，并通过将一阶、二阶的邻近关系引入目标函数，能够使最终学出的 node embedding 的分布更为均衡平滑，避免 DeepWalk 容易使 node embedding 聚集的情况发生

端到端和非端到端的Embedding

将Embedding层与整个深度学习网络整合后一同进行训练更新，是有监督的可以与最终目标产生联系，但是维度大训练慢

但还是非常常见，高维稀疏特征向量天然不适合多层复杂神经网络的训练，因此如果使用深度学习模型处理高维稀疏特征向量，几乎都会在输入层到全连接层之间加入Embedding层完成高维稀疏特征向量到低维稠密特征向量的转换。一般为了节省训练时间，深度神经网络中的 Embedding 层往往是一个简单的高维向量向低维向量的直接映射

经典：微软的Deep Crossing模型、Wide&Deep模型（深度部分

「非端到端（预训练）」：预训练的方式得到的Embedding

将训练集中的词替换成事先训练好的向量表示放到网络中，就是一个非端到端的过程，因为学到一个好的的词向量表示，就能很好地挖掘出词之间的潜在关系

Embedding的训练往往独立于深度学习网络进行，在得到稀疏特征的稠密表达之后，再与其他特征一起输入神经网络进行训练。

Word2Vec，Doc2Vec，Item2Vec都是典型的非端到端的方法

FNN利用了FM训练得到的物品向量，作为Embedding层的初始化权重，从而加快了整个网络的收敛速度。在实际工程中，直接采用FM的物品向量作为Embedding特征向量输入到后续深度学习网络也是可行的办法。

2013年Facebook提出的著名的「GBDT+LR」的模型，其中GBDT的部分本质上也是完成了一次特征转换，可以看作是利用GBDT模型完成Embedding预训练之后，将Embedding输入单层神经网络进行CTR预估的过程。

2015年以来，随着大量Graph Embedding技术的发展，Embedding本身的表达能力进一步增强，而且能够将各类特征全部融合进Embedding之中，这使Embedding本身成为非常有价值的特征。这些特点都使Embedding预训练成为更被青睐的技术途径。

基于时序和基于集合

在Item2Vec中，样本数据可以有两种看待方式：

基于时序：前面item对后面item的产生有很大的影响

基于时序的示例比如视频网站的用户观看的视频序列，音乐网站用户听的歌曲序列。

基于集合：行为序列视为一个集合，共现在同一个集合的item就可以认为它们是相似的，然后视为正样本，不管它们是以什么样的顺序产生的，如果某两个item频繁共现，二者的Embedding则可能也很相似。

Embedding使用和好处

Embedding的这种携带语义信息以及保留嵌入实体间的潜在关系的特性，使Embedding有了更多用武之地，例如：

「计算相似度」，比如「man」和「woman」的相似度比「man」和「apple」的相似度高
「在一组单词中找出与众不同的一个」，例如在如下词汇列表中：「[dog, cat, chicken, boy]」，利用词向量可以识别出「boy」和其他三个词不是一类。
「直接进行词的运算」，例如经典的：「woman + king-man = queen」
「表征文本」，如累加得到一个文本的稠密向量，或平均表征一个更大的主体；
「方便聚类」，会得到比使用词向量聚类更好的语义聚类效果。
「由于携带了语义信息，还可以计算一段文字出现的可能性」，也就是说，这段文字是否「通顺」