【第四章:大模型（LLM)】01.Embedding is all you need-(6)从 Word2Vec 到推荐/广告系统，再到大语言模型（LLM）

原创于 2025-07-25 11:18:09 发布 · 552 阅读

3 ·

CC 4.0 BY-SA版权

文章标签：

#embedding #word2vec #语言模型

人工智能课程专栏收录该内容

48 篇文章

订阅专栏

第四章：大模型（LLM）

第一部分：Embedding is all you need

第六节：从 Word2Vec 到推荐/广告系统，再到大语言模型（LLM）

一、引言：一切的起点是“向量表达”

在自然语言处理中，词是离散的符号。传统方法使用 One-hot 编码 表示词语，维度高且无法表达词之间的语义关系。
Word2Vec 的出现，标志着从离散符号到稠密向量（Embedding）的里程碑跃迁。

向量化不仅让机器“理解”语言，还为后续推荐系统、广告排序、LLM 模型提供了统一的特征表达方式。Embedding 不仅仅是技术细节，它是现代人工智能表示学习的核心引擎。

二、Word2Vec：构建语义空间的起点

1. 基本原理

Word2Vec 包括两个训练目标：

模型	输入	输出预测	特点
CBOW	上下文词	预测当前中心词	适合大语料、高频词建模
Skip-Gram	当前中心词	预测上下文词	适合小语料、低频词建模

2. 模型结构简化解释：

词语通过 嵌入矩阵 W 映射为向量；
然后计算概率分布（softmax）预测上下文；
通过最大化 log-likelihood 进行训练；
输出是一个词典中每个词对应的 稠密向量表示（embedding）。

三、Embedding 在推荐系统中的应用

1. 核心思想：推荐系统也有“语言”

用户行为序列 = 一个句子；
商品/内容 = 一个个“词”；
用户点击序列中的商品，也可用 Skip-Gram/CBOW 训练模型；
得到的商品向量可用于相似度召回或冷启动补全。

2. 实际落地应用

案例1：淘宝推荐系统

淘宝构建了商品点击序列，训练 item2vec；
相似商品召回性能提升，Cold Start 问题减轻。

案例2：YouTube 推荐系统（Covington et al., 2016）

利用用户历史行为 Embedding 得到 user vector；
与 candidate item vector 做匹配（点积或 MLP）；
多阶段结构（候选召回 + 精排）均用到了 Embedding。

3. 多模态推荐

使用文本 Embedding + 图像特征 Embedding；
在视觉电商推荐中尤为常见；
嵌入空间支持“跨模态”相似度计算。

四、广告系统中的Embedding表示

1. 问题背景

广告系统包含大量高维稀疏离散特征：

用户属性（性别、年龄、兴趣标签）；
广告属性（广告主、品类、关键词）；
上下文（时间、设备、APP ID）。

使用 One-hot 编码维度极高，不适合直接进入模型。

2. 嵌入表示方法

每个稀疏特征都有一个 Embedding Lookup 表；
输入时映射为低维向量（如 16~64 维）；
多个 Embedding 向量拼接后进入神经网络。

3. 工程落地模型

模型名称	特点
Wide & Deep	线性模型 + 深层网络；支持记忆与泛化
DeepFM	FM自动建交叉特征 + DNN特征提取
DIN / DIEN	动态兴趣提取模型，基于用户行为序列
AutoInt	注意力机制自动学习特征交叉

五、Embedding 到 LLM 的跃迁：统一的语义基础

1. Token Embedding 是 Transformer 的入口

Transformer 模型（如 BERT、GPT）将文本中的 token 映射为向量，这是模型的第一个计算步骤。

Token → Embedding Lookup；
通常与 Position Embedding 相加后输入网络。

2. Positional Embedding

由于 Transformer 没有循环结构，需加位置信息。

Sinusoidal：固定函数构造；
Learnable：模型训练时自适应学习。

3. 从静态到动态的语义学习

模型	特点
Word2Vec	静态 Embedding，每个词语唯一向量
BERT	上下文相关的动态向量表示（双向 Transformer）
GPT	利用解码器结构动态生成文本与上下文语义

4. 应用场景迁移

推荐系统使用上下文 Embedding 学习用户兴趣；
LLM 使用多层 Transformer 构造更复杂的上下文依赖；
表示学习的思路不变，复杂度和上下文能力大幅提高。

六、从Word2Vec到LLM：演进路径总结

阶段	模型	特点与用途
词向量阶段	Word2Vec	学习词的语义空间表示
推荐/广告阶段	item2vec, DeepFM	用户/商品/广告等高维特征低维嵌入
表达式学习阶段	BERT, GPT	上下文相关的动态嵌入，支持复杂推理与生成
多模态通用阶段	CLIP, BLIP	图文联合嵌入，向大模型统一表示演进