【第四章:大模型(LLM)】01.Embedding is all you need-(6)从 Word2Vec 到推荐/广告系统,再到大语言模型(LLM)

第四章:大模型(LLM)

第一部分:Embedding is all you need

第六节:从 Word2Vec 到推荐/广告系统,再到大语言模型(LLM)


一、引言:一切的起点是“向量表达”

在自然语言处理中,词是离散的符号。传统方法使用 One-hot 编码 表示词语,维度高且无法表达词之间的语义关系。
Word2Vec 的出现,标志着从离散符号到稠密向量(Embedding)的里程碑跃迁。

向量化不仅让机器“理解”语言,还为后续推荐系统、广告排序、LLM 模型提供了统一的特征表达方式。Embedding 不仅仅是技术细节,它是现代人工智能表示学习的核心引擎。


二、Word2Vec:构建语义空间的起点

1. 基本原理

Word2Vec 包括两个训练目标:

模型输入输出预测特点
CBOW上下文词预测当前中心词适合大语料、高频词建模
Skip-Gram当前中心词预测上下文词适合小语料、低频词建模

2. 模型结构简化解释:

  • 词语通过 嵌入矩阵 W 映射为向量;

  • 然后计算概率分布(softmax)预测上下文;

  • 通过最大化 log-likelihood 进行训练;

  • 输出是一个词典中每个词对应的 稠密向量表示(embedding)


三、Embedding 在推荐系统中的应用

1. 核心思想:推荐系统也有“语言”

  • 用户行为序列 = 一个句子

  • 商品/内容 = 一个个“词”

  • 用户点击序列中的商品,也可用 Skip-Gram/CBOW 训练模型;

  • 得到的商品向量可用于相似度召回或冷启动补全。

2. 实际落地应用

案例1:淘宝推荐系统
  • 淘宝构建了商品点击序列,训练 item2vec;

  • 相似商品召回性能提升,Cold Start 问题减轻。

案例2:YouTube 推荐系统(Covington et al., 2016)
  • 利用用户历史行为 Embedding 得到 user vector;

  • 与 candidate item vector 做匹配(点积或 MLP);

  • 多阶段结构(候选召回 + 精排)均用到了 Embedding。

3. 多模态推荐

  • 使用文本 Embedding + 图像特征 Embedding;

  • 在视觉电商推荐中尤为常见;

  • 嵌入空间支持“跨模态”相似度计算。


四、广告系统中的Embedding表示

1. 问题背景

广告系统包含大量高维稀疏离散特征:

  • 用户属性(性别、年龄、兴趣标签);

  • 广告属性(广告主、品类、关键词);

  • 上下文(时间、设备、APP ID)。

使用 One-hot 编码维度极高,不适合直接进入模型。

2. 嵌入表示方法

  • 每个稀疏特征都有一个 Embedding Lookup 表;

  • 输入时映射为低维向量(如 16~64 维);

  • 多个 Embedding 向量拼接后进入神经网络。

3. 工程落地模型

模型名称特点
Wide & Deep线性模型 + 深层网络;支持记忆与泛化
DeepFMFM自动建交叉特征 + DNN特征提取
DIN / DIEN动态兴趣提取模型,基于用户行为序列
AutoInt注意力机制自动学习特征交叉


五、Embedding 到 LLM 的跃迁:统一的语义基础

1. Token Embedding 是 Transformer 的入口

Transformer 模型(如 BERT、GPT)将文本中的 token 映射为向量,这是模型的第一个计算步骤。

  • Token → Embedding Lookup;

  • 通常与 Position Embedding 相加后输入网络。

2. Positional Embedding

由于 Transformer 没有循环结构,需加位置信息。

  • Sinusoidal:固定函数构造;

  • Learnable:模型训练时自适应学习。

3. 从静态到动态的语义学习

模型特点
Word2Vec静态 Embedding,每个词语唯一向量
BERT上下文相关的动态向量表示(双向 Transformer)
GPT利用解码器结构动态生成文本与上下文语义

4. 应用场景迁移

  • 推荐系统使用上下文 Embedding 学习用户兴趣;

  • LLM 使用多层 Transformer 构造更复杂的上下文依赖;

  • 表示学习的思路不变,复杂度和上下文能力大幅提高。


六、从Word2Vec到LLM:演进路径总结

阶段模型特点与用途
词向量阶段Word2Vec学习词的语义空间表示
推荐/广告阶段item2vec, DeepFM用户/商品/广告等高维特征低维嵌入
表达式学习阶段BERT, GPT上下文相关的动态嵌入,支持复杂推理与生成
多模态通用阶段CLIP, BLIP图文联合嵌入,向大模型统一表示演进


七、小结:Embedding是AI的语言

从 Word2Vec 到推荐系统、广告排序、再到 GPT、ChatGPT、Gemini 等大语言模型,Embedding 技术一直是连接不同 AI 系统的桥梁。它不仅提升了表示能力,更为理解、推理、生成提供了统一的语义基础。

可以说:

“Embedding is not just a component; it is the soul of modern AI.”

### 关于 MetaSo Free API 和 LLM Red Team 的关系 MetaSo 是一个致力于提供开源大模型及相关工具的社区,而 LLM Red Team 则是一个专注于研究和测试大型语言模型安全性和性能的团队。LLM Red Team 提供了一个名为 **Free API** 的资源页面[^3],其中列出了多个免费可用的语言模型接口,这些接口可以用于开发、学习或实验目的。 Kimi 服务作为其中一个例子被提及,它是一种轻量级的服务实现方式,允许开发者通过简单的配置来调用远程的大规模语言模型(如 GPT 或其他替代品)。尽管具体的实现细节可能因安全性原因未完全公开,但从描述来看,它的功能设计与 MetaSo 所倡导的理念一致——即降低使用高质量 AI 工具的技术门槛[^1]。 对于更基础的需求场景,比如仅需搭建静态文件托管环境,则可利用编程环境中自带的功能快速启动小型 HTTP 服务器实例;例如,在 JavaScript 中可通过 `http-server` 模块完成此操作,而在 Python 下则有标准库中的 `http.server` 方法可供选用[^2]。不过这类简易方案通常更适合本地调试阶段而非生产部署情境下应用。 如果希望深入理解如何接入并有效运用上述提到的各种外部API资源至个人项目当中去的话,建议访问官方文档链接获取最新最全指导信息:[Kimi Service Tutorial](https://llm-red-team.github.io/free-api/freeapi/kimi/) 。此外还应注意遵循各平台设定好的配额限制以及隐私保护政策等方面的要求。 ```python import requests def call_kimi_api(api_key, prompt): url = "https://example.com/api/v1/generate" # Replace with actual URL headers = {"Authorization": f"Bearer {api_key}"} payload = { 'prompt': prompt, 'max_tokens': 50 } response = requests.post(url, json=payload, headers=headers) if response.status_code == 200: result = response.json() return result['text'] else: raise Exception(f"Request failed: {response.text}") # Example Usage try: output = call_kimi_api('your_api_key_here', 'Write a short story about...') print(output) except Exception as e: print(e) ```
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值