聊聊DeepSeek V3中的混合专家模型（MoE）

置顶 Tadas-Gao

已于 2025-06-02 13:52:50 修改

阅读量991

点赞数 9

分类专栏：大模型文章标签：机器学习人工智能大模型

于 2025-06-01 17:23:54 首次发布

本文链接：https://blog.csdn.net/jsntghf/article/details/148368262

版权

大模型专栏收录该内容

32 篇文章

订阅专栏

既然提到大模型，可以先回顾一下：关于大模型的认知升级-CSDN博客

大模型的内核离不开Transformer，可以先回顾一下：Transformer 中的注意力机制很优秀吗？-CSDN博客

DeepSeek 为什么放弃稠密模型？

在深度学习领域，模型架构的选择直接影响着计算效率与性能表现。稠密模型(Dense Models)和混合专家模型(Mixture of Experts, MoE)代表了两种截然不同的设计思路，它们各有优势，适用于不同的应用场景。

稠密模型：全能型“诸葛亮”

稠密模型是深度学习中最传统也最普遍的架构类型，其核心特征是全连接（Dense Layer）——模型中的每个神经元都与下一层的所有神经元相连，形成密集的网络结构。

在稠密模型中，每个输入都会激活整个网络的所有参数。这种全连接的特性使其能够捕捉数据中复杂的非线性关系和深层次特征。典型的稠密模型包括传统的多层感知机(MLP)、卷积神经网络(CNN)以及大多数标准的Transformer模型。稠密模型的工作机制可以类比为培养一个“全能型人才”——就像三国时期的诸葛亮，需要精通军事、政治、天文、地理等各个领域，能够独立处理各种复杂问题。这种“全才”模式的优势在于模型具有强大的泛化能力和统一的特征表示，但同时也带来了巨大的计算开销。

稠密模型的局限性也很明显：

计算成本高昂：参数利用率低，每个输入都要计算全部参数，导致FLOPs(浮点运算次数)随模型规模呈平方级增长。训练一个5000亿参数的稠密模型可能需要约10亿美元的基础设施投入和5.3亿元的电费成本。
内存占用大：所有参数必须常驻内存，限制了模型在边缘设备上的部署能力。例如，1750亿参数的GPT-3稠密版本需要数百GB的显存才能运行。
效率瓶颈：随着模型规模扩大，性能提升的边际效益递减，出现“规模不经济”现象。研究表明，当稠密模型参数超过一定规模后，单位算力带来的性能提升显著降低。

MoE模型：专才协作的“臭皮匠团队”

混合专家模型(Mixture of Experts，MoE)采用了一种稀疏激活的架构设计，其核心思想是“分而治之”——将大型模型分解为多个专家子网络(Expert)，每个输入只激活其中的一小部分专家。

MoE模型的基本架构包含两个关键组件：

专家网络：通常是多个独立的前馈神经网络(FFN)，每个专家专门处理特定类型的输入。在Transformer架构中，MoE层会替代标准的FFN层。
路由机制：一个可学习的门控网络(Gating Network)决定每个输入应该分配给哪些专家。常见的策略有Top-k路由，即选择对当前输入最相关的k个专家。

MoE模型的工作机制可以用“三个臭皮匠，顶个诸葛亮”来形象理解——通过培养多个各有所长的专家（臭皮匠），再设计高效的协作机制（路由算法），使团队整体能力达到甚至超过全能型人才（诸葛亮）的水平。例如，在语言模型中，某些专家可能专精于数学计算，另一些则擅长文学创作，系统会根据输入问题类型自动调用最合适的专家组合。

MOE 模型的优势也很明显：

计算效率高：通过稀疏激活，MoE模型能够在保持总参数量巨大的同时，显著减少实际计算量。例如，源2.0-M32模型仅有37亿激活参数，却达到了700亿参数LLaMA3相当的性能，而推理算力需求仅为后者的1/194。
扩展性强：增加模型容量时只需添加更多专家，而不必担心计算成本线性增长。这使得构建万亿参数模型成为可能，如Google的Switch Transformer已成功训练了1.6万亿参数的MoE模型。
专业化分工：不同专家可以专注于输入数据的不同方面或模式，潜在提升了模型在特定子任务上的表现。例如，在多语言场景中，某些专家可能自然专注于特定语言的处理。

当然，MOE 模型同时具备了一些独特的挑战：

训练复杂度高：需要精心设计路由算法以避免专家之间负载不均衡，常见问题包括“专家僵化”(某些专家很少被激活)和“路由震荡”(路由决策不稳定)。
内存占用大：虽然计算是稀疏的，但所有专家参数仍需常驻内存。例如，Mixtral 8x7B模型虽然每次推理只激活14B参数，但仍需保存全部56B参数。
通信开销：在分布式训练中，专家可能需要部署在不同设备上，导致跨设备通信成为瓶颈。
微调困难：预训练后的MoE模型在特定任务上微调时，专家和路由网络可能需要不同的学习策略，调参更为复杂。

接下来，稍微展开一下 MOE 模型。

在在线推理场景下，响应速度至关重要，我们往往希望一次性将所有参数加载进同一张显卡里，避免频繁的数据交换导致时延上升，用户体验下滑。

然而，当模型规模变得庞大到一定程度，显存和算力的消耗都将直线上升。即使通过数据并行或张量并行可以解决训练阶段的部分压力，也难以在推理阶段保持同样的便利：频繁的跨卡数据交互会大幅拉长推理时延，成本也会迅速飙升。

更何况，一旦商业化落地，日益增长的用户请求量会进一步扩大算力开支。

这时候，如果依旧沿用传统稠密模型“所有参数全程激活、整块加载”的思路，就会出现效率低、耗费高、难扩容的困境。

在这一背景下，“分而治之”的混合专家模型便开始受到广泛关注。

它的思路是：与其让一个超大的稠密网络对所有 token 做统一计算，不如把网络拆分为多个“专家模块”，通过门控机制在推理过程中只启用与该 token 最相关的模块。这样就能实现“稀疏激活”：大模型整体依然保持巨量参数，但每一次推理需要真正访问和计算的参数规模被极大缩减。

DeepSeek V3 正是这一思路的典型应用。

在 DeepSeek V3 的每一层，都存在多个专家节点，其中包含两大类：路由专家（图中蓝色）和共享专家（图中绿色）。

核心思想：将模型分成多个“专家”，每个专家负责模型的某一特定领域或任务。每当有输入数据时，MoE模型并不是激活所有的专家，而是根据输入内容智能地选择并激活少数几个专家来进行处理，从而降低计算和内存的负担。

路由专家的主要功能是根据输入 token 的特征来选择激活的参数。

具体而言，当一个 token 进入该层时，会先经过一个门控机制（Gate），通过计算与不同路由专家的分数，选出得分最高的若干个专家进行计算，这种方式也被称作 Top-K 路由。

由于每次只激活部分路由专家，模型虽然规模庞大，但单次推理不必激活所有参数，单卡显存上限要求和计算开销因此大幅降低。

之所以能够实现“专才导向”的稀疏激活，是因为不同路由专家通常针对各自擅长的领域或功能进行了优化，比如自然语言理解、数学推理、代码生成等。

当 token 被分配到合适的专家节点后，会在该专家完成相应的计算，随后再与全局网络进行融合。这样，每个 token 只需依托最适合它的专家，而非从头到尾激活全量参数，就达到了稠密模型推理类似的目的。

与此同时，DeepSeek V3 还设置了一部分共享专家 (Shared Experts)，以获取和整合不同上下文或任务场景下的共通知识。这些共享专家在模型内部相当于“公共模块”，帮助减少那些原本可能重复出现在路由专家中的冗余参数。

通过把共享知识集中到这些共享专家中，既能提升模型对广泛背景信息的适应能力，也能进一步节省路由专家间的重复开销。

如果我们把传统稠密模型比作“所有人都排队到同一个大厅去办理各种业务”，MoE 架构就像是给大厅划分出若干独立的“专业柜台”，并设立了一个“门控调度中心”指导每位来访者去最合适的柜台办理业务。这样既能提高办理效率，也节省了资源，使模型能够在相同或有限的硬件条件下容纳更多参数，继续享受大规模带来的性能提升。

可以看出混合专家模型的专人专事模式会带来两个好处。

第一个好处是，提高了每个模型的专业性，这往往会带来模型表现的提升。
第二个作用是，降低了“用人标准”，也就是每个模型参数量的降低，减少单次推理成本。

简单的 MOE 实现

import torch
import torch.nn as nn
import torch.nn.functional as F


class MOE(nn.Module):
    def __init__(self, num_experts, input_dim, hidden_dim, output_dim):
        super(MOE, self).__init__()
        self.num_experts = num_experts
        self.input_dim = input_dim
        self.hidden_dim = hidden_dim
        self.output_dim = output_dim

        self.experts = nn.ModuleList([nn.Linear(input_dim, hidden_dim) for _ in range(num_experts)])
        self.gates = nn.Linear(input_dim, num_experts)

        self.output = nn.Linear(hidden_dim, output_dim)

    def forward(self, x):
        expert_outputs = []
        gate_outputs = []

        for i in range(self.num_experts):
            expert_outputs.append(F.relu(self.experts[i](x)))

        for i in range(self.num_experts):
            gate_outputs.append(F.softmax(self.gates(x), dim=1)[:, i].unsqueeze(1))

        expert_outputs = torch.stack(expert_outputs, dim=1)
        gate_outputs = torch.stack(gate_outputs, dim=1)

        weighted_expert_outputs = torch.sum(gate_outputs * expert_outputs, dim=1)
        output = self.output(weighted_expert_outputs)

        return output


# 示例用法
input_dim = 10
hidden_dim = 20
output_dim = 5
num_experts = 3

model = MOE(num_experts, input_dim, hidden_dim, output_dim)
input_data = torch.randn(32, input_dim)  # 输入数据维度为(32, input_dim)
output = model(input_data)
print(output)

以上是一个简单的MOE模型实现示例，其中包含输入层、隐层、输出层以及各自对应的Experts和Gates。在forward方法中，通过Experts和Gates计算加权输出，最终得到模型输出。您可以根据具体需求进行进一步的定制和调整。

DeepSeek 中的 MOE 是终局吗？

那么，DeepSeek 中的 MOE 是终局吗？从具身智能来看，并不是。

VLA 模型是什么？

具身智能的重要技术路径是视觉-语言-动作模型（VLA）。

视觉模型：视觉是人类获取信息最主要的途径之一，因此视觉技术在具身智能中起着至关重要的作用。视觉模型可以通过摄像头或传感器获取环境中的信息，包括物体的形状、颜色、位置等，并进行图像识别、目标检测等计算机视觉任务。
语言模型：语言是人类主要的沟通方式，具备语言理解和生成能力对于智能系统实现与人类交流至关重要。语言模型可以通过自然语言处理技术对文本信息进行分析，实现对语言指令、问题等的理解和生成。
动作模型：动作是智能系统与环境互动的方式，具备动作执行能力可以让系统实现自主移动、操作物体等功能。动作模型可以通过机器人学、控制理论等技术实现对动作规划、执行和优化。

在VLA模型中，视觉、语言和动作三个模块之间相互交互、互补，共同构成了一个完整的具身智能系统。通过视觉获取环境信息，通过语言理解用户指令和进行沟通，通过动作执行具体任务和与环境互动，从而实现智能系统对环境的感知、理解和行动。这种综合的VLA模型将使智能系统更加智能、自适应和具备更强的人类交互能力。

MOE 架构的下一代破局在哪里？

MOE 架构的下一代破局，其中一个来自ChatVLA：

双路由器设计

通过两个独立的专家路由器（一个用于视觉-文本任务，另一个用于机器人控制任务），模型能够根据输入数据的类型动态选择激活的专家路径。

设计动机

在多模态大模型（如视觉-语言-动作任务）中，不同类型的输入（如图像、文本、机器人传感器数据）需要差异化的处理路径。传统单一路由器可能因任务差异过大导致专家选择冲突或计算浪费。双路由器通过任务解耦实现精准的专家激活。

技术细节

视觉-文本路由器（Vision-Language Router）
- 输入：图像特征（CNN/ViT编码）和文本嵌入（如CLIP文本编码器输出）。
- 专家类型：激活的专家通常擅长跨模态对齐（如视觉问答、图像描述生成）、场景图推理或语义分割辅助任务。
- 动态路由：通过稀疏门控（Sparse Gating）计算输入与专家库的匹配度，例如使用Top-k策略（如k=1或2）选择最相关的专家。
- 示例场景：当输入是“图像+问题”时，路由器可能激活一个擅长视觉关系推理的专家和一个文本消歧专家。
机器人控制路由器（Robotic Control Router）
- 输入：机器人状态（如关节角度、力觉传感器）、环境观测（激光雷达/深度图）和可能的自然语言指令（如“拿起红色盒子”）。
- 专家类型：专精于运动规划、抓取姿态预测、避障或实时动作序列生成。
- 路由策略：可能结合强化学习中的策略网络（Policy Network）输出，动态调整专家权重以适应实时控制需求。

优势

任务隔离性：避免视觉-文本任务的高层语义分析与低层机器人控制的特征空间互相干扰。
计算效率：通过任务专属路由减少无关专家的激活，显著降低FLOPs（如机器人控制无需激活视觉问答专家）。
可扩展性：新增任务类型时可直接添加独立路由器，无需重构整体架构。

共享自注意力层

视觉-文本任务和机器人控制任务共享自注意力层（MHA），因为两者都需要对输入的高维特征进行建模。这种共享机制能够捕捉任务之间的共性，例如场景理解、物体识别和位置感知。

设计动机

尽管视觉-文本和机器人控制任务的目标不同，但它们底层均依赖对空间关系、物体属性及上下文的理解。共享自注意力层通过参数复用捕捉跨任务的共性特征，同时减少模型冗余。

技术实现

统一特征表示：
- 视觉输入通过Patch Embedding转换为序列，文本通过Token Embedding编码，机器人状态（如3D点云）可被处理为时空序列。
- 所有模态的序列输入共享同一组自注意力头的Key-Value矩阵，但允许Query向量根据任务类型动态调整（类似Prefix Tuning）。
共性特征捕捉：
- 空间感知：自注意力机制天然适合建模图像中物体的相对位置或机器人工作空间中的障碍物分布。
- 跨模态交互：视觉-文本任务中的“物体-描述”对齐与机器人任务中的“指令-环境”匹配可共享注意力权重（例如“红色盒子”在图像和现实抓取中均需被关注）。
动态适配机制：
- 在共享MHA后引入轻量级的任务特定适配器（Adapter），例如一个两层的MLP，对共享特征进行微调。
- 类似LoRA的低秩矩阵可被插入到注意力模块中，在不增加大量参数的情况下适配不同任务。

优势

知识迁移：视觉-文本任务预训练获得的场景理解能力（如物体关系）可直接提升机器人任务的表现。
参数效率：共享90%以上的注意力参数，仅需少量任务特定参数（适配器或路由网络）。
鲁棒性：多任务联合训练通过共享层隐式正则化，避免单一任务的过拟合。

协同工作流程示例

输入阶段：模型接收图像（厨房场景）、文本指令（“将杯子移到左边”）和机器人末端执行器状态。

路由决策：

视觉-文本路由器激活“物体检测专家”和“指令解析专家”。
机器人控制路由器激活“抓取规划专家”和“碰撞避免专家”。

共享MHA处理：

自注意力层同时计算图像中“杯子”与“左边”的空间关系，以及机器人末端与杯子当前位的相对距离。

输出生成：

视觉-文本路径生成验证结果（“已识别杯子在桌子右侧”）。
机器人路径输出动作序列（轨迹规划+夹持力控制）。

潜在挑战与解决方案

路由器冷启动：初期训练时路由器可能随机选择专家。解决方案：采用课程学习（Curriculum Learning），先预训练单任务专家再联合微调。
模态不平衡：机器人数据远少于视觉-文本数据。解决方案：对共享MHA采用梯度裁剪（Gradient Clipping），防止视觉任务主导优化方向。

ChatVLA在多个基准测试中展示了相对于现有LLM的竞争性能。值得注意的是，在VQA任务中，ChatVLA在TextVQA上实现了71.2的显著性能，这一成绩超越了多数现有大型语言模型（LLM）和多模态模型的性能，展现了其在处理复杂视觉-语言联合任务上的优势。

TextVQA任务中的优势

TextVQA任务要求模型理解图像中的文本信息并回答问题。ChatVLA在此任务中的高性能得益于以下改进：

视觉-语言对齐：模型通过联合训练优化了图像特征和文本特征的映射关系。
文本识别增强：集成了OCR（光学字符识别）技术，提升了对图像中文本的捕捉能力。
上下文建模：采用注意力机制动态关联问题与图像中的关键区域。

# 示例：ChatVLA的多模态输入处理
image_features = vision_encoder(image_input)
text_features = text_encoder(question_input)
combined_features = fusion_layer(image_features, text_features)
answer = language_model(combined_features)

与其他模型的对比

相比纯文本LLM（如GPT-4）或传统VQA模型（如LXMERT），ChatVLA在TextVQA上的性能提升显著：

GPT-4：依赖文本描述，无法直接解析图像中的文本细节。
LXMERT：在多模态交互上缺乏对文本区域的针对性优化。

关键差异总结

最后，关于 DeepSeek V3 中的 MOE 模型与 ChatVLA 中的 MOE 模型做个总结对比：

对比维度	ChatVLA 的 MOE	DeepSeek-V3 的 MOE
架构设计	双路由器（视觉-文本 & 机器人控制）	单路由器（全局路由）
专家类型	任务专用专家（视觉、文本、控制）	通用专家 + 共享专家（1共享+256路由专家）
激活参数占比	动态调整，取决于任务类型	每个 Token 激活 8 个专家（共 256），总激活参数 37B（671B 总参数）
路由机制	任务感知路由（双路由器独立决策）	无辅助损失负载均衡（直接调整门控分数）
计算效率	条件计算（仅激活相关专家）	稀疏激活（5%~10% 参数参与计算）
训练优化	共享自注意力层（MHA）	FP8 混合精度训练 + 多 Token 预测（MTP）
并行策略	任务级并行（视觉/控制分离）	专家并行（EP）+ 张量并行（TP）+ 数据并行（DP）
适用场景	多模态任务（视觉-语言-动作）	通用 NLP（代码、数学、多语言）
负载均衡	任务级均衡（不同路由器独立优化）	无辅助损失策略（避免梯度干扰）
推理优化	动态路径选择（任务相关）	冗余专家部署 + 动态路由（高吞吐推理）