——文心 4.5、DeepSeek-V2 与 Qwen 3 全面大比拼
核心结论先行
整体实力:Qwen 3-235B 在综合基准分(MMLU 80.6 / C-Eval ≈ 88.4)略占优势,文心 4.5 紧随其后,在中文与多模态任务表现突出;DeepSeek-V2 以最低激活参数成本换取与 GPT-4o 相近的推理能力,并在代码/数学场景遥遥领先。
未来潜力:
生态:阿里云 + 淘系应用加持的 Qwen 拥有最大下游开发面。
模型路线:DeepSeek 的 MLA+MoE 框架最省显存,适合边缘部署。
产业落地:百度系 文心 拥抱政企与多模态搜索,有政策与流量护城河。
1. 模型概览
模型 | 组织 / 发布 | 架构 | 总参数* | 激活参数* | 最长上下文 | 训练语料 |
---|