中国顶尖AI实验室与美国领先者的差距前所未有的缩小,领先优势从一年以上缩短至不到三个月
美国与中国:前沿语言模型智能发展趋势
人工分析智能指数包含7项评估:MMLU-Pro、GPQA钻石、人类终极考试、LiveCodeBench、SciCode、AIME、MATH-500。
注释:部分结果基于公司声明和可比结果估算 来源:人工分析智能指数
评论
自2022年ChatGPT发布以来,美国与中国前沿模型的性能差距一直存在,但目前已缩小到历史最小。
深度求索(DeepSeek)的开源权重模型R1(2025年5月)领先于中国其他AI实验室,而美国AI实验室发布的模型中,OpenAI的o3表现最佳。
中国前沿领域的进展主要由深度求索和阿里巴巴推动,而美国前沿领域的进步则主要由OpenAI主导。
2024年11月,随着阿里巴巴发布QwQ 32B预览版,中国开源权重前沿模型超越美国,R1模型进一步巩固了这一领先地位。
美国与中国:开源权重前沿语言模型智能发展趋势
人工分析智能指数包含7项评估:MMLU-Pro、GPQA钻石、人类终极考试、LiveCodeBench、SciCode、AIME、MATH-500。
注释:部分结果基于公司声明和可比结果估算 来源:人工分析智能指数
评论
2024年11月,随着QwQ 32B预览版的发布(超越Meta的Llama 3.1 405B),中国开源权重前沿模型超越美国。
中国AI实验室在开源权重领域的领先地位,反映出中国顶尖AI实验室通常会发布其旗舰模型权重的策略。这与美国顶尖AI实验室(如OpenAI、Anthropic和谷歌)通常不发布其领先模型权重的做法形成对比。
中国深度求索的R1(2025年1月)是首个可与OpenAI的o1竞争的开源权重推理模型。
深度求索的R1 0528(2025年5月)是目前可用的最智能的开源权重模型。
中国领先的AI实验室深度求索和阿里巴巴持续发布新模型,深度求索在2024年底占据领先地位。
中国领先AI实验室:语言模型智能发展趋势
人工分析智能指数包含7项评估:MMLU-Pro、GPQA钻石、人类终极考试、LiveCodeBench、SciCode、AIME、MATH-500。
注释:部分结果基于公司声明和可比结果估算 来源:人工分析智能指数
评论
截至2025年5月,深度求索R1 0528(2025年5月)作为中国AI实验室的领先模型,保持着对阿里巴巴Qwen3 235B A22B的智能优势。
两家公司都采用了开源权重策略,支持其模型在国内外的广泛应用。
在过去两年中,深度求索和阿里巴巴都频繁发布模型,新模型发布时间距上一次最多约3个月。
自2023年11月首次公开发布语言模型以来,深度求索的模型智能水平迅速提升。
深度求索模型发布时间线:人工分析智能指数
仅显示深度求索智能水平最高的通用模型,不包括特定任务模型。人工分析智能指数包含7项评估:MMLU-Pro、GPQA钻石、人类终极考试、LiveCodeBench、SciCode、AIME、MATH-500。
评论
随着R1–0528的发布,深度求索超越xAI、Meta和Anthropic,并列成为全球第二大AI实验室,并无可争议地成为开源权重领域的领导者。
R1-0528令人印象深刻的智能提升是通过训练后更新实现的,未改变原始V3/R1架构——它仍然是一个具有370亿活跃参数的6710亿规模大模型。
这凸显了训练后优化的重要性日益增加,尤其是对于使用强化学习(RL)技术训练的推理模型。
在美国,现在有多个AI领导者竞争者,OpenAI在前沿领域不再占据主导地位
美国领先AI实验室:语言模型智能发展趋势
人工分析智能指数包含7项评估:MMLU-Pro、GPQA钻石、人类终极考试、LiveCodeBench、SciCode、AIME、MATH-500。
注释:部分结果基于公司声明和可比结果估算 来源:人工分析智能指数
评论
OpenAI曾是AI智能前沿的明确领导者,但其领先优势已随着谷歌、xAI和Anthropic等实验室缩小差距而减弱。
截至2025年5月,OpenAI的o3是美国最智能的模型,也是整体最智能的模型。
中国有许多AI参与者,它们大致可分为三类
1. “大型科技”企业
中国现有的大型科技企业,本报告的重点,后续将深入分析。
-
阿里巴巴:大型电子商务企业和超大规模云服务提供商(阿里云),蚂蚁集团最大股东(纽约证券交易所代码:BABA,市值约3000亿美元)。
-
深度求索(DeepSeek)
-
字节跳动:抖音(TikTok)、今日头条和豆包(中国最大的AI聊天机器人,月活跃用户约6000万)的母公司,私营企业。
-
华为:全球电信领导者、超大规模云服务提供商,以及国内AI芯片半导体制造领导者,私营企业。
-
腾讯:拳头游戏和微信的母公司,中国“全能型”超级应用提供商,通过腾讯云提供超大规模云服务(香港交易所代码:700,市值约5750亿美元)。
-
百度:中国最大的搜索引擎,文心一言(月活跃用户约1300万)的运营者(纳斯达克代码:BIDU,市值约300亿美元)。
2. AI初创企业
专注于AI的小型公司。
-
深度求索(DeepSeek):源自High-Flyer(一家专注于AI的量化交易公司)的中国领先AI实验室,以DeepSeek R1闻名。
-
Moonshot AI
-
智谱AI(Zhipu AI):拥有200万汉字上下文窗口模型的中国AI新锐,热门AI聊天机器人Kimi(月活跃用户约1300万)的所有者,2019年从清华大学的一个研究项目剥离,坚定致力于开源权重模型。
-
MiniMax:中国首家开发1万亿参数模型的AI初创公司,由江大新(前微软亚洲研究院首席科学家)创立。
-
01.AI:由李开复(前谷歌中国负责人)创立,与阿里巴巴密切合作建立“工业大模型实验室”,专注于医疗AI模型。
3. 其他有AI野心的公司
其他科技企业
-
小米(香港交易所代码:1810,市值约1650亿美元):中国领先的消费电子品牌,挖走深度求索研究员罗福利运营AI实验室,最近发布了小型推理模型MiMo7B。
-
昆仑万维(深交所代码:300418,市值约55亿美元):总部位于北京的互联网集团,月活跃用户超过3亿,Opera浏览器所有者,推出了SkyWork AI模型和加速器。
-
360安全(奇虎360)(上交所代码:601360,市值约100亿美元):中国最大的互联网和移动安全提供商,以360 AI品牌推出了智脑系列模型。
-
科大讯飞(深交所代码:002230,市值约150亿美元):中国领先的语音AI公司,员工超过14000人,推出了星火系列模型。
-
美团(香港交易所代码:3690,市值约1100亿美元):中国顶级购物平台,日活跃用户超过6亿,联合创始人王慧文回归领导AI工作,是前沿实验室的投资者。
中国领先的“大型科技”公司都在追求前沿级AI模型,多家公司拥有用户超过1亿的消费级AI应用
中国“大型科技”公司深度描述
阿里巴巴 |
字节跳动 |
华为 |
腾讯 |
百度 | |
描述 |
大型电子商务企业和超大规模云服务提供商(阿里云),蚂蚁集团最大股东 |
抖音(TikTok)、今日头条和豆包(中国最大的AI聊天机器人,月活跃用户约6000万)的母公司 |
全球电信领导者、超大规模云服务提供商,国内AI芯片半导体制造领导者 |
拳头游戏和微信的母公司,通过腾讯云提供超大规模云服务 |
中国最大的搜索引擎,文心一言(月活跃用户约1300万)的运营者 |
AI战略(高层级) |
• 发布领先的开源模型(Qwen)和工具(ModelScope)<br>• 通过阿里云向其他企业提供模型推理服务 |
• 开发领先的专有模型(语言、图像和视频模态)<br>• 通过火山引擎(字节跳动的云服务)将模型集成到面向消费者的产品(TikTok、今日头条、豆包)中 |
• 构建AI基础设施(昇腾910C芯片)<br>• 开发专有系统(CloudMatrix 384)<br>• 通过华为云向其他企业提供模型推理和芯片租赁服务 |
• 专注于开发专有模型<br>• 将模型集成到面向消费者的聊天机器人(元宝)和微信中<br>• 通过百度云向其他企业提供模型推理服务 |
• 专注于开发专有模型<br>• 将模型集成到面向消费者的搜索产品和聊天机器人(文心一言,原ERNIE Bot)中<br>• 通过百度云向其他企业提供模型推理服务 |
最佳非推理LLM |
Qwen3-235B-A22B<br>智能值:47 |
豆包1.5 Pro<br>智能值:48* |
盘古5.0 Large 1 |
混元TurboS<br>智能值:47* |
ERNIE 4.5<br>智能值:46* |
最佳推理LLM |
Qwen3-235B-A22B(推理)<br>智能值:62 |
Seed-Thinking-v1.5<br>智能值:62* |
- |
混元T1<br>智能值:59* |
ERNIE X1<br>智能值:60* |
消费应用 |
通义千问(~1.5亿月活) |
豆包(~1.1亿月活) |
小艺(~2亿月活) |
元宝、元启(~4000万月活) |
文心一言、文心一格(~1300万月活) |
市值(美元) |
~3000亿 |
私营 |
私营 |
~5750亿 |
~300亿 |
1. 无公开发布的基准测试或国际API;*基于公司声明和可用可比结果估算,尚未由人工分析独立基准测试
中国拥有一个资金充足的AI实验室初创企业生态系统,许多企业获得了中国“大型科技”企业的资金支持。
中国初创企业深度描述
深度求索 |
智谱AI |
StepFun(阶跃星辰) |
MiniMax |
01.AI |
百川智能 | |
描述 |
2023年5月成立,源自High-Flyer(一家专注于AI的量化交易公司)的中国领先AI实验室,以DeepSeek R1闻名<br>知名投资者:小红书(Rednote) |
2023年3月成立,拥有200万汉字上下文窗口模型的中国AI新锐,热门AI聊天机器人Kimi(~1300万月活)的所有者<br>2019年从清华大学研究项目剥离,坚定致力于开源权重模型 |
2019年6月成立,中国首家开发1万亿参数模型的AI初创公司,由江大新(前微软亚洲研究院首席科学家)创立 |
2023年4月成立,中国AI新锐,Talkie AI应用发行商(2024年上半年美国下载量第四的应用) |
2021年12月成立,由李开复(前谷歌中国负责人)创立,与阿里巴巴密切合作建立“工业大模型实验室”,专注于医疗AI模型 |
2023年3月成立 |
最佳非推理LLM |
DeepSeek V3<br>智能值:52 |
GLM-4-32B<br>智能值:46 |
Step-2<br>智能值:44 |
MiniMax-Text-01<br>智能值:40 |
Yi-Lightning<br>智能值:37* |
百川4<br>智能值:31* |
最佳推理LLM |
DeepSeek R1<br>智能值:68 |
GLM-Z1-32B<br>智能值:56 |
Step-R1-V-Mini<br>智能值:55* |
- |
- |
百川M1<br>智能值:52* |
消费应用 |
DeepSeek Chat(~1亿月活) |
Kimi(~2500万月活) |
ChatGLM(~900万月活) |
Yuewen, PopDuck(<100万月活) |
Talkie AI(~3500万月活) |
YiChat, 白小英(<100万月活) |
融资额(美元) |
未披露 ~16亿 |
~11亿 |
未披露 |
~8.5亿 ~2亿 |
~10亿 |
尽管美国AI实验室在智能前沿保持整体领先,但中国AI实验室已不再遥不可及
中国和美国实验室的领先语言模型(非详尽列表)
人工分析智能指数包含7项评估:MMLU-Pro、GPQA钻石、人类终极考试、LiveCodeBench、SciCode、AIME、MATH-500。
如今的开源权重前沿由深度求索主导(包括推理和非推理模型)
推理:按国家划分的开源权重语言模型 人工分析智能指数,领先的开源权重推理模型
非推理:按国家划分的开源权重语言模型 人工分析智能指数,领先的开源权重非推理模型
中国公司在所有主要现代AI模态中均有布局——包括语言模型和所有类型的媒体生成模型
每个模态的领先模型(按公司)
包括2024年1月以来发布的模型,非详尽列表 来源:媒体搜索。
公司 |
推理 |
非推理 |
文本转语音 |
语音 |
图像生成 |
视频生成 |
3D生成 | |
“大型科技”企业 |
阿里巴巴 |
Qwen3 235B A23B |
Qwen2.5 Omni |
Wan 2.1 |
LHM | |||
百度 |
ERNIE X1 |
ERNIE 4.5 |
- |
- |
I-RAG |
UniVG |
西陵 | |
字节跳动 |
Seed-Thinking-v1.5 |
豆包-1.5-pro |
Seed-TTS |
豆包-1.5-pro |
Seedream 3.0 |
Seaweed-7B |
ImageDream | |
华为 |
盘古Ultra MoE |
盘古5.0 |
- |
- |
PixArt |
- |
- | |
腾讯 |
混元-T1 |
混元-TurboS |
- |
- |
混元DiT |
混元Video |
混元3D | |
AI初创企业 |
深度求索 |
DeepSeek R1 |
DeepSeek V3 |
- |
- |
Janus Pro 7B |
- |
- |
MoonShot AI |
Kimi k1.5 |
Moonshot-v1 |
- |
Kimi-Audio |
- |
- |
- | |
智谱AI |
Glm-z1-32b |
Glm-4-32b |
- |
- |
CogView4 |
CogVideo |
- | |
Stepfun |
Step-R1-V-Mini |
Step-2 |
Step-audio |
Step-1x |
StepVideo T2V |
Step1X 3D | ||
MiniMax |
- |
MiniMax-Text-01 |
Speech-02 HD |
- |
Image-01 |
Video-01 |
- | |
01.AI |
- |
Yi-Lightning |
- |
- |
- |
- |
- | |
百川智能 |
Baichuan-M1 |
百川4 |
Baichuan-Audio |
- |
- |
- |
中美文本生成图像模型质量在2025年达到 parity
领先的文本生成图像模型,人工分析竞技场ELO值 来自人工分析图像竞技场的文本生成图像模型ELO值
评论
中国和美国在文本生成图像领域实际达到 parity,OpenAI的GPT-4o比字节跳动的Seedream 3.0保持4分的ELO领先优势。
与语言模型领域由中美主导不同,文本生成图像领域的领先者来自广泛的地域,由专注于图像模型的小型初创公司推动。
一些较旧的模型在面对新发布模型时仍表现良好,表明其创新速度慢于语言模型,例如Recraft V3(2024年10月)尽管有新进入者,仍保持显著竞争力。
文本生成视频领域由中美实验室主导,谷歌的Veo 3以较大优势领先该类别
领先的文本生成视频模型,人工分析视频竞技场ELO值 来自人工分析视频竞技场的文本生成视频模型ELO值
评论
-
美国在文本生成视频模型领域保持领先,谷歌的Veo 3预览版在人工分析视频竞技场中的ELO值显著高于快手的Kling 2.0。
-
中国公司在文本生成视频领域具有广泛竞争力,深度求索和阿里巴巴等实验室的表现与OpenAI和Pika相当。
图像生成视频模型ELO值,人工分析视频竞技场ELO值 来自人工分析视频竞技场的文本生成视频模型ELO值
图像生成视频领域由美国主导,谷歌的Veo 3最近超越了快手的Kling 2.0和Runway Gen 4
评论
谷歌的Veo 3预览版在图像生成视频质量上保持小幅领先,在人工分析视频竞技场中超越了快手的Kling 2.0和Runway的Gen 4。
视频生成模型的质量在输入模态之间可能存在显著差异,例如Sora等一些模型在文本生成视频任务中表现出色,但在图像生成视频任务中表现不佳。
最近出现了仅发布具有图像生成视频能力的视频生成模型的趋势,如Runway Gen 4和Pika 2.2。