人工智能分析:国内AI现状2025年Q2亮点报告

中国顶尖AI实验室与美国领先者的差距前所未有的缩小,领先优势从一年以上缩短至不到三个月

美国与中国:前沿语言模型智能发展趋势

人工分析智能指数包含7项评估:MMLU-Pro、GPQA钻石、人类终极考试、LiveCodeBench、SciCode、AIME、MATH-500。

注释:部分结果基于公司声明和可比结果估算 来源:人工分析智能指数
评论

自2022年ChatGPT发布以来,美国与中国前沿模型的性能差距一直存在,但目前已缩小到历史最小。

深度求索(DeepSeek)的开源权重模型R1(2025年5月)领先于中国其他AI实验室,而美国AI实验室发布的模型中,OpenAI的o3表现最佳。

中国前沿领域的进展主要由深度求索和阿里巴巴推动,而美国前沿领域的进步则主要由OpenAI主导。

2024年11月,随着阿里巴巴发布QwQ 32B预览版,中国开源权重前沿模型超越美国,R1模型进一步巩固了这一领先地位。

美国与中国:开源权重前沿语言模型智能发展趋势

人工分析智能指数包含7项评估:MMLU-Pro、GPQA钻石、人类终极考试、LiveCodeBench、SciCode、AIME、MATH-500。

注释:部分结果基于公司声明和可比结果估算 来源:人工分析智能指数
评论

2024年11月,随着QwQ 32B预览版的发布(超越Meta的Llama 3.1 405B),中国开源权重前沿模型超越美国。

中国AI实验室在开源权重领域的领先地位,反映出中国顶尖AI实验室通常会发布其旗舰模型权重的策略。这与美国顶尖AI实验室(如OpenAI、Anthropic和谷歌)通常不发布其领先模型权重的做法形成对比。

中国深度求索的R1(2025年1月)是首个可与OpenAI的o1竞争的开源权重推理模型。

深度求索的R1 0528(2025年5月)是目前可用的最智能的开源权重模型。

中国领先的AI实验室深度求索和阿里巴巴持续发布新模型,深度求索在2024年底占据领先地位。

中国领先AI实验室:语言模型智能发展趋势

人工分析智能指数包含7项评估:MMLU-Pro、GPQA钻石、人类终极考试、LiveCodeBench、SciCode、AIME、MATH-500。

注释:部分结果基于公司声明和可比结果估算 来源:人工分析智能指数
评论

截至2025年5月,深度求索R1 0528(2025年5月)作为中国AI实验室的领先模型,保持着对阿里巴巴Qwen3 235B A22B的智能优势。

两家公司都采用了开源权重策略,支持其模型在国内外的广泛应用。

在过去两年中,深度求索和阿里巴巴都频繁发布模型,新模型发布时间距上一次最多约3个月。

自2023年11月首次公开发布语言模型以来,深度求索的模型智能水平迅速提升。

深度求索模型发布时间线:人工分析智能指数

仅显示深度求索智能水平最高的通用模型,不包括特定任务模型。人工分析智能指数包含7项评估:MMLU-Pro、GPQA钻石、人类终极考试、LiveCodeBench、SciCode、AIME、MATH-500。

评论

随着R1–0528的发布,深度求索超越xAI、Meta和Anthropic,并列成为全球第二大AI实验室,并无可争议地成为开源权重领域的领导者。

R1-0528令人印象深刻的智能提升是通过训练后更新实现的,未改变原始V3/R1架构——它仍然是一个具有370亿活跃参数的6710亿规模大模型。

这凸显了训练后优化的重要性日益增加,尤其是对于使用强化学习(RL)技术训练的推理模型。

在美国,现在有多个AI领导者竞争者,OpenAI在前沿领域不再占据主导地位
美国领先AI实验室:语言模型智能发展趋势

人工分析智能指数包含7项评估:MMLU-Pro、GPQA钻石、人类终极考试、LiveCodeBench、SciCode、AIME、MATH-500。

注释:部分结果基于公司声明和可比结果估算 来源:人工分析智能指数
评论

OpenAI曾是AI智能前沿的明确领导者,但其领先优势已随着谷歌、xAI和Anthropic等实验室缩小差距而减弱。

截至2025年5月,OpenAI的o3是美国最智能的模型,也是整体最智能的模型。

中国有许多AI参与者,它们大致可分为三类

1. “大型科技”企业

中国现有的大型科技企业,本报告的重点,后续将深入分析。

  • 阿里巴巴:大型电子商务企业和超大规模云服务提供商(阿里云),蚂蚁集团最大股东(纽约证券交易所代码:BABA,市值约3000亿美元)。

  • 深度求索(DeepSeek)

  • 字节跳动:抖音(TikTok)、今日头条和豆包(中国最大的AI聊天机器人,月活跃用户约6000万)的母公司,私营企业。

  • 华为:全球电信领导者、超大规模云服务提供商,以及国内AI芯片半导体制造领导者,私营企业。

  • 腾讯:拳头游戏和微信的母公司,中国“全能型”超级应用提供商,通过腾讯云提供超大规模云服务(香港交易所代码:700,市值约5750亿美元)。

  • 百度:中国最大的搜索引擎,文心一言(月活跃用户约1300万)的运营者(纳斯达克代码:BIDU,市值约300亿美元)。

2. AI初创企业

专注于AI的小型公司。

  • 深度求索(DeepSeek):源自High-Flyer(一家专注于AI的量化交易公司)的中国领先AI实验室,以DeepSeek R1闻名。

  • Moonshot AI

  • 智谱AI(Zhipu AI):拥有200万汉字上下文窗口模型的中国AI新锐,热门AI聊天机器人Kimi(月活跃用户约1300万)的所有者,2019年从清华大学的一个研究项目剥离,坚定致力于开源权重模型。

  • MiniMax:中国首家开发1万亿参数模型的AI初创公司,由江大新(前微软亚洲研究院首席科学家)创立。

  • 01.AI:由李开复(前谷歌中国负责人)创立,与阿里巴巴密切合作建立“工业大模型实验室”,专注于医疗AI模型。

3. 其他有AI野心的公司
其他科技企业
  • 小米(香港交易所代码:1810,市值约1650亿美元):中国领先的消费电子品牌,挖走深度求索研究员罗福利运营AI实验室,最近发布了小型推理模型MiMo7B。

  • 昆仑万维(深交所代码:300418,市值约55亿美元):总部位于北京的互联网集团,月活跃用户超过3亿,Opera浏览器所有者,推出了SkyWork AI模型和加速器。

  • 360安全(奇虎360)(上交所代码:601360,市值约100亿美元):中国最大的互联网和移动安全提供商,以360 AI品牌推出了智脑系列模型。

  • 科大讯飞(深交所代码:002230,市值约150亿美元):中国领先的语音AI公司,员工超过14000人,推出了星火系列模型。

  • 美团(香港交易所代码:3690,市值约1100亿美元):中国顶级购物平台,日活跃用户超过6亿,联合创始人王慧文回归领导AI工作,是前沿实验室的投资者。

中国领先的“大型科技”公司都在追求前沿级AI模型,多家公司拥有用户超过1亿的消费级AI应用

中国“大型科技”公司深度描述

阿里巴巴

字节跳动

华为

腾讯

百度

描述

大型电子商务企业和超大规模云服务提供商(阿里云),蚂蚁集团最大股东

抖音(TikTok)、今日头条和豆包(中国最大的AI聊天机器人,月活跃用户约6000万)的母公司

全球电信领导者、超大规模云服务提供商,国内AI芯片半导体制造领导者

拳头游戏和微信的母公司,通过腾讯云提供超大规模云服务

中国最大的搜索引擎,文心一言(月活跃用户约1300万)的运营者

AI战略(高层级)

• 发布领先的开源模型(Qwen)和工具(ModelScope)<br>• 通过阿里云向其他企业提供模型推理服务

• 开发领先的专有模型(语言、图像和视频模态)<br>• 通过火山引擎(字节跳动的云服务)将模型集成到面向消费者的产品(TikTok、今日头条、豆包)中

• 构建AI基础设施(昇腾910C芯片)<br>• 开发专有系统(CloudMatrix 384)<br>• 通过华为云向其他企业提供模型推理和芯片租赁服务

• 专注于开发专有模型<br>• 将模型集成到面向消费者的聊天机器人(元宝)和微信中<br>• 通过百度云向其他企业提供模型推理服务

• 专注于开发专有模型<br>• 将模型集成到面向消费者的搜索产品和聊天机器人(文心一言,原ERNIE Bot)中<br>• 通过百度云向其他企业提供模型推理服务

最佳非推理LLM

Qwen3-235B-A22B<br>智能值:47

豆包1.5 Pro<br>智能值:48*

盘古5.0 Large 1

混元TurboS<br>智能值:47*

ERNIE 4.5<br>智能值:46*

最佳推理LLM

Qwen3-235B-A22B(推理)<br>智能值:62

Seed-Thinking-v1.5<br>智能值:62*

-

混元T1<br>智能值:59*

ERNIE X1<br>智能值:60*

消费应用

通义千问(~1.5亿月活)

豆包(~1.1亿月活)

小艺(~2亿月活)

元宝、元启(~4000万月活)

文心一言、文心一格(~1300万月活)

市值(美元)

~3000亿

私营

私营

~5750亿

~300亿

1. 无公开发布的基准测试或国际API;*基于公司声明和可用可比结果估算,尚未由人工分析独立基准测试

中国拥有一个资金充足的AI实验室初创企业生态系统,许多企业获得了中国“大型科技”企业的资金支持。

中国初创企业深度描述

深度求索

智谱AI

StepFun(阶跃星辰)

MiniMax

01.AI

百川智能

描述

2023年5月成立,源自High-Flyer(一家专注于AI的量化交易公司)的中国领先AI实验室,以DeepSeek R1闻名<br>知名投资者:小红书(Rednote)

2023年3月成立,拥有200万汉字上下文窗口模型的中国AI新锐,热门AI聊天机器人Kimi(~1300万月活)的所有者<br>2019年从清华大学研究项目剥离,坚定致力于开源权重模型

2019年6月成立,中国首家开发1万亿参数模型的AI初创公司,由江大新(前微软亚洲研究院首席科学家)创立

2023年4月成立,中国AI新锐,Talkie AI应用发行商(2024年上半年美国下载量第四的应用)

2021年12月成立,由李开复(前谷歌中国负责人)创立,与阿里巴巴密切合作建立“工业大模型实验室”,专注于医疗AI模型

2023年3月成立

最佳非推理LLM

DeepSeek V3<br>智能值:52

GLM-4-32B<br>智能值:46

Step-2<br>智能值:44

MiniMax-Text-01<br>智能值:40

Yi-Lightning<br>智能值:37*

百川4<br>智能值:31*

最佳推理LLM

DeepSeek R1<br>智能值:68

GLM-Z1-32B<br>智能值:56

Step-R1-V-Mini<br>智能值:55*

-

-

百川M1<br>智能值:52*

消费应用

DeepSeek Chat(~1亿月活)

Kimi(~2500万月活)

ChatGLM(~900万月活)

Yuewen, PopDuck(<100万月活)

Talkie AI(~3500万月活)

YiChat, 白小英(<100万月活)

融资额(美元)

未披露 ~16亿

~11亿

未披露

~8.5亿 ~2亿

~10亿

尽管美国AI实验室在智能前沿保持整体领先,但中国AI实验室已不再遥不可及

中国和美国实验室的领先语言模型(非详尽列表)

人工分析智能指数包含7项评估:MMLU-Pro、GPQA钻石、人类终极考试、LiveCodeBench、SciCode、AIME、MATH-500。

如今的开源权重前沿由深度求索主导(包括推理和非推理模型)
推理:按国家划分的开源权重语言模型 人工分析智能指数,领先的开源权重推理模型

非推理:按国家划分的开源权重语言模型 人工分析智能指数,领先的开源权重非推理模型

中国公司在所有主要现代AI模态中均有布局——包括语言模型和所有类型的媒体生成模型

每个模态的领先模型(按公司)

包括2024年1月以来发布的模型,非详尽列表 来源:媒体搜索。

公司

推理

非推理

文本转语音

语音

图像生成

视频生成

3D生成

“大型科技”企业

阿里巴巴

Qwen3 235B A23B

Qwen2.5 Omni

Wan 2.1

LHM

百度

ERNIE X1

ERNIE 4.5

-

-

I-RAG

UniVG

西陵

字节跳动

Seed-Thinking-v1.5

豆包-1.5-pro

Seed-TTS

豆包-1.5-pro

Seedream 3.0

Seaweed-7B

ImageDream

华为

盘古Ultra MoE

盘古5.0

-

-

PixArt

-

-

腾讯

混元-T1

混元-TurboS

-

-

混元DiT

混元Video

混元3D

AI初创企业

深度求索

DeepSeek R1

DeepSeek V3

-

-

Janus Pro 7B

-

-

MoonShot AI

Kimi k1.5

Moonshot-v1

-

Kimi-Audio

-

-

-

智谱AI

Glm-z1-32b

Glm-4-32b

-

-

CogView4

CogVideo

-

Stepfun

Step-R1-V-Mini

Step-2

Step-audio

Step-1x

StepVideo T2V

Step1X 3D

MiniMax

-

MiniMax-Text-01

Speech-02 HD

-

Image-01

Video-01

-

01.AI

-

Yi-Lightning

-

-

-

-

-

百川智能

Baichuan-M1

百川4

Baichuan-Audio

-

-

-

中美文本生成图像模型质量在2025年达到 parity

领先的文本生成图像模型,人工分析竞技场ELO值 来自人工分析图像竞技场的文本生成图像模型ELO值
评论

中国和美国在文本生成图像领域实际达到 parity,OpenAI的GPT-4o比字节跳动的Seedream 3.0保持4分的ELO领先优势。

与语言模型领域由中美主导不同,文本生成图像领域的领先者来自广泛的地域,由专注于图像模型的小型初创公司推动。

一些较旧的模型在面对新发布模型时仍表现良好,表明其创新速度慢于语言模型,例如Recraft V3(2024年10月)尽管有新进入者,仍保持显著竞争力。

文本生成视频领域由中美实验室主导,谷歌的Veo 3以较大优势领先该类别

领先的文本生成视频模型,人工分析视频竞技场ELO值 来自人工分析视频竞技场的文本生成视频模型ELO值

评论
  • 美国在文本生成视频模型领域保持领先,谷歌的Veo 3预览版在人工分析视频竞技场中的ELO值显著高于快手的Kling 2.0。

  • 中国公司在文本生成视频领域具有广泛竞争力,深度求索和阿里巴巴等实验室的表现与OpenAI和Pika相当。

图像生成视频模型ELO值,人工分析视频竞技场ELO值 来自人工分析视频竞技场的文本生成视频模型ELO值

图像生成视频领域由美国主导,谷歌的Veo 3最近超越了快手的Kling 2.0和Runway Gen 4
评论

谷歌的Veo 3预览版在图像生成视频质量上保持小幅领先,在人工分析视频竞技场中超越了快手的Kling 2.0和Runway的Gen 4。

视频生成模型的质量在输入模态之间可能存在显著差异,例如Sora等一些模型在文本生成视频任务中表现出色,但在图像生成视频任务中表现不佳。

最近出现了仅发布具有图像生成视频能力的视频生成模型的趋势,如Runway Gen 4和Pika 2.2。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值