5月推理大模型榜单|国产紧追,多个细分领域评分领先国外,字节航母(豆包)多项Top1!

【关键发现】
​​1.国产优势​​:除行政公务(openAI/Google并列第一)和语言领域(openAI第一)外,其余6个领域第一名均为国产模型
​​2.专精特长生​​:腾讯在医疗、金融领域领先
openAI/Google在推理计算和行政领域强势
深度求索在语言理解表现优异
​​3.性价比标杆​​:免费模型:GLM系列两款(医疗/金融场景适用)
极致低价:DeepSeek蒸馏模型(<0.5元)适合教育/语言任务


【评测模型】国内外主流推理类大模型
【评测集】​​推理与数学计算​​、语言与指令遵从、医疗等八大领域最新题集,低污染度,大模型“闭卷”考试实评;官网链接查看详细:https://nonelinear.com
【评测方式】官方API
【更多评测资讯】https://nonelinear.com

一、总分排名前五的模型
​​Doubao-1.5-thinking-pro(new)​​(排名1)
​​hunyuan-turbos-20250226​​(排名2)
​​DeepSeek-R1​​(排名3)
​​Qwen3-235B-A22B(new)​​(排名4)
​​ERNIE-X1-32K-Preview​​(排名5)

二、最低价格前五的模型
​​GLM-Z1-Flash(new)​​(0.0元/Mtokens)
​​GLM-Z1-9B-0414(new)​​(0.0元/Mtokens)
​​GLM-Z1-FlashX(new)​​(0.1元/Mtokens)
​​DeepSeek-R1-Distill-Qwen-1.5B​​(0.14元/Mtokens)
​​DeepSeek-R1-Distill-Qwen-7B​​(0.35元/Mtokens)

三、国内外厂商占比(总模型数36)
1.国内:33个,占比91.7%;国外:3个,占比8.3%
2.代表厂商;腾讯、阿里、百度、深度求索、智谱AI;Google、openAI

四、各细分领域得分前三模型(豆包多细分领域霸榜)
1. ​​医疗领域​​
hunyuan-turbos-20250226(91.0,腾讯)
Doubao-1.5-thinking-pro(new)(88.0,豆包)
hunyuan-turbos-20250313(86.9,腾讯)


2. ​​教育领域​​
Qwen3-235B-A22B(new)(89.7,阿里巴巴)
Doubao-1.5-thinking-pro(new)(92.6,豆包)
DeepSeek-R1(88.0,深度求索)


3. ​​金融领域​​
hunyuan-turbos-20250226(85.2,腾讯)
DeepSeek-R1(82.9,深度求索)
hunyuan-t1-20250321(81.2,腾讯)


4. ​​法律领域​​
Doubao-1.5-thinking-pro(new)(83.3,豆包)
hunyuan-turbos-20250226(82.6,腾讯)
ERNIE-X1-32K-Preview(77.8,百度)


5. ​​行政公务领域​​
o4-mini(new)(90.0,openAI)
gemini-2.5-pro-preview-03-25(90.0,Google)
Qwen3-235B-A22B(new)(90.0,阿里巴巴)
​​并列第一​​(三款模型均得90分)

6. ​​心理健康领域​​
hunyuan-turbos-20250313(72.9,腾讯)
Doubao-1.5-thinking-pro(new)(71.2,豆包)
hunyuan-t1-20250321(69.2,腾讯)


7. ​​推理与数学计算领域​​
o4-mini(new)(92.5,openAI)
gemini-2.5-pro-preview-03-25(86.7,Google)
Doubao-1.5-thinking-pro(new)(86.7,豆包)


8. ​​语言与指令遵从领域​​
o4-mini(new)(82.1,openAI)
gemini-2.5-pro-preview-03-25(80.6,Google)
DeepSeek-R1(83.4,深度求索)

****具体细分领域评分详细

法律.png
教育.png
金融.png
推理与数学计算.png
心理健康.png
语言与指令遵从.png
医疗.png
行政公务.png


【评测集、各个模型badcase、更多评测资讯】直达官网获取➡️https://nonelinear.com

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值