【关键发现】
1.国产优势:除行政公务(openAI/Google并列第一)和语言领域(openAI第一)外,其余6个领域第一名均为国产模型
2.专精特长生:腾讯在医疗、金融领域领先
openAI/Google在推理计算和行政领域强势
深度求索在语言理解表现优异
3.性价比标杆:免费模型:GLM系列两款(医疗/金融场景适用)
极致低价:DeepSeek蒸馏模型(<0.5元)适合教育/语言任务
【评测模型】国内外主流推理类大模型
【评测集】推理与数学计算、语言与指令遵从、医疗等八大领域最新题集,低污染度,大模型“闭卷”考试实评;官网链接查看详细:https://nonelinear.com
【评测方式】官方API
【更多评测资讯】https://nonelinear.com
一、总分排名前五的模型
Doubao-1.5-thinking-pro(new)(排名1)
hunyuan-turbos-20250226(排名2)
DeepSeek-R1(排名3)
Qwen3-235B-A22B(new)(排名4)
ERNIE-X1-32K-Preview(排名5)
二、最低价格前五的模型
GLM-Z1-Flash(new)(0.0元/Mtokens)
GLM-Z1-9B-0414(new)(0.0元/Mtokens)
GLM-Z1-FlashX(new)(0.1元/Mtokens)
DeepSeek-R1-Distill-Qwen-1.5B(0.14元/Mtokens)
DeepSeek-R1-Distill-Qwen-7B(0.35元/Mtokens)
三、国内外厂商占比(总模型数36)
1.国内:33个,占比91.7%;国外:3个,占比8.3%
2.代表厂商;腾讯、阿里、百度、深度求索、智谱AI;Google、openAI
四、各细分领域得分前三模型(豆包多细分领域霸榜)
1. 医疗领域
hunyuan-turbos-20250226(91.0,腾讯)
Doubao-1.5-thinking-pro(new)(88.0,豆包)
hunyuan-turbos-20250313(86.9,腾讯)
2. 教育领域
Qwen3-235B-A22B(new)(89.7,阿里巴巴)
Doubao-1.5-thinking-pro(new)(92.6,豆包)
DeepSeek-R1(88.0,深度求索)
3. 金融领域
hunyuan-turbos-20250226(85.2,腾讯)
DeepSeek-R1(82.9,深度求索)
hunyuan-t1-20250321(81.2,腾讯)
4. 法律领域
Doubao-1.5-thinking-pro(new)(83.3,豆包)
hunyuan-turbos-20250226(82.6,腾讯)
ERNIE-X1-32K-Preview(77.8,百度)
5. 行政公务领域
o4-mini(new)(90.0,openAI)
gemini-2.5-pro-preview-03-25(90.0,Google)
Qwen3-235B-A22B(new)(90.0,阿里巴巴)
并列第一(三款模型均得90分)
6. 心理健康领域
hunyuan-turbos-20250313(72.9,腾讯)
Doubao-1.5-thinking-pro(new)(71.2,豆包)
hunyuan-t1-20250321(69.2,腾讯)
7. 推理与数学计算领域
o4-mini(new)(92.5,openAI)
gemini-2.5-pro-preview-03-25(86.7,Google)
Doubao-1.5-thinking-pro(new)(86.7,豆包)
8. 语言与指令遵从领域
o4-mini(new)(82.1,openAI)
gemini-2.5-pro-preview-03-25(80.6,Google)
DeepSeek-R1(83.4,深度求索)
****具体细分领域评分详细
法律.png
教育.png
金融.png
推理与数学计算.png
心理健康.png
语言与指令遵从.png
医疗.png
行政公务.png
【评测集、各个模型badcase、更多评测资讯】直达官网获取➡️https://nonelinear.com