报告下载丨SuperCLUE 中文大模型基准测评 2025 年 5 月报告

该报告聚焦 2025 年上半年中文大模型进展,通过 SuperCLUE 综合测评体系,对模型进行多维度评估。在数学、科学推理,代码生成、智能体、指令遵循及文本处理方面,设置 1579 道多轮简答题测试。结果显示,o4-mini (high) 总分领先,国内豆包 1.5・深度思考模型和商汤日日新 V6 并列国内第一。国内推理模型崭露头角,但指令遵循普遍弱于海外。部分开源小参数量模型潜力惊人,如 Qwen3 系列。总体上,国内外头部模型在中文通用能力差距缩小。其为行业清晰呈现模型发展格局,助力企业与研究人员了解模型优劣势,对选择合适模型、明确研发方向意义重大。

img

img

img

img

img

 

图片

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值