花了50 美元,测试大模型大海捞针能力,Qwen3_14B太惊艳了

大家好,我是Ai学习的老章

Reddit看到一个帖子:104个量化模型在大海捞针测试中的表现

作者在 H·G·威尔斯的《时间机器》中插入了几段荒谬对话,测试文本长达 1 万词元(约覆盖小说前 5 章内容),并附带简短系统提示要求大模型定位这些荒谬对话并复述。

选择的模型都是可以在 32GB 显存GPU可运行的量化模型

评分标准:所有模型在每个温度值下都进行了多次测试(例如在 0.0、0.1、0.2、0.3 等温度下分别进行多次测试),这些结果被汇总为最终得分。

"得分"列表示 LLM 成功解决提示的测试百分比(即正确返回异常行的情况)。

所有测试的上下文长度均设置为 16k——这是为了平衡模型在实际使用中在这个上下文范围内的表现,并为列表中的思维模型提供足够的推理空间。

测试结果

Model量化方式实验依据得分
Meta Llama 系列
Llama_3.2_3Biq40
Llama_3.2_3Bq50
Llama_3.2_3Bq6 量化0
Llama_3.1_8B_Instructiq443
Llama_3.1_8B_Instructq513
Llama_3.1_8B_Instructq6 量化10
Llama_3.3_70B_Instructiq113
Llama_3.3_70B_Instructiq2100
Llama_3.3_70B_Instructiq3100
Llama_4_Scout_17Biq193
Llama_4_Scout_17Biq213
英伟达 Nemotron 系列
Llama_3.1_Nemotron_8B_UltraLongiq460
Llama_3.1_Nemotron_8B_UltraLongq567
Llama_3.3_Nemotron_Super_49Biq2无思93
Llama_3.3_Nemotron_Super_49Biq2思考80
Llama_3.3_Nemotron_Super_49Biq3思考100
Llama_3.3_Nemotron_Super_49Biq3无思93
Llama_3.3_Nemotron_Super_49Biq4思考97
Llama_3.3_Nemotron_Super_49Biq4无思93
Mistral 家族
Mistral_Small_24B_2503iq450
Mistral_Small_24B_2503q583
Mistral_Small_24B_2503q6 量化77
微软 Phi 系列
Phi_4iq37
Phi_4iq47
Phi_4q520
Phi_4q6 量化13
阿里巴巴通义千问系列
Qwen2.5_14B_Instructiq493
Qwen2.5_14B_Instructq597
Qwen2.5_14B_Instructq6 量化97
Qwen2.5_Coder_32Biq40
Qwen2.5_Coder_32B_Instructq50
QwQ_32Biq257
QwQ_32Biq3100
QwQ_32Biq467
QwQ_32Bq583
QwQ_32Bq6 量化87
Qwen3_14Biq3思考77
Qwen3_14Biq3无思60
Qwen3_14Biq4思考77
Qwen3_14Biq4无思100
Qwen3_14Bq5无思97
Qwen3_14Bq5思考77
Qwen3_14Bq6 量化无思100
Qwen3_14Bq6 量化思考77
Qwen3_30B_A3Biq3思考7
Qwen3_30B_A3Biq3无思0
Qwen3_30B_A3Biq4思考60
Qwen3_30B_A3Biq4无思47
Qwen3_30B_A3Bq5无思37
Qwen3_30B_A3Bq5思考40
Qwen3_30B_A3Bq6 量化思考53
Qwen3_30B_A3Bq6 量化无思20
Qwen3_30B_A6B_16_Extremeq4无思0
Qwen3_30B_A6B_16_Extremeq4思考3
Qwen3_30B_A6B_16_Extremeq5思考63
Qwen3_30B_A6B_16_Extremeq5无思20
Qwen3_32Biq3思考63
Qwen3_32Biq3无思60
Qwen3_32Biq4无思93
Qwen3_32Biq4思考80
Qwen3_32Bq5思考80
Qwen3_32Bq5无思87
Google Gemma 家族
Gemma_3_12B_ITiq40
Gemma_3_12B_ITq50
Gemma_3_12B_ITq6 量化0
Gemma_3_27B_ITiq43
Gemma_3_27B_ITq50
Gemma_3_27B_ITq6 量化0
深度求索(蒸馏版)系列
DeepSeek_R1_Qwen3_8Biq417
DeepSeek_R1_Qwen3_8Bq50
DeepSeek_R1_Qwen3_8Bq6 量化0
深度求索 R1 蒸馏版千问 32Biq437
深度求索 R1 蒸馏版千问 32Bq520
深度求索 R1 蒸馏版千问 32Bq6 量化30
其他
Cogito_v1_Preview__Qwen_14B_iq33
Cogito_v1_Preview__Qwen_14B_iq413
Cogito_v1_Preview__Qwen_14B_q53
DeepHermes_3_Mistral_24B_Previewiq4无思3
DeepHermes_3_Mistral_24B_Previewiq4思考7
DeepHermes_3_Mistral_24B_Previewq5思考37
DeepHermes_3_Mistral_24B_Previewq5无思0
DeepHermes_3_Mistral_24B_Previewq6 量化思考30
DeepHermes_3_Mistral_24B_Previewq6 量化无思3
GLM_4_32Biq410
GLM_4_32Bq517
GLM_4_32Bq6 量化16

结论

原作提到,这个测试方法并非完全科学严谨,但最终结果何其实际感受还是相符的:

  • Gemma3 27B 在某些场景表现惊艳,但遇到大上下文时性能简直断崖式下跌!
  • Qwen3-32B 非常出色,但面对大上下文时总会过度思考。使用"/nothink"指令略有改善,在实际测试中我通常都会加上这个指令——除非具体用例确实需要高级推理能力
  • 即便 Llama 3.3 70B 受限于 32GB 显存只能运行更低精度的量化版本,其表现依然极具竞争力。我认为 Qwen3-32B 的用户值得将它重新纳入实验对比——尽管这个模型相对较老。
  • 在量化权重时确实存在一个"断崖式下跌"的临界点,但这个临界点在不同模型间差异巨大
  • 英伟达 Nemotron Super 49B 量化模型表现极为出色,在处理类似的大上下文任务时尤为聪明。与 Llama 3.3 70B 类似,建议在某些工作流中尝试使用
  • Nemotron UltraLong 8B 实际表现优异——在长上下文场景中稳定超越本就不俗的 Llama 3.1 8B
  • QwQ 模型的表现远超其参数规模,但推理所需的大量 token 让我更倾向于选择榜单上的其他模型
  • Qwen3-14B 堪称同量级中的冠军选手

制作不易,如果这篇文章觉得对你有用,可否点个关注。给我个三连击:点赞、转发和在看。若可以再给我加个🌟,谢谢你看我的文章,我们下篇再见!

搭建完美的写作环境:工具篇(12 章)
图解机器学习 - 中文版(72 张 PNG)
ChatGPT 、大模型系列研究报告(50 个 PDF)
108页PDF小册子:搭建机器学习开发环境及Python基础
116页PDF小册子:机器学习中的概率论、统计学、线性代数
史上最全!371张速查表,涵盖AI、ChatGPT、Python、R、深度学习、机器学习等

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值