大家好,我是Ai学习的老章
Reddit看到一个帖子:104个量化模型在大海捞针测试中的表现
作者在 H·G·威尔斯的《时间机器》中插入了几段荒谬对话,测试文本长达 1 万词元(约覆盖小说前 5 章内容),并附带简短系统提示要求大模型定位这些荒谬对话并复述。
选择的模型都是可以在 32GB 显存GPU可运行的量化模型
评分标准:所有模型在每个温度值下都进行了多次测试(例如在 0.0、0.1、0.2、0.3 等温度下分别进行多次测试),这些结果被汇总为最终得分。
"得分"列表示 LLM 成功解决提示的测试百分比(即正确返回异常行的情况)。
所有测试的上下文长度均设置为 16k——这是为了平衡模型在实际使用中在这个上下文范围内的表现,并为列表中的思维模型提供足够的推理空间。
测试结果
Model | 量化方式 | 实验依据 | 得分 |
---|---|---|---|
Meta Llama 系列 | |||
Llama_3.2_3B | iq4 | 0 | |
Llama_3.2_3B | q5 | 0 | |
Llama_3.2_3B | q6 量化 | 0 | |
Llama_3.1_8B_Instruct | iq4 | 43 | |
Llama_3.1_8B_Instruct | q5 | 13 | |
Llama_3.1_8B_Instruct | q6 量化 | 10 | |
Llama_3.3_70B_Instruct | iq1 | 13 | |
Llama_3.3_70B_Instruct | iq2 | 100 | |
Llama_3.3_70B_Instruct | iq3 | 100 | |
Llama_4_Scout_17B | iq1 | 93 | |
Llama_4_Scout_17B | iq2 | 13 | |
英伟达 Nemotron 系列 | |||
Llama_3.1_Nemotron_8B_UltraLong | iq4 | 60 | |
Llama_3.1_Nemotron_8B_UltraLong | q5 | 67 | |
Llama_3.3_Nemotron_Super_49B | iq2 | 无思 | 93 |
Llama_3.3_Nemotron_Super_49B | iq2 | 思考 | 80 |
Llama_3.3_Nemotron_Super_49B | iq3 | 思考 | 100 |
Llama_3.3_Nemotron_Super_49B | iq3 | 无思 | 93 |
Llama_3.3_Nemotron_Super_49B | iq4 | 思考 | 97 |
Llama_3.3_Nemotron_Super_49B | iq4 | 无思 | 93 |
Mistral 家族 | |||
Mistral_Small_24B_2503 | iq4 | 50 | |
Mistral_Small_24B_2503 | q5 | 83 | |
Mistral_Small_24B_2503 | q6 量化 | 77 | |
微软 Phi 系列 | |||
Phi_4 | iq3 | 7 | |
Phi_4 | iq4 | 7 | |
Phi_4 | q5 | 20 | |
Phi_4 | q6 量化 | 13 | |
阿里巴巴通义千问系列 | |||
Qwen2.5_14B_Instruct | iq4 | 93 | |
Qwen2.5_14B_Instruct | q5 | 97 | |
Qwen2.5_14B_Instruct | q6 量化 | 97 | |
Qwen2.5_Coder_32B | iq4 | 0 | |
Qwen2.5_Coder_32B_Instruct | q5 | 0 | |
QwQ_32B | iq2 | 57 | |
QwQ_32B | iq3 | 100 | |
QwQ_32B | iq4 | 67 | |
QwQ_32B | q5 | 83 | |
QwQ_32B | q6 量化 | 87 | |
Qwen3_14B | iq3 | 思考 | 77 |
Qwen3_14B | iq3 | 无思 | 60 |
Qwen3_14B | iq4 | 思考 | 77 |
Qwen3_14B | iq4 | 无思 | 100 |
Qwen3_14B | q5 | 无思 | 97 |
Qwen3_14B | q5 | 思考 | 77 |
Qwen3_14B | q6 量化 | 无思 | 100 |
Qwen3_14B | q6 量化 | 思考 | 77 |
Qwen3_30B_A3B | iq3 | 思考 | 7 |
Qwen3_30B_A3B | iq3 | 无思 | 0 |
Qwen3_30B_A3B | iq4 | 思考 | 60 |
Qwen3_30B_A3B | iq4 | 无思 | 47 |
Qwen3_30B_A3B | q5 | 无思 | 37 |
Qwen3_30B_A3B | q5 | 思考 | 40 |
Qwen3_30B_A3B | q6 量化 | 思考 | 53 |
Qwen3_30B_A3B | q6 量化 | 无思 | 20 |
Qwen3_30B_A6B_16_Extreme | q4 | 无思 | 0 |
Qwen3_30B_A6B_16_Extreme | q4 | 思考 | 3 |
Qwen3_30B_A6B_16_Extreme | q5 | 思考 | 63 |
Qwen3_30B_A6B_16_Extreme | q5 | 无思 | 20 |
Qwen3_32B | iq3 | 思考 | 63 |
Qwen3_32B | iq3 | 无思 | 60 |
Qwen3_32B | iq4 | 无思 | 93 |
Qwen3_32B | iq4 | 思考 | 80 |
Qwen3_32B | q5 | 思考 | 80 |
Qwen3_32B | q5 | 无思 | 87 |
Google Gemma 家族 | |||
Gemma_3_12B_IT | iq4 | 0 | |
Gemma_3_12B_IT | q5 | 0 | |
Gemma_3_12B_IT | q6 量化 | 0 | |
Gemma_3_27B_IT | iq4 | 3 | |
Gemma_3_27B_IT | q5 | 0 | |
Gemma_3_27B_IT | q6 量化 | 0 | |
深度求索(蒸馏版)系列 | |||
DeepSeek_R1_Qwen3_8B | iq4 | 17 | |
DeepSeek_R1_Qwen3_8B | q5 | 0 | |
DeepSeek_R1_Qwen3_8B | q6 量化 | 0 | |
深度求索 R1 蒸馏版千问 32B | iq4 | 37 | |
深度求索 R1 蒸馏版千问 32B | q5 | 20 | |
深度求索 R1 蒸馏版千问 32B | q6 量化 | 30 | |
其他 | |||
Cogito_v1_Preview__Qwen_14B_ | iq3 | 3 | |
Cogito_v1_Preview__Qwen_14B_ | iq4 | 13 | |
Cogito_v1_Preview__Qwen_14B_ | q5 | 3 | |
DeepHermes_3_Mistral_24B_Preview | iq4 | 无思 | 3 |
DeepHermes_3_Mistral_24B_Preview | iq4 | 思考 | 7 |
DeepHermes_3_Mistral_24B_Preview | q5 | 思考 | 37 |
DeepHermes_3_Mistral_24B_Preview | q5 | 无思 | 0 |
DeepHermes_3_Mistral_24B_Preview | q6 量化 | 思考 | 30 |
DeepHermes_3_Mistral_24B_Preview | q6 量化 | 无思 | 3 |
GLM_4_32B | iq4 | 10 | |
GLM_4_32B | q5 | 17 | |
GLM_4_32B | q6 量化 | 16 |
结论
原作提到,这个测试方法并非完全科学严谨,但最终结果何其实际感受还是相符的:
- Gemma3 27B 在某些场景表现惊艳,但遇到大上下文时性能简直断崖式下跌!
- Qwen3-32B 非常出色,但面对大上下文时总会过度思考。使用"/nothink"指令略有改善,在实际测试中我通常都会加上这个指令——除非具体用例确实需要高级推理能力
- 即便 Llama 3.3 70B 受限于 32GB 显存只能运行更低精度的量化版本,其表现依然极具竞争力。我认为 Qwen3-32B 的用户值得将它重新纳入实验对比——尽管这个模型相对较老。
- 在量化权重时确实存在一个"断崖式下跌"的临界点,但这个临界点在不同模型间差异巨大
- 英伟达 Nemotron Super 49B 量化模型表现极为出色,在处理类似的大上下文任务时尤为聪明。与 Llama 3.3 70B 类似,建议在某些工作流中尝试使用
- Nemotron UltraLong 8B 实际表现优异——在长上下文场景中稳定超越本就不俗的 Llama 3.1 8B
- QwQ 模型的表现远超其参数规模,但推理所需的大量 token 让我更倾向于选择榜单上的其他模型
- Qwen3-14B 堪称同量级中的冠军选手
制作不易,如果这篇文章觉得对你有用,可否点个关注。给我个三连击:点赞、转发和在看。若可以再给我加个🌟,谢谢你看我的文章,我们下篇再见!
搭建完美的写作环境:工具篇(12 章)
图解机器学习 - 中文版(72 张 PNG)
ChatGPT 、大模型系列研究报告(50 个 PDF)
108页PDF小册子:搭建机器学习开发环境及Python基础
116页PDF小册子:机器学习中的概率论、统计学、线性代数
史上最全!371张速查表,涵盖AI、ChatGPT、Python、R、深度学习、机器学习等