easyllm-CSDN博客

原创月之暗面Kimi K2.6实测

kimi-k2.6在跨语言（Rust、Go、Python、Zig等）、跨任务类型（前端、DevOps、性能优化）的长程编码任务上展现出较强的泛化能力。另一项案例中，kimi-k2.6对一款运营8年的开源金融撮合引擎exchange-core进行了13小时的自主重构，发起超过1000次工具调用，精确修改了4000多行代码，最终在已接近性能极限的引擎上实现了中位吞吐量185%的提升（0.43提升至1.24 MT/s）和性能吞吐量133%的提升（1.23提升至2.86 MT/s）。

2026-04-22 20:38:51 331

原创阿里Qwen3.6-Max-Preview实测：闭源旗舰登顶总榜

阿里全新旗舰模型闭源发布！最新评测揭秘其问鼎巅峰的真实实力。编程及知识广度全面进化，但调用成本暴涨。它能否硬刚国际顶流竞品？点击查看深度横向对比与能力解析！

2026-04-22 11:36:48 297

原创 Kimi K2.6、Qwen3.6-Max 上架 NoneLinear

👉 已上架非线智能 NoneLinear 平台：https://nonelinear.com/static/models.html。

2026-04-21 11:40:33 80

原创阿里 Qwen3.6-35B-A3B 实测

官方将其定位为"体量轻巧、推理高效的稀疏混合专家（MoE）模型"，核心升级方向集中在智能体编程能力和原生多模态任务上——Qwen3.6-35B-A3B总参数350亿，每次推理仅激活30亿参数，兼容OpenCLaw、Claude Code、Qwen Code等主流编程助手。此外，本次评测侧重中文场景下的综合能力考察，Qwen3.6-35B-A3B此次迭代的核心发力点——低激活参数下的原生多模态、空间智能等能力，读者可参考文末的官方评测数据获得更全面的了解。*输出价格单位：元/百万token。

2026-04-20 11:33:50 318

原创 Qwen3.6-35B-A3B 已上架 NoneLinear 平台

已上架非线智能 NoneLinear 平台：https://nonelinear.com/static/models.html。Qwen3.6-35B-A3B（阿里）

2026-04-17 17:36:39 22

原创大模型表格识别能力实测：Gemma 4排名倒数，开源之王也有软肋

但实际上 gemma-4-31b-it（32%）反而低于 gemma-4-26b-a4b-it（39%），说明 Gemma 4 的 Dense 变体在多模态结构化任务上存在额外短板。gemma-4-31b-it是 Gemma 4 家族中的 Dense模型，gemma-4-31b-it 参数全量激活，支持 256K 上下文窗口，在 AIME 2026 数学基准上从 Gemma 3 的 20.8% 飙升至 89.2%，编码和科学推理同样大幅跃升。─── NONELINEAR 模型超市 ───。

2026-04-14 16:41:23 331

原创智谱GLM-5.1实测

官方将其定位为"面向长程任务的开源第一模型"，核心升级方向集中在代码工程能力和长程Agent任务上——GLM-5.1能够在单次任务中独立、持续工作超过8小时，在SWE-Bench Pro等代码基准上取得了全球模型第三、开源模型第一的成绩。官方选取了业内最具代表性的三个代码评测基准进行综合评估，GLM-5.1取得全球模型第三、国产模型第一、开源模型第一的成绩。GLM-5.1此次迭代的核心升级集中在代码工程能力和长程Agent任务两个方向，以下为官方公布的Benchmark数据。

2026-04-09 13:57:45 752

原创谷歌Gemma 4 MoE实测

在Gemma 4 31B Dense版本之后，我们继续对Gemma 4系列的另一款模型——gemma-4-26b-a4b-it进行了全面评测。在当前主流大模型竞争格局中，gemma-4-26b-a4b-it作为一款MoE开源模型，其核心竞争力不在于与大参数旗舰模型比拼准确率，而在于以极低的推理成本提供可用的智能水平。需要说明的是，本次评测侧重中文场景下的综合能力考察。*数据来源：非线智能ReLE评测https://github.com/jeinlee1991/chinese-llm-benchmark。

2026-04-08 14:41:20 475

原创谷歌Gemma 4实测

Gemma 4共发布了四个尺寸版本，本次评测的gemma-4-31b-it是其中参数量最大的Dense版本，拥有310亿参数，原生视觉理解、140+语言以及原生函数调用能力。在官方公布的Arena AI排行榜上，Gemma 4 31B位列全球开源模型第3名，展现出远超其参数规模的竞争力。官方特别指出，Gemma 4在该排行榜上超越了参数量达其20倍的模型（截至 4 月 1 日）。在当前主流大模型竞争格局中，gemma-4-31b-it作为一款开源模型，聚焦于本地部署、边缘推理等对模型体积有严格要求的场景。

2026-04-07 14:15:58 403

原创阿里Qwen3.6-Plus实测

官方宣称，Qwen3.6-Plus相较于前代模型实现了全方位的能力升级，其中最核心的升级方向是智能体编程能力——无论是前端网页开发还是复杂的代码仓库级问题求解，Qwen3.6-Plus均树立了新的业界标杆。id=qwen3.6）将Qwen3.6-Plus定位为"面向真实世界的Agent"，并从语言能力和视觉语言能力两大维度展示了其评测成绩。在多模态能力上，Qwen3.6-Plus围绕推理能力增强、指令模式实用性提升以及复杂任务执行能力拓展三个方向进行了持续演进。*输出价格单位：元/百万token。

2026-04-03 17:21:35 680

原创大模型表格识别能力实测：GPT-5.4小模型与小米MiMo正面交锋，表格识别谁翻车了？

首次参评即跻身中游，超过了 gpt-5.3-chat（56%）、ERNIE-5.0（56%）等选手，与 Qwen3.5-122B-A10B、Doubao-Seed-2.0-lite 同处 58% 梯队。gpt-5.4-Mini 是 OpenAI 3 月 17 日发布的高效小模型，速度是上代 gpt-5 Mini 的 2 倍以上，在 SWE-Bench Pro 等编码基准上接近旗舰 gpt-5.4。：gpt-5.4-Mini 在编码场景接近旗舰，但表格识别差了 10 个百分点。有惊喜，也有「翻车」。

2026-03-26 19:38:47 356

原创 OpenAI GPT-5.4 Nano实测

OpenAI在发布GPT-5.4 Mini的同时，还推出了产品线中体量最小、成本最低的GPT-5.4 Nano。官方对这款模型的定位非常明确：它是GPT-5.4家族中最小、最便宜的版本，专为速度和成本优先的场景而生，推荐用于分类、数据提取、排序以及处理简单辅助任务的编码子智能体。在OpenAI设想的多模型协作架构中，GPT-5.4负责规划和最终判断，GPT-5.4 Mini执行中等复杂度子任务，而Nano则承担最轻量、最高频的基础工作。本文的数据更多反映的是其中文文本理解和逻辑推理方面的基础水平。

2026-03-21 14:36:47 452

原创小米 MiMo-V2-Omni 实测

MiMo-V2-Omni（68.6%，第30位）作为全模态旗舰居首，MiMo-V2-Flash-think-0204（68.2%，第32位）作为纯文本推理模型紧随其后，MiMo-V2-Pro（67.6%，第39位）提供均衡选择，MiMo-V2-Flash-think（62.0%，第80位）则覆盖轻量场景。从准确率来看，MiMo-V2-Omni与同档位模型基本持平，略高于MiMo-V2-Pro和GLM-4.6，与gpt-5-2025-08-07差距仅0.3个百分点。

2026-03-20 14:17:35 791

原创小米 MiMo-V2-Pro 实测

值得关注的是，开源阵营中不乏在中文综合能力上超越MiMo-V2-Pro的选手：qwen3.5-plus（74.6%，22.9元）、Qwen3.5-27B（72.4%，25元）、GLM-4.7（71.5%，52.5元）、Kimi-K2.5-Thinking（71.3%，77.1元）等开源模型均以相近甚至更低的成本实现了更高的准确率。- 向上看，qwen3-max-think-2026-01-23（72.8%，43.5元）以更低的花费实现了更高的准确率。当前评测框架侧重中文文本场景下的工具调用。

2026-03-20 13:19:40 1910

原创 OpenAI GPT-5.4 Mini实测

在排名相近的区间内，MiniMax-M2.7（67.7%，第35位）、qwen3-max-2026-01-23（67.6%，第37位）与gpt-5.4-mini-high接近。：相比上一代gpt-5-mini-high（61.3%，排名第86位），gpt-5.4-mini-high（67.5%，排名第38位）提升了6.2个百分点，排名前进了48位。在OSWorld-Verified上，GPT-5.4 Mini得分72.1%，紧追旗舰GPT-5.4的75.0%，而GPT-5 Mini仅为42.0%。

2026-03-19 14:27:46 548

原创 MiniMax-M2.7 实测

值得注意的是，“医疗与心理健康”从73.7%降至72.2%（-1.5%），“金融”从71.2%降至70.2%（-1.0%），“法律与行政公务”从77.0%降至74.7%（-2.3%），“推理与数学计算”从71.2%降至70.9%（-0.3%）。：从MiniMax-M2.1（63.6%，第70位）到MiniMax-M2.5（65.7%，第54位），再到MiniMax-M2.7（67.7%，第35位），MiniMax每一代的迭代都保持了稳定的进步节奏，产品线的成长轨迹是清晰的。

2026-03-19 12:46:40 2433

原创大模型表格识别能力实测

在「不同年代使用最多的10个名字」表中，问题更为严重：原表「2010-2019年」列下有「男」「女」两个子列，模型直接**将单元格内容「男」「女」错误地整合到了表头行中**，导致整列数据结构严重错乱，行列对应关系全面崩塌。对于表格识别这类以「感知精度」为核心的任务，更多的推理步骤并不总能带来更好的结果。在华为昇腾芯片产能表中，原表最后一列的列名是具体的新闻描述内容，但模型自作主张地将其替换为「相关说明」——这属于典型的「理解式改写」，模型没有忠实还原原文，而是用自己的理解替代了实际内容。

2026-03-18 19:00:06 433

原创智谱 GLM-5-Turbo 实测

官方发布的ZClawBench基准显示，GLM-5-Turbo在龙虾场景中的表现相比GLM-5有显著提升，在多项关键任务上整体领先于多家主流模型。：在近期发布的新模型中，GLM-5-Turbo（71.5%）的准确率与Doubao-Seed-2.0-mini（71.8%）、doubao-seed-1-8-251215（71.7%）基本持平，但低于Doubao-Seed-2.0-pro（76.5%）、gemini-3.1-pro-preview（74.8%）、qwen3.5-plus（74.6%）等模型。

2026-03-18 12:00:38 868

原创谷歌 Gemini 3.1 Pro 实测

相较于同处该档位的 claude-sonnet-4.5-thinking（68.8%，305.1），gemini-3.1-pro-preview 的准确率大幅领先了 6.0 个百分点，且单次调用花费更低。- 抽象推理与解谜：在衡量抽象推理难题的 ARC-AGI-2 评测中，Gemini 3.1 Pro 取得了惊人的 77.1%，相比上一代 Gemini 3 Pro（31.1%）实现了翻倍式跨越，并将 Opus 4.6（68.8%）和 GPT-5.2（52.9%）远远甩在身后。

2026-03-10 12:29:23 518

原创 OpenAI GPT-5.4 非思考模式实测

在该区间附近，gpt-5-2025-08-07（68.9%，31.9元）以更低的花费提供了明显更高的准确率，而GLM-4.6（68.1%，37.6元）同样在准确率上大幅领先。：对比其他厂商的轻量或非推理版本，如gemini-3-flash-preview（71.5%，53.5元）、step-3.5-flash（64.2%，9.8元）等，gpt-5.4在准确率上并不占优，但在响应速度上保持领先。：新版本准确率从56.9%提升至61.5%，提升了4.6个百分点，排名从第94位升至第82位，前进了12个位次。

2026-03-09 16:06:14 439

原创 OpenAI GPT-5.4实测

在OSWorld-Verified基准上，GPT-5.4达到了75.0%的成功率，超过了人类表现的72.4%，远超GPT-5.2的47.3%。：在近期发布的新模型中，gpt-5.4-high（72.6%）的表现超过了GLM-4.7（71.5%）、ERNIE-5.0（70.9%）、DeepSeek-V3.2-Think（70.9%）等模型，但与榜首的Doubao-Seed-2.0-pro（76.5%）和第2位的gemini-3.1-pro-preview（74.8%）仍存在一定差距。：开源模型表现同样亮眼。

2026-03-07 15:30:20 534

原创 OpenAI GPT-5.3-chat实测

gpt-5.3-chat（70.6%）与GLM-4.7（71.5%）、gemini-3-flash-preview（71.5%）基本处于同一水平线，但与榜首的Doubao-Seed-2.0-pro（76.5%）和第二名gemini-3.1-pro-preview（74.8%）仍有一定差距。对比同为闭源的claude-opus-4.6（70.5%，96.5元），gpt-5.3-chat准确率基本持平（仅高0.1个百分点），但成本约为后者的一半，成本效率比具备一定优势。

2026-03-06 14:18:35 352

原创谷歌Gemini 3.1 Flash-Lite实测

对比同系的gemini-3.1-pro-preview（74.8%，250.5元，53s）和gemini-3-pro-preview（72.5%，247.3元，64s），gemini-3.1-flash-lite-preview在准确率上存在约20个百分点的差距。：然而，上述模型的平均耗时均在100s以上（DeepSeek-V3.2-Think为144s，Doubao-Seed-2.0-lite为276s），而gemini-3.1-flash-lite-preview仅需12s。

2026-03-06 12:19:38 569

原创阿里Qwen3.5-Flash实测

在开源模型中，qwen3.5-flash位列第8位，排在qwen3.5-plus（74.6%）、Qwen3.5-122B-A10B（74.0%）、Qwen3.5-27B（72.4%）、GLM-4.7（71.5%）、Kimi-K2.5-Thinking（71.3%）、GLM-5（71.0%）和DeepSeek-V3.2-Think（70.9%）之后。：将视野扩展到更高成本区间，Doubao-Seed-2.0-lite（73.9%，5.4元）以更低的价格提供了更高的准确率；

2026-02-27 14:03:27 1628

原创阿里Qwen3.5-27B实测

qwen3.5-plus（74.6%，第3位）领跑，Qwen3.5-122B-A10B（74.0%，第4位）紧随其后，Qwen3.5-27B（72.4%，第8位）位列第三梯队，qwen3.5-flash（70.8%，第19位）则提供更轻量的选择。：相比qwen3.5-plus和Qwen3.5-122B-A10B，Qwen3.5-27B的最大卖点在于其部署门槛——作为密集模型，量化后可在单张消费级显卡上运行，对于希望本地部署而非依赖API的开发者和企业而言，这是一个难以替代的优势。

2026-02-27 12:11:31 2141

原创阿里Qwen3.5-122B-A10B实测

中文场景下，总分超过了gemini-3-pro-preview（72.5%，商用）、claude-opus-4.6（70.5%，商用）、gpt-5.1-high（69.7%，商用）等多个闭源模型。：从总分来看，Qwen3.5-122B-A10B在开源模型中仅次于qwen3.5-plus（74.6%），排名第2，超过了GLM-4.7（71.5%）、Kimi-K2.5-Thinking（71.3%）、GLM-5（71.0%）、DeepSeek-V3.2-Think（70.9%）等开源模型。

2026-02-26 15:34:16 2165

原创字节豆包Seed 2.0 Mini实测

相比同为新发布的gemini-3.1-pro-preview（74.8%，250.5元）和qwen3.5-plus（74.6%，22.9元），Doubao-Seed-2.0-mini在成本上具有明显优势，适合对成本敏感但仍需一定准确率的场景。：每千次调用的成本从15.6元降至7元，下降约55%。：Doubao-Seed-2.0-mini准确率为71.8%，略高于doubao-seed-1-6-thinking-250715的71.7%，相差0.1个百分点，验证了官方"效果相当"的说法。

2026-02-25 19:33:32 889

原创字节豆包Seed 2.0 Lite实测

从追求极致性能的旗舰级 Doubao-Seed-2.0-pro（76.5%，22.5元），到主打高成本效率比的 Doubao-Seed-2.0-lite（73.9%，5.4元），再到更轻量级的 Doubao-Seed-2.0-mini（71.8%，7.0元），覆盖了不同算力预算与任务复杂度的用户群体。：在新一期的评测中，Doubao-Seed-2.0-lite 版本的总分相比doubao-seed-1-8-251215的 71.7%，提升至 73.9%，总排名前进至第 4 位。

2026-02-24 14:46:39 1294

原创阿里Qwen3.5-Plus实测

在排行榜中，阿里系模型呈现明显的梯队分布——qwen3.5-plus（74.6%，第2位）领跑，qwen3-max-think-2026-01-23（72.8%，第4位）紧随其后，而qwen3-max-preview-think（68.2%，第26位）、qwen3-max-2026-01-23（67.6%，第30位）、qwen3-235b-a22b-thinking-2507（65.5%，第47位）则分布在中游偏下位置。其中，IFBench 得分为 76.5，略高于 GPT-5.2（75.4）；

2026-02-24 11:40:59 4347

原创字节豆包Seed 2.0 Pro实测：新版本硬实力登顶

其 76.5% 的准确率稳居该档位榜首，与同档位的 MiniMax-M2.5（65.7%，26.3元）和 qwen3-max-2025-09-23（66.8%，23.4元）相比，准确率分别高出 10.8 和 9.7 个百分点。从旗舰级的 Seed-2.0-pro（76.5%），到平衡型的 Seed-2.0-lite（73.9%）和轻量级的 Seed-2.0-mini（71.8%），再到上一代的doubao-seed-1-8-251215（71.7%），覆盖了不同算力需求的用户群体。

2026-02-15 13:40:16 1896

原创小米 MiMo-V2-Flash-think-0204实测

在7-10元/千次调用的成本区间内，MiMo-V2-Flash-think-0204以68.2%的准确率和7.8元的成本，与DeepSeek-V3.2-Think（70.9%，7.5元）、hunyuan-2.0-thinking-20251109（71.9%，9.5元）形成直接竞争，但准确率存在2-3个百分点的差距。：值得注意的是，“金融”领域从77.7%下降至76.2%（-1.5%），“推理与数学计算”从74.2%下降至71.7%（-2.5%），表明在整体性能提升过程中存在一定的能力权衡。

2026-02-14 21:46:37 888

原创智谱 GLM-5 实测

近期各厂商发布的新模型中，qwen3-max-think-2026-01-23以72.8%位居榜首，gemini-3-pro-preview以72.5%紧随其后，hunyuan-2.0-thinking-20251109达到71.9%。GLM-5的71.0%在新模型中处于前列。：准确率相近的doubao-seed-1-8-251215（71.7%）成本仅7.3元/千次，doubao-seed-1-6-thinking-250715（71.7%）成本为15.6元/千次，在成本敏感场景下更具竞争力。

2026-02-13 16:13:08 1968

原创 MiniMax M2.5实测

相比其他近期发布的新版本，如doubao-seed-1-8-251215（71.7%）、GLM-4.7（71.5%）、ERNIE-5.0（70.9%），MiniMax M2.5的65.7%准确率存在一定差距，说明在中文综合能力维度仍有提升空间。“教育”从40.0%提升至42.3%（+2.3%）。：MiniMax M2.5作为商用闭源模型，与同为闭源的doubao-seed-1-8-251215（71.7%）、gemini-3-pro-preview（72.5%）相比，准确率存在5-7个百分点的差距。

2026-02-13 13:02:43 2067

空空如也

空空如也