开场 90 秒:三条动态炸穿时间线
- GitHub 热榜:Kimi-K2 仓库 20 分钟 5k star,把 PyTorch 主干挤下日榜 Top1。
- HuggingFace:权重刚上传 12 分钟被拉爆 12k 次,CDN 自动扩容三次。Sam
- Altman 推特:紧急预告“下周开源”,被网友群嘲“Kimi 先开枪,OpenAI 被迫跟进”。
为什么说它是“Agent 原生”模型?
维度传统大模型Kimi K2 架构Dense / 纯 MoE32 Expert MoE + Agentic RL上下文8k~128k128k 原生窗口工具调用需要 prompt hack零样本自动调度训练数据以文本为主15.5T tokens + 合成 Agent 轨迹
官方演示:一句“帮我把 Notion 里的 PRD 生成前端代码并部署到 Vercel”,K2 自动完成 Notion API→代码→GitHub→Vercel 的全链路。
技术深水区:MuonClip 优化器 + qk-clip
- MuonClip:在 Muon 基础上增加 qk-clip 层,训练全程 0 loss spike。
- Scaling Laws 再突破:减少 Attention Heads,长上下文效率 ↑18%;稀疏路由 Top-2,激活仅 32B却打出 1T 的理论容量。
- 训练稳定性:15.5T tokens 跑完,没有出现一次梯度爆炸(官方 loss 曲线被戏称“心电图拉平”)。
- 大规模 Agentic Tool Use 数据合成:我们构建了可大规模生成多轮工具使用场景的合成pipeline,覆盖数百领域、数千工具。高质量样本由 LLM 评估筛选后用于训练。
- 通用强化学习:Kimi K2不仅在可验证任务上(代码、数学)强化学习,还通过引入自我评价机制(self-judging),解决了不可验证任务的奖励稀缺问题。通过可验证任务持续优化critic,提升泛化任务表现。
基准成绩:开源新 SOTA,部分指标碾压 GPT-4.1,代码、数学推理能力直逼claude4
BenchmarkKimi K2DeepSeek-V3GPT-4.1 LiveCode Bench67.863.966.2AIME 2025 Math52.449.151.6AceBench Agent76.5%72.0%未公开
开源即商用,协议比 Llama-3 更宽松
- Apache-2.0 + 额外商用授权,企业可直接蒸馏、微调、嵌入产品。
- 同步放出 Kimi-K2-Base(纯基座)与 Kimi-K2-Instruct(指令版),满足不同场景。
海外一位用户进行了k2的推理测试:
同时Perplexity 已抢先“二次预训练”Perplexity CEO 发推表示正基于 K2 做后训练,计划打造“搜索 Agent 2.0”。