KimiK2.6开源了!还附送了 300个Agent员工
月之暗面昨晚发布了 Kimi K2.6,依旧开源。但更值得一提的是,编程能力不仅开源 SOTA 登顶,而且力压两个闭源模型。

SWE-Bench Pro 58.6,超过了 GPT-5.4(xhigh)和 Claude Opus 4.6(max effort)。
也就是说:一个开源模型,跑赢了目前几乎最强的两个闭源模型。
这对开源编程模型来说,应该是第一次在主流基准上取得压制优势。

当然,我们知道,跑分只是故事的一半……
K2.6 还有个极具暴力与美感的 Agent 集群功能,我后面会详细说。
(基准跑分先看硬数据)
K2.6 在编程和 Agent 相关的基准上几乎全线领先:
• SWE-Bench Pro:58.6(开源 SOTA)
• SWE-Bench Verified:80.2
• SWE-Bench Multilingual:76.7
• Terminal-Bench 2.0:66.7
• HLE w/ tools:54.0
• BrowseComp:83.2
• LiveCodeBench v6:89.6 数学和视觉方面也没落下,AIME 2026 拿了 96.4,MathVision w/ python 93.2。

Yuchen Jin 转发了 Kimi 官方推文并评论道:
“ 开源 SOTA!SWE-Bench Pro 58.6,超过了 GPT-5.4(xhigh)和 Claude Opus 4.6(max effort)。Kimi 的发布速度越来越快了,算得上 S 级的开源模型团队。

不只跑分!
当然,我们知道,跑分高是一回事,能不能在真实场景里扛住长时间高强度的工作,则又是另一回事了。
而连我们都知道,Kimi 显然也知道……所以 K2.6 这次在这方面的进步,可能比跑分更值得关注。它可以,连续工作 12 小时不崩。
官方给的一个案例是:用 K2.6 在 Mac 上用 Zig 语言本地部署 Qwen3.5-0.8B 模型,整个过程涉及 4000 多次工具调用,跨越 14 轮迭代,持续了 12 个小时。

最终,它跑出 193 tokens/sec 的推理速度,比 LM Studio 快了 20%。
另一个案例更是非常地硬核:对 exchange-core 金融撮合引擎做全面重构,13 个小时,1000 多次工具调用,修改了 4000 多行代码。中等负载吞吐量提升 185%,整体性能提升 133%。

换句话说,K2.6 已经能像一个靠谱的工程师那样,连续干十几个小时的活,中间不掉链子。而且,它根本就不挑语言。
Rust、Go、Python、前端、DevOps 工作流,都能稳定输出。官方的说法是:
“跨语言和框架的泛化能力。”
Vercel 说 K2.6 在 Next.js 基准上的表现提升了超过 50%。CodeBuddy 报告了 18% 的长上下文稳定性提升和 96.60% 的工具调用成功率。
以及,K2.6 还有一个非常实际的改进:平均步骤数比 K2.5 减少了约 35%。
更少的步骤意味着更少的 token 消耗,更少的出错机会,和更快的速度。用更短的路径走到正确答案,这其实是模型「聪明」程度的一个更加直觉的衡量方式。

内部的 Kimi Code Bench 基准测试成绩也佐证了这一点:K2.6 从 K2.5 的 57.4 提升到了 68.2,直接涨了将近 20%。
(300 个 Agent 上岗)
然后,就是这次的重头戏了。
K2.6 的 Agent 集群功能,虽然从 K2.5 就开始引入,但我的感受是,这次才算是真正的成熟了。

我们只需要给它一个任务,它会自动拆解,创建一堆不同角色的「分身」,让它们并行工作。
K2.5 的上限是 100 个子 Agent、1500 步,而到了 K2.6 这里,则直接拉到了 300 个子 Agent、4000 步。

一个人,一句指令,一支团队。
我当然,得亲自来试一试。