Kimi K2.6 发布：开源模型在编码基准上全面追平闭源第一梯队

4/20/2026开源 AI 大模型

月之暗面（Moonshot AI）发布了 Kimi K2.6 模型，在多项主流 Agent 和编码基准测试中取得开源 SOTA，多项指标追平甚至超越 GPT-5.4、Claude Opus 4.6 等闭源模型。

Kimi K2.6 Benchmark

基准表现

与 GPT-5.4 (xhigh)、Claude Opus 4.6 (max effort)、Gemini 3.1 Pro (thinking high) 的横向对比：

编码类基准：

SWE-Bench Pro：K2.6 得分 58.6，超过 GPT-5.4（57.7）、Claude（53.4）、Gemini（54.2）
SWE-bench Multilingual：78.7，领先 GPT-5.4（77.8）、Claude（76.9）
Terminal-Bench 2.0：65.7，与 GPT-5.4（65.4）、Claude（65.4）持平，Gemini 以 68.5 领先

通用 Agent 基准：

Humanity's Last Exam w/ tools：54.0，四款模型中最高（GPT-5.4 为 52.1，Claude 为 53.0）
DeepSearchQA (F1)：92.5，大幅领先 GPT-5.4（78.6）和 Gemini（81.9），Claude 为 91.3
BrowseComp：83.2，Claude 以 83.7 微幅领先，Gemini 以 85.9 最高
Toolathlon：50.0，GPT-5.4 以 54.6 领先该项
OSWorld-Verified：73.1，GPT-5.4 以 75.0 最高

视觉 Agent：

MathVision w/ python：93.2，GPT-5.4（96.1）和 Gemini（95.7）更高
V* w/ python：96.9，GPT-5.4 以 98.4 最高

核心能力升级

长程编码是这次的重点。K2.6 支持超过 4000 次工具调用和 12 小时以上的连续执行，相比 K2.5 的 100 次调用和 1500 步上限，提升幅度达到一个数量级。模型在 Rust、Go、Python 等语言之间具备跨语言泛化能力，可以处理前端开发、运维部署、性能优化等不同类型的工程任务。

智能体集群规模同步扩大。K2.6 支持 300 个并行子智能体，单次运行 4000 步。官方演示的场景中，一次 prompt 可以生成包含 100+ 文件的完整项目。K2.5 的对应参数是 100 个子智能体 / 1500 步。

此外，K2.6 已成为 OpenClaw、Hermes Agent 等开源 Agent 框架的底层驱动模型，支持 24/7 全天候自主运行。月之暗面同时发布了 Claw Groups（研究预览），允许用户接入自己的 Agent，与其他用户或人类协作完成复杂任务。

开源与可用性

K2.6 模型权重和代码已在 HuggingFace 开源，API 在 platform.moonshot.ai 同步上线。Kimi 官网（kimi.com）已更新为 K2.6 驱动，同时提供聊天模式和 Agent 模式。

来源：Kimi.ai · Moonshot AI