Kimi K2.6 发布:开源模型在编码基准上全面追平闭源第一梯队

月之暗面(Moonshot AI)发布了 Kimi K2.6 模型,在多项主流 Agent 和编码基准测试中取得开源 SOTA,多项指标追平甚至超越 GPT-5.4、Claude Opus 4.6 等闭源模型。

Kimi K2.6 Benchmark

基准表现

与 GPT-5.4 (xhigh)、Claude Opus 4.6 (max effort)、Gemini 3.1 Pro (thinking high) 的横向对比:

编码类基准

  • SWE-Bench Pro:K2.6 得分 58.6,超过 GPT-5.4(57.7)、Claude(53.4)、Gemini(54.2)
  • SWE-bench Multilingual:78.7,领先 GPT-5.4(77.8)、Claude(76.9)
  • Terminal-Bench 2.0:65.7,与 GPT-5.4(65.4)、Claude(65.4)持平,Gemini 以 68.5 领先

通用 Agent 基准

  • Humanity's Last Exam w/ tools:54.0,四款模型中最高(GPT-5.4 为 52.1,Claude 为 53.0)
  • DeepSearchQA (F1):92.5,大幅领先 GPT-5.4(78.6)和 Gemini(81.9),Claude 为 91.3
  • BrowseComp:83.2,Claude 以 83.7 微幅领先,Gemini 以 85.9 最高
  • Toolathlon:50.0,GPT-5.4 以 54.6 领先该项
  • OSWorld-Verified:73.1,GPT-5.4 以 75.0 最高

视觉 Agent

  • MathVision w/ python:93.2,GPT-5.4(96.1)和 Gemini(95.7)更高
  • V* w/ python:96.9,GPT-5.4 以 98.4 最高

核心能力升级

长程编码是这次的重点。K2.6 支持超过 4000 次工具调用和 12 小时以上的连续执行,相比 K2.5 的 100 次调用和 1500 步上限,提升幅度达到一个数量级。模型在 Rust、Go、Python 等语言之间具备跨语言泛化能力,可以处理前端开发、运维部署、性能优化等不同类型的工程任务。

智能体集群规模同步扩大。K2.6 支持 300 个并行子智能体,单次运行 4000 步。官方演示的场景中,一次 prompt 可以生成包含 100+ 文件的完整项目。K2.5 的对应参数是 100 个子智能体 / 1500 步。

此外,K2.6 已成为 OpenClaw、Hermes Agent 等开源 Agent 框架的底层驱动模型,支持 24/7 全天候自主运行。月之暗面同时发布了 Claw Groups(研究预览),允许用户接入自己的 Agent,与其他用户或人类协作完成复杂任务。

开源与可用性

K2.6 模型权重和代码已在 HuggingFace 开源,API 在 platform.moonshot.ai 同步上线。Kimi 官网(kimi.com)已更新为 K2.6 驱动,同时提供聊天模式和 Agent 模式。

来源:Kimi.ai · Moonshot AI

相关推荐