OpenRouter Fusion:多模型协商半价达到Fable水平

6/14/2026AILLMOpenRouter

OpenRouter 在 6 月 13 日发布了 Fusion Router,一个将多模型协作直接做成 API 调用的方案。用 model 参数设为 openrouter/fusion,你的 prompt 就会被一组模型并行处理,再由裁判模型综合分析后输出最终答案。

工作原理

Fusion 的流程分四步:

1. 主模型接收请求,判断当前任务是否需要多模型协商。简单问题直接回答,复杂问题才调用 fusion。

2. 面板模型并行作答。 一组模型同时回答你的 prompt,每个面板成员都启用了 web_search 和 web_fetch 工具,可以独立检索信息。

3. 裁判模型比较分析。 裁判收到所有面板的回答后,输出结构化的 JSON 分析报告,包含:各模型达成共识的要点、相互矛盾之处、部分模型覆盖但其他模型遗漏的内容、单个模型的独到见解、以及所有模型都没涉及到的盲区。

4. 主模型综合输出。 主模型读取裁判的分析报告,写出最终答案。这个过程不是简单拼接,而是基于结构化分析的重新生成。

面板支持 1 到 8 个模型,默认的 Quality 预设包含 Claude Opus、GPT 和 Gemini Pro 三个模型。用户可以自定义面板成员,也可以通过 Budget 预设使用更便宜的组合。

Benchmark 实测

OpenRouter 在 DRACO 深度研究 benchmark(Perplexity 出品,覆盖法律、医学、金融、产品对比等 10 个领域的 100 个复杂研究任务)上测试了不同模型组合的表现:

Fusion Benchmark

**Budget 面板(Gemini 3 Flash + Kimi K2.6 + DeepSeek V4 Pro)**得分为 64%,超过了单独的 GPT-5.5(60%)和 Claude Opus 4.8(58%),与 Claude Fable 5(65%)仅差 1 个百分点,而成本约为 Fable 5 的一半。

**Quality 面板(Claude Opus 4.8 + GPT-5.5 + Gemini 3.1 Pro)**得分为 68%,同样超越了所有单独的前沿模型。

最佳组合 Fable 5 + GPT-5.5 达到约 70%,是目前公开数据中的最高分。

一个有趣的发现是自我协商(self-fusion):让 Opus 4.8 和自己讨论,得分从单独的 58% 提升到 65%,涨幅显著。即使面板中没有模型多样性,多轮采样的综合本身就能带来可观的提升。

性能提升的来源

约 75% 的性能提升来自综合(synthesis),即裁判模型识别和整合多个回答中的有效信息;约 25% 来自多样性(diversity),即不同模型家族带来的差异化视角。

参与测试的所有 Deep Research agent 都认为合并后的回答优于自己的单独回答,100% 的偏好率。

成本与使用

Fusion 的定价是所有底层模型调用的总和,OpenRouter 不加价。面板越大成本越高,但用户可以在 1-8 个模型之间自由选择。

使用方式有两种:

  • 直接将 model 设为 openrouter/fusion,系统自动注入协商工具,默认由 Claude Opus 作为主模型处理最终输出
  • 在任意模型上通过 plugin 启用 fusion,由该模型作为主模型判断是否需要协商。通过 tool_choice: "required" 可以强制每次请求都触发协商

内置递归保护机制确保面板和裁判模型不会再次触发 fusion,协商层级严格限制在一层。

适用场景

Fusion 适合对准确性要求高、容错空间小的场景:深度研究、专家评审、多方案对比分析、任何"答错的代价远高于多调几次模型"的任务。对于简单的问答或创意生成,单模型仍然更高效。

Fusion 的核心价值在于用编排层面的创新替代了对单个模型能力的依赖。与其等下一个"最强模型"发布,不如让现有的多个模型协同工作,在成本可控的前提下获得更好的结果。

来源:OpenRouter Docs · OpenRouter Blog

相关推荐