Anthropic 发布 Claude Sonnet 5:代理能力逼近 Opus 4.8,限时低价

Anthropic 于 2026 年 6 月 30 日发布 Claude Sonnet 5,定位为迄今代理能力最强的 Sonnet 级模型。该模型能够自主规划任务、操作浏览器和终端,在复杂多步骤工作流中独立运行。

Claude Sonnet 5

性能提升

Sonnet 5 在推理、工具使用、编码和知识工作等关键维度上全面超越前代 Sonnet 4.6,整体性能已接近 Opus 4.8 水平。Anthropic 在 BrowseComp(代理搜索评估)和 OSWorld-Verified(计算机使用评估)两个基准上的测试显示,Sonnet 5 在中等 effort 级别下提供了显著改善的性价比,在更高 effort 下部分任务可匹配 Opus 4.8。

Sonnet 5 Benchmark 对比

定价

Claude Platform 限时定价(至 2026 年 8 月 31 日):输入 2 美元/百万 token,输出 10 美元/百万 token。之后调整为输入 3 美元、输出 15 美元。作为对比,Opus 4.8 的定价为输入 5 美元、输出 25 美元。Sonnet 5 的成本约为 Opus 4.8 的 40%。

安全评估

Anthropic 的安全评估显示,Sonnet 5 的不良行为率低于 Sonnet 4.6,在拒绝恶意请求和抵抗提示注入攻击方面表现更好,幻觉和迎合行为(sycophancy)率也有所降低。在网络安全能力方面,Anthropic 明确表示未专门训练 Sonnet 5 的网络安全能力,其在 Firefox 漏洞利用评估中的表现远低于 Opus 4.8。

可用性

Sonnet 5 即日起面向所有套餐开放,成为 Claude Free 和 Pro 的默认模型,同时向 Max、Team 和 Enterprise 用户开放。开发者可通过 Claude API 使用 model ID claude-sonnet-5 调用。

来源:Anthropic

相关推荐