Anthropic 泄露草案暴露新模型 Claude Mythos:Opus 之上的新层级与网络安全风险

Anthropic 因 CMS 配置失误意外泄露内部草案,其中最引人注目的是一份关于新模型 "Claude Mythos" 的产品公告草稿。

泄露文件显示,这个新模型在 Anthropic 内部的品牌层级叫 "Capybara",定位在现有的 Opus 之上——换句话说,Anthropic 准备在 Opus 4.6 之上再开一个更高级别的产品线。草案称,Capybara 在编程、学术推理和网络安全测试上的得分"大幅领先"现有的 Claude Opus 4.6。

Claude Mythos 配图

Anthropic 在给 Fortune 的声明中承认正在测试这个模型,称其代表"AI 性能上的阶梯式跨越",是目前"构建过的最强模型"。公司强调目前只向少数早期访问客户开放,并表示运行成本较高,尚未准备好面向公众发布。

网络安全:攻防双用的灰色地带

这批泄露材料中最值得留意的部分,是 Anthropic 对网络安全风险的评估。

草案中明确表示,该模型"在网络安全能力上远超目前任何其他 AI 模型",并警告它预示着"一波 AI 驱动的漏洞利用浪潮即将到来"。Anthropic 的措辞相当直白:

它在发现代码漏洞方面远远领先于防御方的应对速度。

基于这一判断,Anthropic 采取了审慎的发布策略:优先向安全防御方向的组织开放早期访问,让他们"在 AI 驱动的漏洞攻击浪潮到来之前,先加固自己的代码库"。

这和 OpenAI 二月份发布 GPT-5.3-Codex 时的做法类似。当时 OpenAI 将该模型标注为网络安全领域的"高能力"模型,并称其是第一个专门针对软件漏洞识别进行训练的模型。Anthropic 自身的 Opus 4.6 也在同一周展示了在真实代码库中发现此前未知漏洞的能力。

Anthropic 此前还报告过,包括中国政府关联黑客组织在内的攻击者已经尝试在实际网络攻击中利用 Claude。其中一个案例中,中国国家级黑客组织使用 Claude Code 对约 30 个组织(涵盖科技公司、金融机构和政府机构)发起协调攻击,被 Anthropic 发现后封禁并通知了受影响方。

泄露本身:CMS 配置失误

这批未公开材料的泄露原因是 Anthropic 使用的外部内容管理系统(CMS)配置问题。安全研究人员 Roy Paz(LayerX Security)和 Alexandre Pauwels(剑桥大学)分别发现并确认了这一数据暴露。

泄露的数据存储中包含近 3000 个与 Anthropic 博客相关的资产,其中大部分是过往博客文章废弃的图片、横幅和 logo,但也包括一些本应保密的内部文档,比如一份关于即将在英国举办的邀请制 CEO 峰会的 PDF。

Anthropic 在声明中将此归咎于"人为错误",表示是外部 CMS 工具的问题导致草稿内容可被公开访问。Fortune 通知 Anthropic 后,公司关闭了该数据存储的公开搜索和访问权限。

模型命名与层级

目前 Anthropic 的模型品牌层级为三级:最强大的版本叫 Opus,次一级的是 Sonnet(更快更便宜),最小最便宜的是 Haiku。

Capybara 的出现意味着 Anthropic 计划在 Opus 之上新增一个更高层级。"Capybara" 和 "Claude Mythos" 看起来指向同一个底层模型,前者是品牌层级名,后者可能是具体型号名。草案中 Anthropic 明确写道:

Capybara 是一个新层级:比 Opus 更大、更智能,但也更贵。

目前该模型尚未公开发布,Anthropic 也未公布正式发布时间表。从泄露的草案措辞来看,公司在网络安全风险评估完成之前,不太可能大幅扩大访问范围。

来源: Fortune

相关推荐