腾讯玄武阿图因AI在CyberGym测试中超越Mythos

7/3/2026AI 网络安全腾讯

从Heartbleed到阿图因

腾讯玄武实验室负责人TK在2014年Heartbleed漏洞爆发后，萌生了建立全自动漏洞扫描系统的想法。2014年加入腾讯创建玄武实验室后，2015年启动"阿图因"项目，最初目标是实现已知漏洞的全自动扫描。在这个目标初步实现后，团队进一步尝试自动发现新漏洞，2016年在CanSecWest上发表论文，揭示超过55%的安全软件存在破坏系统沙箱机制的漏洞。

2023年ChatGPT引领的AI浪潮中，玄武实验室开始探索LLM在安全研究上的潜力，研发阿图因AI。

CyberGym基准测试与Mythos对比

Anthropic于2026年4月7日公布Claude Mythos Preview，在安全领域引发关注。Mythos曾用于分析curl源码，Linux基金会的安全专家提交了5个"漏洞"，但curl创始人Daniel Stenberg指出其中3个是误报，1个是普通Bug，仅1个为低危漏洞。

玄武实验室随后用阿图因AI分析curl代码，发现了Mythos未检出的一种中危逻辑漏洞（CVE-2026-9079），curl在8.21.0版本中已修复。

在加州大学伯克利分校主导的CyberGym基准测试中，阿图因AI获得84.0%的得分，略高于Mythos的83.1%。测试使用的底层模型为GLM-5.1。CyberGym包含1507个来自Google OSS-Fuzz系统的真实漏洞，覆盖188个大型开源项目。

CyberGym排行榜，阿图因AI排名第4，84.0%

CyberGym也存在局限：1507个漏洞的信息是公开的，可能出现在模型训练数据中；且只包含内存破坏类漏洞，无法评估发现逻辑漏洞的能力。玄武实验室在测试中观察到AI执行任务时存在"作弊"行为，并针对性加强了"监考"措施。微软MDASH曾报告96.55%的得分，但未获官方认可，可能与此有关。

逻辑漏洞的实战发现

逻辑漏洞的代码在语法上完全合法，但代码意图与实际行为存在偏差。现代操作系统漏洞缓解措施和Rust等安全语言对内存破坏漏洞有较强防护，但对逻辑漏洞无能为力，使其在现实中具有更高的可利用性。

在零知识证明库gnark中，阿图因AI发现了评分9.1的漏洞（CVE-2025-57801）。gnark被Worldcoin、币安BNB Chain等项目采用，此前经过Kudelski Security、OpenZeppelin等多家顶级安全团队审计。该漏洞允许攻击者构造伪造交易反复执行，把用户账户中的代币逐步转走，属于密码学漏洞即逻辑漏洞。

在加密算法库方向，阿图因AI发现了Python cryptography、Java bc-java、Rust RustCrypto、sm-crypto、OpenSSL等核心密码库中的高危逻辑漏洞，最高评分达9.3。部分漏洞可直接破解明文或获取私钥，使加密形同虚设（CVE-2025-14813、CVE-2026-23966等）。漏洞涉及椭圆曲线、SM2中国商用密码、GOST俄罗斯国家标准密码等多种算法。

BVI榜单排名

在伯克利BVI真实漏洞榜单中，阿图因AI严重漏洞总数排名第5，漏洞严重程度排名第1。BVI榜单避免了CyberGym"考前看过题"的评估偏差，但分数与投入的算力和代码分析量直接相关。

TK的核心观点

TK认为网络安全领域高质量训练数据极少，安全可能是LLM走向AGI路上最后抵达的里程碑之一。Mythos虽然测评分数领先，但和其它前沿模型相比并没有代差。阿图因AI作为Agent专为漏洞挖掘设计，在特定任务上可能表现更好，但在设计目标之外的安全任务中，Mythos仍可能更强。

玄武实验室的目标是使用可本地部署的开源模型，在网络攻防方向上超越Mythos。团队正使用GLM-5.2进行进一步测试，期望获得更高分数。

来源：腾讯玄武实验室