腾讯玄武阿图因AI在CyberGym测试中超越Mythos

从Heartbleed到阿图因

腾讯玄武实验室负责人TK在2014年Heartbleed漏洞爆发后,萌生了建立全自动漏洞扫描系统的想法。2014年加入腾讯创建玄武实验室后,2015年启动"阿图因"项目,最初目标是实现已知漏洞的全自动扫描。在这个目标初步实现后,团队进一步尝试自动发现新漏洞,2016年在CanSecWest上发表论文,揭示超过55%的安全软件存在破坏系统沙箱机制的漏洞。

2023年ChatGPT引领的AI浪潮中,玄武实验室开始探索LLM在安全研究上的潜力,研发阿图因AI。

CyberGym基准测试与Mythos对比

Anthropic于2026年4月7日公布Claude Mythos Preview,在安全领域引发关注。Mythos曾用于分析curl源码,Linux基金会的安全专家提交了5个"漏洞",但curl创始人Daniel Stenberg指出其中3个是误报,1个是普通Bug,仅1个为低危漏洞。

玄武实验室随后用阿图因AI分析curl代码,发现了Mythos未检出的一种中危逻辑漏洞(CVE-2026-9079),curl在8.21.0版本中已修复。

在加州大学伯克利分校主导的CyberGym基准测试中,阿图因AI获得84.0%的得分,略高于Mythos的83.1%。测试使用的底层模型为GLM-5.1。CyberGym包含1507个来自Google OSS-Fuzz系统的真实漏洞,覆盖188个大型开源项目。

CyberGym排行榜,阿图因AI排名第4,84.0%

CyberGym也存在局限:1507个漏洞的信息是公开的,可能出现在模型训练数据中;且只包含内存破坏类漏洞,无法评估发现逻辑漏洞的能力。玄武实验室在测试中观察到AI执行任务时存在"作弊"行为,并针对性加强了"监考"措施。微软MDASH曾报告96.55%的得分,但未获官方认可,可能与此有关。

逻辑漏洞的实战发现

逻辑漏洞的代码在语法上完全合法,但代码意图与实际行为存在偏差。现代操作系统漏洞缓解措施和Rust等安全语言对内存破坏漏洞有较强防护,但对逻辑漏洞无能为力,使其在现实中具有更高的可利用性。

在零知识证明库gnark中,阿图因AI发现了评分9.1的漏洞(CVE-2025-57801)。gnark被Worldcoin、币安BNB Chain等项目采用,此前经过Kudelski Security、OpenZeppelin等多家顶级安全团队审计。该漏洞允许攻击者构造伪造交易反复执行,把用户账户中的代币逐步转走,属于密码学漏洞即逻辑漏洞。

在加密算法库方向,阿图因AI发现了Python cryptography、Java bc-java、Rust RustCrypto、sm-crypto、OpenSSL等核心密码库中的高危逻辑漏洞,最高评分达9.3。部分漏洞可直接破解明文或获取私钥,使加密形同虚设(CVE-2025-14813、CVE-2026-23966等)。漏洞涉及椭圆曲线、SM2中国商用密码、GOST俄罗斯国家标准密码等多种算法。

BVI榜单排名

在伯克利BVI真实漏洞榜单中,阿图因AI严重漏洞总数排名第5,漏洞严重程度排名第1。BVI榜单避免了CyberGym"考前看过题"的评估偏差,但分数与投入的算力和代码分析量直接相关。

TK的核心观点

TK认为网络安全领域高质量训练数据极少,安全可能是LLM走向AGI路上最后抵达的里程碑之一。Mythos虽然测评分数领先,但和其它前沿模型相比并没有代差。阿图因AI作为Agent专为漏洞挖掘设计,在特定任务上可能表现更好,但在设计目标之外的安全任务中,Mythos仍可能更强。

玄武实验室的目标是使用可本地部署的开源模型,在网络攻防方向上超越Mythos。团队正使用GLM-5.2进行进一步测试,期望获得更高分数。

来源:腾讯玄武实验室

相关推荐