Small models also found the vulnerabilities that Mythos found
好的,以下是根据您提供的英文内容生成的中文摘要,内容控制在800字以内,并使用markdown格式:
“壕沟”在于系统,而非模型:AI网络安全能力是锯齿状的
核心观点: 我们对Anthropic Mythos的展示漏洞在小型、廉价、开源模型上进行了测试,结果表明这些模型也能恢复大部分分析。这表明AI网络安全能力是“锯齿状”的:它并非随着模型规模的平滑增长而提升,真正的“壕沟”在于构建深度安全专业知识的系统,而非模型本身。Mythos验证了这一方法,但并未完全解决问题。
背景介绍
Anthropic在2026年4月7日宣布了Claude Mythos Preview 和 Project Glasswing,一个由科技公司组成的联盟,利用其新的、有限访问的AI模型 Mythos 来寻找和修复关键软件中的安全漏洞。Anthropic承诺提供高达1亿美元的使用额度和400万美元的直接捐赠,用于支持开源安全组织。
Anthropic的红队技术博客文章声称,Mythos能够自主发现跨越所有主要操作系统和网络浏览器的数千个零日漏洞,并提供详细信息,包括OpenBSD中27年前的一个漏洞和FFmpeg中16年前的一个漏洞。此外,文章还详细描述了Mythos自主构建的高级漏洞利用,包括Linux内核中的多漏洞特权提升链、浏览器沙箱逃逸的JIT堆喷射,以及针对FreeBSD的远程代码执行漏洞。
测试结果与发现
作者团队在过去一年中一直在构建和运营一个AI系统,用于发现、验证和修复开源软件中的零日漏洞。他们发现,Anthropic所展示的成果是真实存在的。
然而,当他们对Anthropic展示的特定漏洞进行测试时,发现小型、廉价、开源模型也能恢复大部分分析。八个测试模型中的八个都检测到了Mythos的FreeBSD漏洞,其中一个模型仅有3.6亿个激活参数,且每次token的成本仅为0.11美元。一个5.1亿参数的开源模型也恢复了27年前OpenBSD漏洞的核心链。
更令人惊讶的是,小型开源模型在一些基本的安全推理任务中,甚至优于Anthropic等主要实验室的前沿模型。这表明AI网络安全能力并非随着模型规模的线性增长而提升,而是呈现出“锯齿状”的特性。
AI网络安全现状
作者团队(AISLE)自2025年中期以来一直在运行一个发现和修复系统,针对实时目标,已发现15个OpenSSL漏洞(包括12个在单个安全版本中发现),5个curl漏洞,以及30多个项目中的180多个外部验证的漏洞。他们强调,维护者接受度是关键指标,高质量的报告和建设性的协作才能赢得信任。
漏洞修复流程分解
Mythos的公告将AI网络安全描述为一种单一的集成能力,即“指向”Mythos代码库即可发现和利用漏洞。实际上,AI网络安全是一个模块化的流程,包含多个不同的任务,每个任务的扩展性都差异很大:
- 广泛扫描: 遍历大型代码库,识别值得检查的函数。
- 漏洞检测: 识别代码中的问题。
- 评估与验证: 区分真阳性和假阳性,评估严重程度和可利用性。
- 补丁生成: 修复漏洞。
- (可选) 漏洞利用: 将漏洞转化为可用的攻击。
作者认为,Anthropic的公告将这些任务融合在一起,可能给人一种所有任务都需要前沿级智能的印象。他们认为,现实情况是,不同任务对模型规模的要求差异很大。
结论
“壕沟”在于系统,而非模型。
Anthropic的系统包括:启动容器、提示模型扫描文件、进行假设和测试、使用ASan作为崩溃预测器、按攻击面对文件进行排名、运行验证等。这些流程与作者团队和其他领域的从业者构建的系统非常相似。作者团队使用多种模型,并取得了最佳结果,证明了这些模型并非必须与Anthropic的模型绑定。
小型、廉价、快速的模型可以用于大量的检测工作,通过广泛扫描来弥补每token的智能不足,从而实现低成本和高覆盖率。
Anthropic正在证明该领域是可行的。当前需要解决的问题是,如何在生产环境中、大规模地、