Anthropic发布"Project Glasswing"的初步更新报告,在Hacker News获得281个点赞和186条评论。这份报告披露了几个关键数字:约50家合作伙伴、Claude Mythos Preview在一个月内发现超过1万个高危或严重级别漏洞、外部审核样本中90.8%的误报率控制。这些数字足够醒目,以至于评论区几乎演变成一场关于"AI驱动的漏洞发现是否已成为成熟品类"的全民公投。
但报告标题中的"初步更新"四个字,值得仔细拆解。这个标签本身是一种承诺,也是一种限制。它承诺了三件事:一是研究方向——面向关键软件漏洞发现的前沿模型与定制脚手架;二是合作结构——约50家具名或未具名合作伙伴用同一模型扫描各自代码库;三是早期数据——23,019个候选发现,1,900个抽样送外部审核,1,726个确认为真阳性,以及合作伙伴的独立报告如Cloudflare的2,000个漏洞(其中400个高危或严重)。
![]()
但它没有承诺的是:一篇可供同行评审的论文;第三方可复现的方法论;假阴性率——报告只公布了通过内部过滤后的候选样本的真阳性率,而非"系统漏掉了代码库中多少真实漏洞";也没有承诺下游结果——发现漏洞不等于生产环境修复、修复耗时、回归率,或披露后的实际攻击面变化。90.8%这个数字是真实的,但其含义取决于从23,019个候选中选出哪1,900个、以及由谁来选。
![]()
这并非否定底层工作的价值。Glasswing报告的做法是正确的:准确标注其主张,不夸大其词。问题出在阅读方式上。这类帖子下 reliably 出现两种误读。第一种是标题数字误读:把"1万个漏洞"抽离语境当作行业基准。将单一组织的内部自报发现数当作基准,正是2024至2025年代码生成能力声明让学界陷入麻烦的根源,而这种思维惯性尚未更新。第二种是复现误读:因为合作伙伴名单里有读者熟悉的名字,就假定方法论已通过独立审计。实际上并没有。合作伙伴用同一模型扫描自己的代码库并反馈结果,这是协作,不是复现。复现意味着另一个实验室、另一组样本、一套有文档记录的方法。
![]()
怀疑者的正确姿态不是 dismiss 这份报告,而是精确区分"状态更新告诉你什么"与"一篇论文会承诺什么"之间的鸿沟。在AI安全领域,这种区分正在变得越来越关键——因为 headline 数字的传播速度,远远快于对其方法论局限性的理解。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.