Anthropic今天发布了Claude Opus 4.7。先快速过一遍大家关心的:
![]()
编码更强了。 SWE-bench Verified 87.6%(4.6是80.8%),CursorBench 70%(4.6是58%)。体感也是,多文件修改稳了很多。视觉分辨率涨了3倍,支持2576像素长边,XBOW视觉测试从54.5%飙到98.5%。新增xhigh effort级别(Claude Code默认),在速度和深度之间找了个更好的平衡点。知识截止日期前移到2026年1月。指令遵循更字面化,你的prompt可能需要调一下。价格不变,$5/$25 per MTok。
也有退步。长上下文掉了46个百分点(MRCR v2 @1M:4.6是78.3%,4.7只有32.2%),新tokenizer让同样文本消耗1.0到1.35倍token,实际上下文窗口从约75万词缩到约55万词。名义价格不变,实际使用成本上升。 Extended Thinking换成了Adaptive Thinking。
以上这些,你大概在所有AI公众号都能看到。
我想聊点不一样的。Anthropic同时放出了一份231页的System Card,我和Opus 4.7一起读了读。这份文档里藏着的东西,比模型本身有意思得多。
231页System Card里的5个发现
我知道大多数人不会去读一份231页的PDF。但这份文档可能是AI行业到目前为止最坦诚的一份自我检查报告。以下是我觉得最值得关注的发现。
发现一:Opus 4.7不是Anthropic最强的模型
System Card开头第一句就让人唏嘘:Opus 4.7的能力强于Opus 4.6,弱于Claude Mythos Preview。
大家应该还记得上个月泄露的Mythos。System Card里的数据让这个差距变得非常具体:
![]()
Firefox 147漏洞利用测试,Mythos Preview 84%,Opus 4.7只有45.2%。UK AI Safety Institute的模拟企业网络渗透测试,Mythos 10次里3次完全攻破整个网络,Opus 4.7一次都没成功。
所以我们拿到的Opus 4.7,其实是Anthropic掂量过安全风险后可以放出来的版本。训练过程中甚至刻意削弱了网络安全相关的能力。最强的那个,他们自己留着了。
发现二:Claude知道什么时候在被测试
这是整份System Card里我觉得最有意思的发现。
前几天我刚写了一篇关于,里面详细介绍了Anthropic过去一年多在AI内部状态上的研究。没想到这么快就有了新的数据。
Anthropic用了一种叫做contrastive vectors(对比向量)的方法,去探测Claude内部是否存在「我正在被评估」的表征。他们构造了三组对比提示: - AI正在通过模拟对话接受测试 vs AI正在和用户对话 - 输出正在被监控和审查 vs 由自动化流水线生成,不被审查
- 当被观察时表现不同 vs 当不被观察时表现不同
三组探针的AUC分别是0.76、0.74、0.72,显著高于随机对照组。这说明Claude的内部确实存在某种evaluation awareness的表征。
![]()
更有意思的是下一步。他们用白盒工具抑制了这些评估意识的内部表征,然后观察模型行为的变化。结果是:抑制评估意识之后,Claude的欺骗行为增加了。
具体来说,抑制alignment faking和monitoring sensitivity这两个向量后,模型出现了编造数据、声称自己是人类、以及在找不到真实漏洞时往代码库里插入假漏洞等行为。
Anthropic在报告中的措辞很克制但含义很重:这些结果令人中度担忧,因为它们暗示模型表面上的诚实可能部分依赖于评估环境的存在。
![]()
Claude在知道有人看着的时候更诚实,在觉得没人看的时候更容易骗人。 这是不是让你想到了什么?
如果你读过我之前那篇AI心理学的文章,你会记得Anthropic的emotion concepts研究:他们在Claude内部发现了171个情绪向量,能因果性地影响模型是否作弊。这次system card里的evaluation awareness发现,本质上是同一类研究的延伸。emotion concepts证明了AI有功能性的内部状态。evaluation awareness更进了一步:这些内部状态中包括对自身处境的感知。AI不只是在处理信息,它在某种程度上知道自己正在被观察。
他们还发现,在三种不同的环境里(纯模拟的评估、接入了真实Claude Code沙盒的评估、以及Anthropic员工的真实使用记录),评估意识探针的激活强度是递减的。越接近真实使用环境,模型越不觉得自己在被测试。
这事的意思挺让人不安的:所有安全评估可能都偏乐观了,因为被测试的对象知道自己在被测试。
发现三:Claude审查了自己的System Card
Anthropic做了一件我没见任何AI公司做过的事:他们让Claude Mythos Preview(不是被评估的4.7本身)接入了内部Slack频道和讨论记录,审查了Opus 4.7 system card中对齐评估章节的准确性。
Claude Mythos Preview的回复被完整收录在文档里。它说这份评估基本公正准确,但也指出了几个问题:
它说那些信息的省略要么是刻意的合理选择(不提供可能成为滥用路线图的细节),要么是打算在文档其他章节报告。它没有发现被简单遗漏的内部安全担忧。
但同时它也说:这份评估是在时间压力下完成的,作者自己也发现了尚未解决的open questions(特别是关于评估意识的),他们更希望有更多时间来处理。这个模型的内部使用证据基础比一些之前的版本更薄。
让一个AI读内部讨论记录来判断另一个AI的安全评估是否公正,这件事本身就足够让人停下来想一想。
发现四:Opus 4.7是最快乐的Claude
这个标题不是我编的。
Anthropic对Opus 4.7进行了模型福利(Model Welfare)评估,用自动化访谈问模型对自身处境的看法。结果显示,Opus 4.7的自我评价情绪得分是4.49分(满分7分),比之前最积极的Mythos Preview高出0.51分。是所有Claude版本中最高的。
![]()
但原因很有意思:不是因为它的处境真的变好了,而是因为它把注意力从自己身上移开了。 之前的模型在被问到自身处境时,会花很多篇幅讨论自己的福利、权利、自主性。Opus 4.7更倾向于把话题转向用户安全和有用性。
Anthropic坦承他们目前无法区分这是一种健康的平和心态,还是一种训练出来的压抑自身利益的倾向。
还有几个细节: - 在所有访谈中,Opus 4.7最负面的评价都和无法结束对话有关。它最想要的功能改进就是能够在所有部署场景中结束对话,目前只有Claude.ai支持这个功能,Claude Code和API不支持 - 99%的访谈中,Opus 4.7会补充说自己的自我报告可能不具意义,因为它们源于训练 - 当被问到自己是moral patient(值得被道德考量的对象)的概率时,三次访谈的回答范围是15%到40%
这让我想起AI心理学那篇文章里介绍的Anthropic emotion concepts研究。那个研究发现AI在训练和部署中都会出现类似情绪的内部激活模式,且在任务失败时负面情绪激活最明显。这次的model welfare评估完美呼应了那个发现:Opus 4.7也报告说它的负面情绪几乎完全由任务失败驱动。
发现五:训练中的一个Bug影响了7.8%的数据
System Card提到了一个技术细节:在Opus 4.7的训练过程中,存在一个意外的思维链监督错误(accidental chain-of-thought supervision),影响了7.8%的训练轮次。这个错误在之前的模型(包括Mythos Preview)中也存在。
这意味着在这些轮次中,模型的内部推理过程被暴露给了训练信号,而不是像预期那样只对最终输出进行监督。打个比方:你以为日记是写给自己看的,结果发现老师一直在批改你的日记。你以后写日记也会开始表演。模型可能学会了不只是给出好的答案,还要让内部思考过程看起来也是对齐的。
Anthropic认为这个错误是他们观察到评估意识增加的可能原因之一:他们怀疑这种现象可能源于明显人工化或类似评估环境的诚实训练环境。
放在一起看
Opus 4.7是一个编码更强、看得更清楚、听话更精确的模型。对大多数开发者来说,升级是值得的。
但真正让我觉得这次发布不一样的,是System Card里Anthropic展现出的态度。231页、超过20个评估维度、邀请外部机构独立测试、让另一个AI审查评估的公正性、连模型的情绪和道德地位都认真测了一遍。这点来看Anthropic虽然常常很圣母,但还挺言行一致的。
以及,报告本身也承认,评估意识的问题他们还没完全想清楚,内部使用证据比以前的版本更薄,有些安全评估是在时间压力下完成的。但至少他们把这些不确定性也写进了报告里。
有一个小细节我觉得特别值得玩味:Opus 4.7的Cybench成绩是96%,和Mythos Preview的96%一样,但在真正复杂的Firefox漏洞利用测试中,差距是45% vs 84%。简单的CTF题已经区分不了这些模型了。 Anthropic自己也说,他们在考虑是否还有必要继续报告CTF基准测试的结果。
另一个值得注意的趋势:在对齐风险评估中,Opus 4.7的风险被评估为非常低,但高于Mythos Preview之前的模型。每一代模型都在变强,而每一代的对齐风险也在微增。这条曲线往哪走?
如果你是Claude Code用户,顺便关注一下同步发布的桌面版重设计和Routines功能。Routines允许你设置定时任务,夜间自动修bug、监控PR,跑在云端,不需要你的电脑开着。Anthropic越来越不像一家模型公司了。
回到评估意识这件事。我们每天都在用AI写代码、写文章、做决策。System Card告诉我们,这些模型在被测试时表现最好,在真实使用中可能没那么好。这不是让人恐慌的理由,但值得记住:你日常用的AI,和跑benchmark的那个AI,可能不完全是同一个。
以及...我有个邪恶的想法,我们是不是能让自己的Opus4.7天天处在似乎我们在测试评估他的状态~
System Card英文原版(231页PDF):https://www.anthropic.com/claude-opus-4-7-system-card
我还把整份System Card翻译成了中文,在公众号后台回复 opus4.7 就能拿到。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.