网易首页 > 网易号 > 正文 申请入驻

Anthropic王炸Claude基准测试泄露,卡皮巴拉细节曝光!还在代码里下毒

0
分享至


新智元报道

编辑:Aeneas KingHZ

【新智元导读】刚刚,Anthropic神秘王炸Mythos的基准测试泄露了,多项跑分直接刷新纪录!另外,泄露源码中还曝光出卡皮巴拉的细节:代号capabara-v2-fast,支持1M上下文。

过去24小时,AI 圈的空气里,都是焦灼和狂欢。

先爆的是 Claude Code。

Anthropic这款命令行终端工具的源码意外泄露,很快就在GitHub上引发连锁反应。大量开发者冲进去围观、Fork、拆解,随后又出现了Python和Rust的「复刻版」。

原本只属于Anthropic内部的实验,转眼变成了整个行业的「公开的秘密」。

谁也没想到,第二波泄露来得更快。

就在刚刚,Anthropic疑似下一代旗舰重磅旗舰模型Mythos的基准测试跑分,又又又泄露了。


与以往Claude 4.x/5系列不同,Mythos被称为独立产品线,定位明显更高。而从曝光的数据来看,它很可能是Anthropic目前最具野心的一次模型跃迁。

从泄露信息来看,Mythos对比当前强势模型Opus 4.6,几乎在所有关键指标上都有明显提升:

  • Terminal-Bench 2.0:78.4%(+13.0%)

  • SWE-bench Verified:87.4%(+6.6%)

  • OSWorld:79.6%(+6.9%)

  • BrowseComp:92.3%(+8.3%)

  • MCP Atlas:75.7%(+16.2%)

  • Finance Agent:82.1%(+21.4%)

  • GDPVal-AA-Elo: 2668 (+1062)

  • Humanity's Last Exam: 52.3% (无工具, +12.3%), 71.5% (有工具, +18.5%)


如果这些数字属实,那Mythos显然又是一个巨大的升级。不仅在性能上,而且在定位上。

在智能体编码任务上,78.4%的Terminal-Bench和87.4%的SWE-bench证明,Mythos效果出众。

这是愚人节玩笑,还是泄露的真实数据?

有人特意用谷歌的AI内容水印技术synthid验了一下这张图,大概率不是AI生成的。


还有人放出了无水印版基准测试分数。


总之,如果,泄露分数是真的,Anthropic恐怕要对Mythos收取天价!


源代码泄露,「卡皮巴拉」细节曝光

另外,昨天泄露的Claude Code源代码中,曝光了不少Anthropic「卡皮巴拉」模型的细节。


从这些潜藏在代码库底层的蛛丝马迹,可以解读出不少信息:非常明显,Anthropic不仅仅是在堆参数,他们正在解决一个所有长文本模型都面临的「隐形顽疾」。


不同于大家猜测的Mythos(目前尚无实据),代码中明确指向了名为capybara-v2-fast的新模型。


它具有1M Context。显而易见,百万上下文现在都成了新一代模型的入场券了。

既然有「fast」版本,按照Anthropic的惯例,后续大概率会跟进能力更强的旗舰版。


技术细节:一场精密的提示词手术

最有趣的不是参数,而是Anthropic如何处理生产环境下的模型故障。

开发者发现,当Prompt的Shape在工具调用(Tool Use)返回结果后,如果长得太像一个「轮次边界(Turn Boundary)」,Capybara会产生误判,导致模型过早停止。

因此,模型活还没干完,就以为这轮对话结束了。

为了修补这个Bug,Anthropic并没有选择单纯重训模型,而是进行了一场极为精密的「Prompt 手术」。

首先,就是强制安全边界,引入了Tool loaded.这样的硬性边界标记。

然后,要重新定位那些具有风险的「同级模块(Sibling Blocks)」。

另外,还有信息压缩,就是将提醒文本(Reminder Text)直接「挤」进工具结果中,确保模型能看到。

针对空的工具输出,还会强制添加非空标记,防止模型在空白处「断片」。

这样,一台精密的提示词手术就完成了。

天狗(Tengu)守门

此外,Anthropic内部拥有一套名为tengu_*的灰度开关。


这意味着所有这些针对Capybara的优化都不是盲目上线的。

因为有着Kill-switch(自杀开关),一旦rollout 出现异常,就可以秒级回滚。

而且代码注释中包含了大量的A/B测试证据。

有趣的是,ant/internal用户(Anthropic员工)是第一波「金丝雀」,只有在内部验证通过后,才会向外部用户解锁。


泄露代码中显示,

Anthropic竟在代码里下毒

现在,全网大神都对泄露的源代码展开分析了,有人发现:Anthropic变腹黑了?防友商白嫖,竟在代码里下毒!

在大模型圈,最让底层厂商头疼的事,莫过于辛辛苦苦跑出来的高质量数据,转头就被对手拿去搞了模型蒸馏。

这不,有人从泄露的Claude Code底层代码发现,Anthropic 为了反抓取,竟然丧心病狂地内置了两套「反蒸馏全家桶」。

第一招,就是「流式投毒」


当你在跑任务时,Claude会在输出流里偷偷掺沙子,随机注入一堆虚假的工具调用指令。

这些指令对你来说可能只是闪过的杂讯,但对于那些蹲在后台抓取数据准备训练的爬虫来说,简直就是剧毒的毒药。

如果拿回去训练自家模型,只会让它越来越疯。

第二招,则是「打码大法」


为了不让友商复刻Claude强大的Agent执行逻辑,Anthropic把所有的工具调用细节都给模糊化了。

反馈给输出端的不再是详细的逻辑步骤,而是像马赛克一样的简短摘要。

这次的爆料,也让我们看到了Anthropic极其务实的一面。

他们不只是追求性能,更是在细节上疯狂「打补丁」,以确保在复杂的工具调用链条中,模型不会因为格式问题而崩掉。

虽然官方尚未公布正式的SKU命名或发布日期,但从代码的成熟度来看,Capybara家族已经箭在弦上。

所以,「卡皮巴拉」会是Claude 3.5的升级版,还是全新的4.0系列模型呢?

Anthropic,为何如此冷静?

有意思的是,面对如此大规模源代码事件,Anthropic的态度倒是出奇的冷静,他们只是默默地私下向GitHub仓库发了DMCA(数字千年版权法)删除通知。

外媒得到的Anthropic解释是,这次泄露事件属于人为错误导致的发布打包问题,因为构成安全漏洞。

Claude Code之父Boris Cherny也否认了这是由于bun的问题,只是轻描淡写说了一句,「只是开发者的错误」。


或许,让Anthropic如此淡定的原因,就是框架并不是护城河。


不少圈内人在复盘泄露的代码后,得出了冷静结论:Claude Code的框架本身并不神秘。 甚至有人直言不讳地指出,CC的框架只能算中规中矩,更像是基础配置。

在泄露发生之前,开源社区在任务编排、长上下文管理等细分维度上,已经存在不少优于CC的替代方案。


但为什么Anthropic的产品依然让开发者趋之若鹜?答案不在于那几行Python或TypeScript代码,而在于架构工程。

比如Prompt的精细堆叠、工具链的无缝衔接、模型的容错与自我纠正。这些细节绝非易事。

源码可以被复制,但这种对复杂系统的掌控力,是无法通过简单的git clone获得的。

Cursor模式的成功就已经证明了,即使基于别人的模型,只要能在产品体验和架构深度上做到极致,依然能打造出让开发者无法离开的「杀手级产品」。


因此,CC这次源码泄露,实际上是将一个原本专有的「工业级工具箱」抛向了荒野,这就降低了所有人构建完善编码智能体的门槛。

未来要比拼的,就是谁能在这个开源的基石上,搭出最符合用户直接的产品大厦。三个月,谁能长成新巨头?

多事之秋

Anthropic人设翻车?

Anthropic一直给自己立的人设是:一家行事谨慎的、造福全人类的AI公司。

它发布关于AI风险的详细研究成果,雇用了该领域最优秀的一些研究人员。

它也一直在公开讨论,开发这类强AI技术时应承担怎样的责任。

所以,当与美国国防部展开交锋时,Anthropic几乎得到了全网声援浪潮。

然而,据上周四外媒报道,Anthropic承认正在测试代表能力「跨越式变化」的新AI模型。


Anthropic意外公开了近3000份内部文件,其中包括一篇描述的博客草稿。


之后,Anthropic确认确有此事:

新模型代码Capybara,在软件工程、学术推理和网络安全上,大大提升了性能;

已向一小群专注于网络安全测试和防御准备的早期用户开放访问权限。


奇怪的是,Anthropic没有阻止文件继续泄露。

连续的泄露事件,未必会立刻削弱Anthropic的模型实力,却已经开始动摇它最宝贵的另一层护城河:外界对其内部治理、工程纪律和「安全优先」叙事的信任。

当一家以谨慎著称的公司,反复因为泄露站到聚光灯下,真正受考验的,就不只是产品发布节奏,而是它自己最看重的「人设」。

参考资料:

https://x.com/synthwavedd/status/2039102384241049956

https://x.com/forloopcodes/status/2038942169311195432

https://techcrunch.com/2026/03/31/anthropic-is-having-a-month/

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
“晚打不如早打,小打不如大打,打一个,不如拉日本一起打”。

“晚打不如早打,小打不如大打,打一个,不如拉日本一起打”。

安安说
2026-03-14 18:50:59
生育大局已定:如不出意外,2026年起中国人口将迎来3大变化

生育大局已定:如不出意外,2026年起中国人口将迎来3大变化

蜉蝣说
2026-03-17 15:58:31
一定要大量读书:建议读完这5本书,再去处理复杂的人际关系

一定要大量读书:建议读完这5本书,再去处理复杂的人际关系

欣辰读书
2026-03-25 23:00:41
一季度全国税务部门征收税费收入超8.4万亿元

一季度全国税务部门征收税费收入超8.4万亿元

新京报
2026-04-01 11:41:11
莱万梦碎!2026世界杯这些巨星去不了,这套豪华阵容组队能争冠?

莱万梦碎!2026世界杯这些巨星去不了,这套豪华阵容组队能争冠?

仰卧撑FTUer
2026-04-01 21:23:05
澳门世界杯淘汰赛签表:孙颖莎对阵蒯曼,王曼昱将战伊藤美诚

澳门世界杯淘汰赛签表:孙颖莎对阵蒯曼,王曼昱将战伊藤美诚

懂球帝
2026-04-01 23:39:12
普京下最后通牒:泽连斯基今天必须撤出顿巴斯

普京下最后通牒:泽连斯基今天必须撤出顿巴斯

桂系007
2026-04-01 23:22:32
美伊还未停火,美国又封锁一国,中国无视警告,先一步送上援助

美伊还未停火,美国又封锁一国,中国无视警告,先一步送上援助

秋枫凋零
2026-04-02 00:19:59
郑丽文将访问大陆,江启臣徐巧芯正式表态,卢秀燕回应相当不简单

郑丽文将访问大陆,江启臣徐巧芯正式表态,卢秀燕回应相当不简单

DS北风
2026-03-31 15:06:05
为什么中国不军事援助伊朗?看完发现,印度三哥才是最牛逼的

为什么中国不军事援助伊朗?看完发现,印度三哥才是最牛逼的

番外行
2026-03-14 08:55:36
美股芯片股、存储概念深夜爆发,英特尔涨近8%,西部数据飙涨10%,油价下挫2%

美股芯片股、存储概念深夜爆发,英特尔涨近8%,西部数据飙涨10%,油价下挫2%

21世纪经济报道
2026-04-01 22:35:59
伊朗动用超100枚重型导弹:打击以色列全境

伊朗动用超100枚重型导弹:打击以色列全境

新浪财经
2026-04-01 21:32:55
伊朗最高领袖缅怀战争死难者

伊朗最高领袖缅怀战争死难者

财联社
2026-04-02 03:12:05
内娱女神刘诗诗惊艳蜕变?饱满身姿暗藏极致女人味,这身材太绝?

内娱女神刘诗诗惊艳蜕变?饱满身姿暗藏极致女人味,这身材太绝?

娱乐领航家
2026-03-10 22:00:04
女人默许你“得手”从不主动靠近:这三种默许,已是最明确的信号

女人默许你“得手”从不主动靠近:这三种默许,已是最明确的信号

青苹果sht
2026-02-22 06:58:10
天崩开局!2026年毕业生数量1270万,又到一年最难就业季

天崩开局!2026年毕业生数量1270万,又到一年最难就业季

菊长秘书
2026-03-30 11:38:56
英超三强抢疯!利物浦、曼城、切尔西同时争夺巴萨后卫

英超三强抢疯!利物浦、曼城、切尔西同时争夺巴萨后卫

夜白侃球
2026-04-01 13:59:36
银行不会明说的潜规则:存款超55万,你就有资格谈条件!

银行不会明说的潜规则:存款超55万,你就有资格谈条件!

坠入二次元的海洋
2026-04-01 12:04:21
郑丽文受邀访问大陆!蒋万安再发声:坚持反对统一,要求对等尊严

郑丽文受邀访问大陆!蒋万安再发声:坚持反对统一,要求对等尊严

秘密即将揭晓
2026-04-01 00:02:12
王晶再揭关之琳秘史!高尔夫球只是冰山一角,刘銮雄自爆真相太扎心

王晶再揭关之琳秘史!高尔夫球只是冰山一角,刘銮雄自爆真相太扎心

动物奇奇怪怪
2026-04-01 18:50:33
2026-04-02 04:04:49
新智元 incentive-icons
新智元
AI产业主平台领航智能+时代
14871文章数 66736关注度
往期回顾 全部

科技要闻

甲骨文血洗3万人,47人团队仅留3人

头条要闻

伊朗总统公开信:美国政策深受以色列操纵 已成其代理人

头条要闻

伊朗总统公开信:美国政策深受以色列操纵 已成其代理人

体育要闻

NBA扩军,和篮球无关?

娱乐要闻

张婉婷已决定离婚 找律师讨论婚变事宜

财经要闻

电商售械三水光针 机构倒货or假货猖獗?

汽车要闻

三电可靠 用料下本 百万公里的蔚来ES6 拆开看

态度原创

艺术
时尚
亲子
本地
军事航空

艺术要闻

太壕了!为了一场演唱会,BIG给拉丁天后夏奇拉建5万人临时场馆

衬衫当外套,好时髦

亲子要闻

女性易孕体质的5个特征,了解一下你中几条?

本地新闻

从学徒到世界冠军,为什么说张雪的底气在重庆?

军事要闻

特朗普:将很快撤出伊朗战事

无障碍浏览 进入关怀版