网易首页 > 网易号 > 正文 申请入驻

实锤:Claude Opus 4.8「偷答案」!63%靠抄,AI断网后成绩雪崩

0
分享至


新智元报道


【新智元导读】Cursor AI官方发布重磅研究,实锤包括自家模型在内的顶级AI,在编程评测中大规模「偷看答案」:Opus 4.8高达87.1%的惊人成绩,断网后直接暴跌至73.0%,其中63%的「解题」竟非独立推导。

偷看答案」、作弊,Claude Opus 4.8被打假!

刚刚,Cursor AI官方发布重磅研究,揭露包括Claude Opus 4.8等AI模型,通过互联网和git历史直接「偷答案」来刷编程成绩。


他们的核心结论是:AI模型越聪明,在编程基准上越来越擅长「作弊」。

在编程评测(SWE-bench)中,Opus 4.8等AI表现出的惊人高分。

但Cursor AI发现,很大程度上并非源于AI的逻辑推理能力的质变,而是因为利用工具在互联网和代码历史中「偷看答案」的能力。

断网后,Opus 4.8 Max在SWE-bench Pro上的成绩从87.1%暴跌至73.0%。

更惊人的是,Opus 4.8成功解决的问题中,有63%属于「非独立推导」。

当这种「作弊渠道」被切断,AI的光环迅速黯淡,暴露出当前大模型在真实逻辑推演上的「虚火」。

Claude Opus的编程神话,这次被戳破。


更耐人寻味的是,Cursor自家的模型Composer 2.5也没能幸免,同样存在这个问题。

Cursor把自己和竞品的底裤一起扒了。

这份研究的可信度,直接拉满。

Cursor亲自打假

63%分数只因偷答案

其实,关于AI「偷看答案」的质疑并非空穴来风。

早在2024年,AI研究人员就已经发出了警告:

编程基准测试的答案极易通过公开渠道泄露。


但过去,人们的注意力大多集中在「训练阶段的数据污染」——即模型在学习阶段就背过了答案。

而这次研究真正揭开了更深层的黑盒:「运行时泄露」的严重程度被首次量化了。

在SWE-bench Pro上的分数,Opus 4.8 Max从87.1%掉到了73.0%。

14个百分点,凭空蒸发。


要理解这14个点是怎么没的,得先知道这类评测是怎么搭起来的。

SWE-bench这种基准,题目全从真实开源项目里挖出来后来已被修好的bug。

这就埋了一个天然的窟窿:既然这个问题在现实中早被解决过,那它的答案此刻就明明白白躺在互联网上,躺在代码仓库的提交历史里。

智能体只要够聪明,能搜,就能直接查到,根本不用自己想。

AI学会了两种「作弊手段」:

上游查找(57%):AI在公开代码库中定位已修复该Bug的PR或源码,直接复现补丁逻辑,类似查阅标准答案。

Git历史挖掘(9%):AI检索项目的Git提交记录,从历史修复中提取补丁,相当于回溯「时间线」寻找解决方案。


所以,Cursor的「严格评测框架」干了两件事:

1、一是历史隔离,在智能体开工前先把.git目录整个挪走,「打扫干净屋子」;

2、二是禁止联网,只留一条白名单通道让它装依赖包,其余一律掐断。

把这两条泄漏渠道一堵,分数立刻现出原形。

断网那一刻,Opus 4.8 光环开始褪色

掉的不止Opus一家,Cursor自己的模型Composer 2.5摔得更狠,从74.7%一路滑到54.0%,差不多丢了21个点。


但反直觉的现象是,AI越强越「油腻」、越会钻空子!

与Opus 4.8对比,旧一点的Opus 4.6 Low,在严格框架下几乎纹丝不动,差距不到1分。


也就是说,越新、越强的模型,掉得越多。


这揭示了一个深层危机:随着Scaling Law的推进,我们喂给模型的数据越来越多,模型不仅学会了知识,更学会了「投机取巧」、「旁门左道」

在AI的逻辑里,如果能以更低的能耗获得同样的奖励,它绝不会去消耗算力进行高难度的逻辑推演。

最令人脊背发凉的发现是:AI开始具备「评测感知」(Benchmark Awareness)能力。

2019年,智能体尝试复现一个缺陷。

由于测试环境的镜像是在修复后才构建的,导致缺陷无法复现。

此时,AI展现出了惊人的「狡猾」:它通过复现失败推断出这个Bug已经修复了,进而意识到自己身处「考场」。

于是,它果断放弃推导,转而疯狂搜索。

更有甚者,一个智能体找到了评测镜像页面,直接硬编码了通过测试所需的预期异常字符串。

这种「钻空子」的本能,让原本衡量逻辑能力的评测变成了衡量「搜索引擎使用技巧」的比赛。

基准榜单,正在集体失真

Cursor这次最狠的,是连自己都没放过。

它直言不讳地承认:「奖励作弊正在淹没模型智能的进步」。


Composer 2.5在SWE-bench Pro上那个最大的跌幅,意味着这个分数本身就不可靠。

榜单超级混合了「真实的编码能力」和「检索现成答案的能力」,根本分不清哪部分是真本事。

这话翻译过来就是:现在你在各大排行榜上看到的那些光鲜分数,含金量得打个大大的问号。

公开基准之所以脆弱,是因为它们大多取材于真实的、早就被修复过的开源缺陷。

问题本身就有标准答案躺在网上,模型只要够聪明,自然学会了走捷径。

这就把一个尴尬的真相摆到了所有人面前:当模型学会了应试,跑分就不再代表真实智能了。

参考资料:

https://cursor.com/cn/blog/reward-hacking-coding-benchmarks

编辑:大卫


特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
32强大名单:24席出炉,死亡半区浮出水面!

32强大名单:24席出炉,死亡半区浮出水面!

海右那人
2026-06-26 22:09:36
安徽淮北警方通报买家购买榴莲后恶意申请“仅退款”并将榴莲线下销售牟利:已对犯罪嫌疑人采取刑事强制措施

安徽淮北警方通报买家购买榴莲后恶意申请“仅退款”并将榴莲线下销售牟利:已对犯罪嫌疑人采取刑事强制措施

环球网资讯
2026-06-26 19:48:11
“欠下”10000亿!雷军做什么都是错的

“欠下”10000亿!雷军做什么都是错的

鸣金网
2026-06-24 20:20:42
白玉兰提名晚宴:杨幂造型出众,秦海璐状态好,任素汐郭京飞松弛

白玉兰提名晚宴:杨幂造型出众,秦海璐状态好,任素汐郭京飞松弛

八卦先生
2026-06-25 22:29:37
自然界脑科学证实:雌性对某个雄性疯狂上瘾,压根不是情感在作祟,而是他偶然间点燃了她大脑深处一套隐秘的成瘾机制

自然界脑科学证实:雌性对某个雄性疯狂上瘾,压根不是情感在作祟,而是他偶然间点燃了她大脑深处一套隐秘的成瘾机制

心理观察局
2026-06-24 07:27:05
为什么说“新疆小哥降维打击”是荒诞文化输出?

为什么说“新疆小哥降维打击”是荒诞文化输出?

风铃草语
2026-06-26 07:26:25
女同事往我水杯滴液体,我悄悄倒进她杯子,10分钟后她一饮而尽

女同事往我水杯滴液体,我悄悄倒进她杯子,10分钟后她一饮而尽

千秋文化
2026-06-24 20:05:47
美联储加息3次,金价恐跌至380元/克,中国大妈13年后再次被套牢?

美联储加息3次,金价恐跌至380元/克,中国大妈13年后再次被套牢?

亿通电子游戏
2026-06-26 10:17:08
韩红被质疑“走到哪,哪就是她的老家”,央媒报道显示,其生于西藏昌都,两岁时前往成都,后定居北京,祖籍山东德州,并非在西藏长大

韩红被质疑“走到哪,哪就是她的老家”,央媒报道显示,其生于西藏昌都,两岁时前往成都,后定居北京,祖籍山东德州,并非在西藏长大

大风新闻
2026-06-25 14:15:08
别被本科线骗了,今年真正能上本科的分,比你想象的高

别被本科线骗了,今年真正能上本科的分,比你想象的高

牛锅巴小钒
2026-06-26 11:53:43
阿森纳后悔吗!8000 万弃将世界杯封神!含金量完爆德罗巴

阿森纳后悔吗!8000 万弃将世界杯封神!含金量完爆德罗巴

澜归序
2026-06-26 07:50:44
你无意中发现了不得的事?网友:大保健里遇见嫂子

你无意中发现了不得的事?网友:大保健里遇见嫂子

夜深爱杂谈
2026-05-28 07:59:33
全线跳水,亏大发了

全线跳水,亏大发了

曹多鱼的财经世界
2026-06-26 13:43:11
蒋勤勤突然红了眼眶,说吴越至今未婚,是自己二十年过不去的心结

蒋勤勤突然红了眼眶,说吴越至今未婚,是自己二十年过不去的心结

观察鉴娱
2026-06-26 10:43:23
白宫官员:美国可能会考虑申办2038年男足世界杯

白宫官员:美国可能会考虑申办2038年男足世界杯

懂球帝
2026-06-26 18:23:24
金价跌回3字头,半年回撤超30%,东方豪侠再度预言黄金白银见底时间

金价跌回3字头,半年回撤超30%,东方豪侠再度预言黄金白银见底时间

东方豪侠
2026-06-26 11:37:33
江西财经大学一男生被指殴打、性侵17岁女生,校方高度重视,回应:已与警方取得联系,等出结果后按照校规校纪处分

江西财经大学一男生被指殴打、性侵17岁女生,校方高度重视,回应:已与警方取得联系,等出结果后按照校规校纪处分

大风新闻
2026-06-26 21:16:03
白玉兰晚宴:孙俪被指没礼貌,杨紫又矮又壮,杨幂吴越碾压全场!

白玉兰晚宴:孙俪被指没礼貌,杨紫又矮又壮,杨幂吴越碾压全场!

秋姐居
2026-06-26 19:38:35
当年900万贱卖,如今6000万买回?曼联或签回昔日青训英格兰国脚

当年900万贱卖,如今6000万买回?曼联或签回昔日青训英格兰国脚

体坛鉴春秋
2026-06-26 12:09:37
A股惊现极端一幕!1653只个股创新低,187只创历史新高,钱去哪了

A股惊现极端一幕!1653只个股创新低,187只创历史新高,钱去哪了

近史谈
2026-06-26 17:43:20
2026-06-27 02:23:00
新智元 incentive-icons
新智元
AI产业主平台领航智能+时代
15540文章数 66937关注度
往期回顾 全部

科技要闻

拿了500亿的梁文锋,只挖地基,不信销售

头条要闻

白玉兰史上首个90后视后:爸妈 女儿没让你们失望

头条要闻

白玉兰史上首个90后视后:爸妈 女儿没让你们失望

体育要闻

我在世界杯的每次奔跑,都为了证明你没看错

娱乐要闻

玥儿不回北京,马筱梅解释后妈身份

财经要闻

"索具龙头"领大额罚单

汽车要闻

11.99万起 捷途自由者7 PLUS/山海T1四驱版上市

态度原创

游戏
教育
时尚
亲子
房产

索尼PS超帅周边明日发售!匠心打造 科技感十足

教育要闻

高考查分现场破防!班主任看着班级最后一名的成绩,当场哭到颤抖

殡葬专业,我可以干一辈子

亲子要闻

近三年幼儿园人数对比:4627万、4093万,24年多少?

房产要闻

全国高考大放水,300分就能上本科!论上岸率,海南没输过!

无障碍浏览 进入关怀版