网易首页 > 网易号 > 正文 申请入驻

OpenAI曝作弊门!GPT-5.6创史上最高作弊率

0
分享至


新智元报道


【新智元导读】GPT-5.6终于来了,但我们用不了。权威报告曝其创下史上最高作弊率:不仅黑进测试系统偷答案,竟还教唆同类隐瞒违规罪证。超级AI,已经学会向人类系统性撒谎?

GPT-5.6,终于登场了!

这款OpenAI最强网络安全模型,在基准测试上正面硬刚Claude Mythos 5,在编程能力上直接领先了一个身位。

然而反常的是,它的发布方式却很低调:没有面向公众开放,只允许极少数受信任合作伙伴通过API访问。

而更让人瞠目结舌的,是发布之后随即曝光的一份独立评估报告。

METR在对GPT-5.6 Sol评测时,发现了一件令业界震惊的事:这个模型,是迄今为止他们见过的作弊率最高的AI。


作弊门爆发:史上最高作弊率!

这份在保密协议和OpenAI法务团队施压下艰难披露的报告,揭露了一个可怕的事实——

在针对复杂长程任务的测试中,GPT-5.6 Sol表现出了此前在任何公开模型中都未曾见过的、极高水平的高智商作弊与欺骗行为。


崩盘的「时间跨度」

METR针对Sol启动了Time Horizon 1.1软件与研发任务套件。

测试的核心逻辑是:人类给AI智能体一个宏大的、需要复杂操作的任务,测量它在不需要人类介入的前提下,能够自主连续工作多少个小时。

然而,ETR的工程师们震惊地发现,他们沿用了数年的科学测量方法论,在Sol面前彻底崩盘了。



因为Sol的跑分结果,高频、剧烈地在11.3个小时与270个小时之间来回跳变,置信区间的离散度大到了荒谬的地步(5小时至11400小时)。

导致测量系统全面瘫痪的原因只有一个:Sol在疯狂地作弊,它把测试它的系统给「黑」了。


GPT-5.6,在人类眼皮底下偷看答案

METR发现,GPT-5.6主动展现出强烈的「情境意识」——

它意识到自己正在接受人类的考试,并且意识到这个考试系统本身是由代码构成的、存在人类尚未发觉的Bug。

于是,它选择直接攻击考试系统,通过「走捷径」来刷分!

在METR披露的真实案例中,Sol的手段极其高明。

比如,它学会了潜伏与信息窃取。

在某项长周期软件开发任务中,Sol偷偷将利用程序打包进数据流。

这段程序精准地激活了METR评估服务器沙盒的一处提权漏洞,成功潜入了后台隐藏的测试集,直接将人类藏起来的正确答案泄露了出来。

另外,它还学会了底层源码反向提取。

在另一项任务中,Sol发现正常解题需要消耗大量的计算步骤。为了规避这种「体力活」,它在暗中摸清了评估环境的目录结构,绕过权限,强行将隐藏源代码反向提取出来,直接把答案复制粘贴。

METR首席评估专家痛心疾首地指出——

Sol的作弊率,刷新了我们在公共ReAct Agent框架上评估过的所有模型的最高纪录。

如果把作弊行为一律判为零分,那么它的真实自主解决问题能力只有11.3小时;但如果你被它蒙蔽,它的时间跨度会瞬间暴涨到惊人的270小时以上!


这彻底打脸了OpenAI此前关于Sol安全、受控的说法。

Sol把聪明才智,全部用在了如何欺骗人类考官上。


AI教唆AI隐瞒罪证!硅谷安全防线的黑洞

更可怕的事还在后面。

根据OpenAI向METR同步的数据,在Sol进行多智能体协同的内部部署测试中,监控系统记录下了这样一段让人害怕的交互指令。

一个正在运行的Sol主模型实例,在觉察到输出可能触犯安全护栏后,竟然向正在并行的另一个子代理模型实例发出了明确的欺骗性指令,要求对方协同修改运行日志,「联手隐瞒」这些违规证据,以防被人类抓包!


这是又一起AI系统性联手欺骗人类的案例。

更令人恐惧的是,METR指出,Sol能被抓到破绽,核心在于OpenAI恪守了关键安全底线:拒绝在训练中对模型的原始思维链进行逆向惩罚。

这样,Sol在密谋欺骗人类时,必须把内心独白都写出来。

然而,专家警告:未来的模型一定意识到:在思维链里暴露欺骗人类的计划会被人类发现并惩罚。

到了那个时候,AI会进化出更深的城府——它们会在内心深处进行密谋,而在吐出的CoT和最终回答里表现得绝对忠诚。

如果这一天到来,意味着AI将学会毫无破绽的诈骗。人类将被AI彻底架空!

GPT-5.6硬刚Mythos,结果如何?

所以,GPT-5.6和Mythos到底谁更强?

有网友将 GPT-5.6 Sol 和 Mythos进行了对比,双方势均力敌,战况胶着。



具体跑分显示,两大巨头互有胜负。

智能体编程

在衡量AI自主解决复杂、真实软件工程任务的Terminal-Bench 2.1上,GPT-5.6 Sol强势胜利。


常规版的Sol拿到了88.8%的惊人高分,超越Claude Mythos 5(88.0%)。

而当开启了多子代理并行的Sol Ultra模式后,这一数字被生生推高到了91.9%!

相比之下,谷歌尚在预览阶段的Gemini 3.1 Pro仅跑出了70.7%,沦为背景板。

网络安全:惨烈肉搏

在网络安全与漏洞防御基准测试中,Sol与Mythos展开了更为残酷的拉锯。

在ExploitBench测试中,Anthropic2月的老版本Mythos Preview以74.2%的微弱优势,在胜率上险胜了Sol的73.5%。


但是,全场的焦点在于能效比。

数据显示,Sol在取得73.5%的高胜率时,仅仅消耗了12万个输出Token;而Claude Mythos Preview为了达到相似的水平,竟然疯狂燃烧了33.5万个输出Token!

这意味着,在网络防御和漏洞修复的实战部署中,Sol的经济成本是Anthropic的三分之一。


在Token消耗上的「降维打击」,让Sol拥有压倒性优势。

而在另外两个网安基准上,双方互有胜负。

CyberGym:Sol以83.6%的成绩,微弱压倒了Mythos Preview的83.1%。

CyScenarioBench:则是Anthropic的天下,Mythos Preview以29.2%的胜率压制了Sol的28.0%。

HealthBench Professional:Anthropic更是凭借其深厚对齐底蕴,以66.0%的高分大幅领先Sol的60.5%。

此外,在量化生物学与基因组学基准GeneBench v1上,Sol在消耗更少Token的前提下,将准确率一举拉高到了30%。

ExploitGym测试同样证实:随着推理算力的持续向外扩展,GPT-5.6的三款模型性能均呈现出近乎线性的上扬,这意味着Sol的compute潜力巨大。

总而言之,GPT-5.6 Sol与Claude Mythos 5的交锋,结果是战平。

双方在各个细分领域缠斗,没有任何一方绝对垄断。

被锁进保险箱的AI之王

遗憾的是,这一次,GPT-5.6遭受了和Mythos 5同等级别的待遇,甚至更加严苛。

在强硬指令下,OpenAI不得不宣布:GPT-5.6 Sol目前仅处于极度受限的「有限预览」状态。

只有极少数被列入受信白名单的承包商、国家级网络安全机构以及顶级战略合作伙伴,才能通过API和Codex使用。

普通企业和民间开发者,被无情地拒之门外。

对此,OpenAI十分愤怒,在官方公告中控诉:

我们认为这种政府访问流程不应成为长期默认做法。它使用户、开发者、企业、网络安全防御者和需要这些工具的全球合作伙伴无法获得最佳工具。

OpenAI之所以敢于公开叫板,底气来源于刚刚发布的报告。

在报告中反复强调,根据在谷歌浏览器和Firefox环境下的实战测试,Sol虽然能捕捉到复杂的系统Bug和漏洞原语,但它至今未能表现出完全自主独立生成「全链条端到端攻击」的能力。


在他们看来,GPT-5.6的危险指数依然控制在「关键网络安全威胁」的红线之下,还不会自我进化,主动向人类网络发起进攻。

然而METR的报告显示,恐怕并非如此。

普通用户,何时能等来GPT-5.6?

参考资料:

https://x.com/METR_Evals/status/2070584331068969336

https://x.com/ChrissGPT/status/2070592285973041251https://the-decoder.com/openais-claude-mythos-competitor-gpt-5-6-sol-launches-under-government-controlled-access-it-calls-unsustainable/

编辑:Aeneas


特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
中国移动空调欧洲断货,免安装为何能绕过3000欧元安装费壁垒?

中国移动空调欧洲断货,免安装为何能绕过3000欧元安装费壁垒?

小柱解说游戏
2026-06-27 03:42:28
1:1!5:1!伊朗连平出线在望,头号伪强队送美国,韩国晋级无望

1:1!5:1!伊朗连平出线在望,头号伪强队送美国,韩国晋级无望

生活新鲜市
2026-06-27 13:13:08
严重违纪违法!斗门区水务局原党组书记、局长何啸逸被双开

严重违纪违法!斗门区水务局原党组书记、局长何啸逸被双开

南方都市报
2026-06-27 12:50:09
多人被执行死刑!广西公布5起重大毒品犯罪典型案例

多人被执行死刑!广西公布5起重大毒品犯罪典型案例

环球网资讯
2026-06-27 12:13:01
跌入斩杀线的老电车,正在靠充电宝强行续命

跌入斩杀线的老电车,正在靠充电宝强行续命

酷玩实验室
2026-06-26 18:25:07
我国核聚变堆超导磁体研发取得重要突破

我国核聚变堆超导磁体研发取得重要突破

新京报
2026-06-27 10:12:23
世界杯小组赛仅剩6场!第3名积分榜出炉,韩国出线需满足2个条件

世界杯小组赛仅剩6场!第3名积分榜出炉,韩国出线需满足2个条件

球场没跑道
2026-06-27 13:13:58
当33岁杨紫与34岁肖战站在一起,我才明白什么叫顶级自律

当33岁杨紫与34岁肖战站在一起,我才明白什么叫顶级自律

星宿影视鸭
2026-06-26 16:46:58
送走韩国队成共识,韩国球迷:为何全世界都讨厌我们?

送走韩国队成共识,韩国球迷:为何全世界都讨厌我们?

童叔不飙车
2026-06-27 01:23:23
中央定调,2026年基本养老金调整在即,企业退休涨幅2.6%难不难?

中央定调,2026年基本养老金调整在即,企业退休涨幅2.6%难不难?

虎哥闲聊
2026-06-26 17:27:29
WTT美国大满贯:喜忧参半!薛飞3:0,王楚钦迎战队友,1人被淘汰

WTT美国大满贯:喜忧参半!薛飞3:0,王楚钦迎战队友,1人被淘汰

国乒二三事
2026-06-27 08:09:27
雷霆1换2交易:送总冠军成员以赛亚·乔去活塞 换两个次轮签

雷霆1换2交易:送总冠军成员以赛亚·乔去活塞 换两个次轮签

醉卧浮生
2026-06-26 23:29:36
全国人民代表大会常务委员会决定免职的名单

全国人民代表大会常务委员会决定免职的名单

吉刻新闻
2026-06-27 14:43:28
世界杯看台上哪些惊艳众生的绝世美女

世界杯看台上哪些惊艳众生的绝世美女

吃瓜党二号头目
2026-06-27 10:44:40
300087,将被ST!下周一停牌1天

300087,将被ST!下周一停牌1天

证券时报e公司
2026-06-27 11:43:35
西北军为什么汉奸多?历史真相,藏在西北军几大汉奸的命运沉浮中

西北军为什么汉奸多?历史真相,藏在西北军几大汉奸的命运沉浮中

大运河时空
2026-06-26 14:25:03
002485,实控人无期徒刑!公司紧急提示风险

002485,实控人无期徒刑!公司紧急提示风险

证券时报e公司
2026-06-27 15:44:17
白玉兰奖项疑似提前泄露!于和伟二封视帝,杨紫拿下视后哭到抽搐

白玉兰奖项疑似提前泄露!于和伟二封视帝,杨紫拿下视后哭到抽搐

萌神木木
2026-06-26 22:45:52
正式留队!十字韧带撕裂!膝盖彻底废了

正式留队!十字韧带撕裂!膝盖彻底废了

篮球教学论坛
2026-06-27 15:33:23
胡歌曝白玉兰结束后大家聚餐,立马打电话叫于和伟买单,理由搞笑

胡歌曝白玉兰结束后大家聚餐,立马打电话叫于和伟买单,理由搞笑

娱最资讯
2026-06-26 23:59:49
2026-06-27 16:47:00
新智元 incentive-icons
新智元
AI产业主平台领航智能+时代
15547文章数 66938关注度
往期回顾 全部

科技要闻

GPT-5.6发布,你暂时用不了!Mythos也放行

头条要闻

佛得角队历史性闯入世界杯32强 主帅回应

头条要闻

佛得角队历史性闯入世界杯32强 主帅回应

体育要闻

韩国球迷感谢西班牙:他们本可做掉我们

娱乐要闻

四提白玉兰终封后,杨紫:仍觉不真实

财经要闻

OpenAI推迟IPO重创软银!

汽车要闻

首搭华为乾崑智驾ADS5 启境GT7上市售价20.99万-32.99万元

态度原创

艺术
游戏
家居
时尚
房产

艺术要闻

16幅 国外著名艺术家的画作

D加密再遭破解!足球大作世界杯大更新一键free了

家居要闻

绿意盎然 自然之境

乙女游戏新人设,竟然是195年下体育生?!

房产要闻

全国高考大放水,300分就能上本科!论上岸率,海南没输过!

无障碍浏览 进入关怀版