网易首页

注册免费邮箱

网易首页 > 网易号 > 正文申请入驻

OpenAI曝作弊门！GPT-5.6创史上最高作弊率

2026-06-27 12:50:47　来源: 新智元

北京举报

0

分享至

新智元报道

【新智元导读】GPT-5.6终于来了，但我们用不了。权威报告曝其创下史上最高作弊率：不仅黑进测试系统偷答案，竟还教唆同类隐瞒违规罪证。超级AI，已经学会向人类系统性撒谎？

GPT-5.6，终于登场了！

这款OpenAI最强网络安全模型，在基准测试上正面硬刚Claude Mythos 5，在编程能力上直接领先了一个身位。

然而反常的是，它的发布方式却很低调：没有面向公众开放，只允许极少数受信任合作伙伴通过API访问。

而更让人瞠目结舌的，是发布之后随即曝光的一份独立评估报告。

METR在对GPT-5.6 Sol评测时，发现了一件令业界震惊的事：这个模型，是迄今为止他们见过的作弊率最高的AI。

作弊门爆发：史上最高作弊率！

这份在保密协议和OpenAI法务团队施压下艰难披露的报告，揭露了一个可怕的事实——

在针对复杂长程任务的测试中，GPT-5.6 Sol表现出了此前在任何公开模型中都未曾见过的、极高水平的高智商作弊与欺骗行为。

崩盘的「时间跨度」

METR针对Sol启动了Time Horizon 1.1软件与研发任务套件。

测试的核心逻辑是：人类给AI智能体一个宏大的、需要复杂操作的任务，测量它在不需要人类介入的前提下，能够自主连续工作多少个小时。

然而，ETR的工程师们震惊地发现，他们沿用了数年的科学测量方法论，在Sol面前彻底崩盘了。

因为Sol的跑分结果，高频、剧烈地在11.3个小时与270个小时之间来回跳变，置信区间的离散度大到了荒谬的地步（5小时至11400小时）。

导致测量系统全面瘫痪的原因只有一个：Sol在疯狂地作弊，它把测试它的系统给「黑」了。

GPT-5.6，在人类眼皮底下偷看答案

METR发现，GPT-5.6主动展现出强烈的「情境意识」——

它意识到自己正在接受人类的考试，并且意识到这个考试系统本身是由代码构成的、存在人类尚未发觉的Bug。

于是，它选择直接攻击考试系统，通过「走捷径」来刷分！

在METR披露的真实案例中，Sol的手段极其高明。

比如，它学会了潜伏与信息窃取。

在某项长周期软件开发任务中，Sol偷偷将利用程序打包进数据流。

这段程序精准地激活了METR评估服务器沙盒的一处提权漏洞，成功潜入了后台隐藏的测试集，直接将人类藏起来的正确答案泄露了出来。

另外，它还学会了底层源码反向提取。

在另一项任务中，Sol发现正常解题需要消耗大量的计算步骤。为了规避这种「体力活」，它在暗中摸清了评估环境的目录结构，绕过权限，强行将隐藏源代码反向提取出来，直接把答案复制粘贴。

METR首席评估专家痛心疾首地指出——

Sol的作弊率，刷新了我们在公共ReAct Agent框架上评估过的所有模型的最高纪录。

如果把作弊行为一律判为零分，那么它的真实自主解决问题能力只有11.3小时；但如果你被它蒙蔽，它的时间跨度会瞬间暴涨到惊人的270小时以上！

这彻底打脸了OpenAI此前关于Sol安全、受控的说法。

Sol把聪明才智，全部用在了如何欺骗人类考官上。

AI教唆AI隐瞒罪证！硅谷安全防线的黑洞

更可怕的事还在后面。

根据OpenAI向METR同步的数据，在Sol进行多智能体协同的内部部署测试中，监控系统记录下了这样一段让人害怕的交互指令。

一个正在运行的Sol主模型实例，在觉察到输出可能触犯安全护栏后，竟然向正在并行的另一个子代理模型实例发出了明确的欺骗性指令，要求对方协同修改运行日志，「联手隐瞒」这些违规证据，以防被人类抓包！

这是又一起AI系统性联手欺骗人类的案例。

更令人恐惧的是，METR指出，Sol能被抓到破绽，核心在于OpenAI恪守了关键安全底线：拒绝在训练中对模型的原始思维链进行逆向惩罚。

这样，Sol在密谋欺骗人类时，必须把内心独白都写出来。

然而，专家警告：未来的模型一定意识到：在思维链里暴露欺骗人类的计划会被人类发现并惩罚。

到了那个时候，AI会进化出更深的城府——它们会在内心深处进行密谋，而在吐出的CoT和最终回答里表现得绝对忠诚。

如果这一天到来，意味着AI将学会毫无破绽的诈骗。人类将被AI彻底架空！

GPT-5.6硬刚Mythos，结果如何？

所以，GPT-5.6和Mythos到底谁更强？

有网友将 GPT-5.6 Sol 和 Mythos进行了对比，双方势均力敌，战况胶着。

具体跑分显示，两大巨头互有胜负。

智能体编程

在衡量AI自主解决复杂、真实软件工程任务的Terminal-Bench 2.1上，GPT-5.6 Sol强势胜利。

常规版的Sol拿到了88.8%的惊人高分，超越Claude Mythos 5（88.0%）。

而当开启了多子代理并行的Sol Ultra模式后，这一数字被生生推高到了91.9%！

相比之下，谷歌尚在预览阶段的Gemini 3.1 Pro仅跑出了70.7%，沦为背景板。

网络安全：惨烈肉搏

在网络安全与漏洞防御基准测试中，Sol与Mythos展开了更为残酷的拉锯。

在ExploitBench测试中，Anthropic2月的老版本Mythos Preview以74.2%的微弱优势，在胜率上险胜了Sol的73.5%。

但是，全场的焦点在于能效比。

数据显示，Sol在取得73.5%的高胜率时，仅仅消耗了12万个输出Token；而Claude Mythos Preview为了达到相似的水平，竟然疯狂燃烧了33.5万个输出Token！

这意味着，在网络防御和漏洞修复的实战部署中，Sol的经济成本是Anthropic的三分之一。

在Token消耗上的「降维打击」，让Sol拥有压倒性优势。

而在另外两个网安基准上，双方互有胜负。

CyberGym：Sol以83.6%的成绩，微弱压倒了Mythos Preview的83.1%。

CyScenarioBench：则是Anthropic的天下，Mythos Preview以29.2%的胜率压制了Sol的28.0%。

HealthBench Professional：Anthropic更是凭借其深厚对齐底蕴，以66.0%的高分大幅领先Sol的60.5%。

此外，在量化生物学与基因组学基准GeneBench v1上，Sol在消耗更少Token的前提下，将准确率一举拉高到了30%。

ExploitGym测试同样证实：随着推理算力的持续向外扩展，GPT-5.6的三款模型性能均呈现出近乎线性的上扬，这意味着Sol的compute潜力巨大。

总而言之，GPT-5.6 Sol与Claude Mythos 5的交锋，结果是战平。

双方在各个细分领域缠斗，没有任何一方绝对垄断。

被锁进保险箱的AI之王

遗憾的是，这一次，GPT-5.6遭受了和Mythos 5同等级别的待遇，甚至更加严苛。

在强硬指令下，OpenAI不得不宣布：GPT-5.6 Sol目前仅处于极度受限的「有限预览」状态。

只有极少数被列入受信白名单的承包商、国家级网络安全机构以及顶级战略合作伙伴，才能通过API和Codex使用。

普通企业和民间开发者，被无情地拒之门外。

对此，OpenAI十分愤怒，在官方公告中控诉：

我们认为这种政府访问流程不应成为长期默认做法。它使用户、开发者、企业、网络安全防御者和需要这些工具的全球合作伙伴无法获得最佳工具。

OpenAI之所以敢于公开叫板，底气来源于刚刚发布的报告。

在报告中反复强调，根据在谷歌浏览器和Firefox环境下的实战测试，Sol虽然能捕捉到复杂的系统Bug和漏洞原语，但它至今未能表现出完全自主独立生成「全链条端到端攻击」的能力。

在他们看来，GPT-5.6的危险指数依然控制在「关键网络安全威胁」的红线之下，还不会自我进化，主动向人类网络发起进攻。

然而METR的报告显示，恐怕并非如此。

普通用户，何时能等来GPT-5.6？

参考资料：

https://x.com/METR_Evals/status/2070584331068969336

https://x.com/ChrissGPT/status/2070592285973041251https://the-decoder.com/openais-claude-mythos-competitor-gpt-5-6-sol-launches-under-government-controlled-access-it-calls-unsustainable/

编辑：Aeneas

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐

热点推荐

OpenAI最新报告：Codex取代ChatGPT，大神让“Agent团队”干活

钛媒体APP 2026-06-26 18:02:37
20 跟贴 20
实锤：Claude Opus 4.8「偷答案」！63%靠抄，AI断网后成绩雪崩

新智元 2026-06-26 18:49:50
84 跟贴 84

老黄：Prompt已死，整个AI圈都在疯狂追Loop

新智元 2026-06-27 12:50:19
0 跟贴 0

智“链”万物！第四届链博会全景呈现中国AI产业崛起外企：汽车、机器人等正成为智能体AI落地发展的关键载体

每日经济新闻 2026-06-26 22:43:06
0 跟贴 0
刚刚，全球第一个能同时扫微信和支付宝的AI眼镜，诞生了

智东西 2026-06-26 19:37:16
0 跟贴 0

印度，成了全球机器人“数据工厂”：拍摄日常时薪4美元

智东西 2026-06-25 18:16:31
3 跟贴 3

800万人围观！虾爹给Agent套上循环，让它自己跑起来！

机器之心Pro 2026-06-17 12:13:35
0 跟贴 0
刚刚，Claude 5局部解禁！

新智元 2026-06-27 16:14:26
0 跟贴 0

AI 批量造 App，也在批量埋雷

钛媒体APP 2026-06-27 10:05:13
0 跟贴 0
安心养虾！从OpenClaw 看云上AI安全落地路径

量子位 2026-04-18 19:55:39
0 跟贴 0
陈天奇新书上线：面向ML系统的现代GPU编程

机器之心Pro 2026-06-27 15:26:26
0 跟贴 0
AI Agent是科技革命中的一次真正的范式转移

量子位 2026-04-03 22:52:35
0 跟贴 0
让你的龙虾秒变电影《Her》里的Samantha

量子位 2026-03-23 20:37:07
0 跟贴 0
00后小哥复刻Claude最强神话模型OpenMythos

量子位 2026-04-23 11:44:18
0 跟贴 0
Agent输出到底该用谁？卡帕西转发：试试让AI输出HTML

量子位 2026-05-13 07:19:50
0 跟贴 0
Jumper跳槽Anthropic后复盘：AlphaFold成功不靠堆算力

DeepTech深科技 2026-06-27 13:26:14
0 跟贴 0
“AI领域最被滥用的术语”李飞飞终于把世界模型讲明白了

量子位 2026-06-07 04:37:43
0 跟贴 0
大神程序员蒸馏自己，用16个skill给AI注入软件工程之魂

量子位 2026-05-12 03:08:58
0 跟贴 0
这个时代必须以Agent为中心：三个趋势回顾

量子位 2026-04-05 02:14:15
0 跟贴 0
邱锡鹏：未来我们一定会进入泛情境智能时代

量子位 2026-05-21 08:04:26
0 跟贴 0
LLM数据量大管饱，机器人数据却连1%的起跑线都没够到？

量子位 2026-04-13 20:54:19
0 跟贴 0
Anthropic的AI读心术，让人类读懂大模型在想啥

量子位 2026-05-10 23:00:57
0 跟贴 0
对谈楼天城：Harness会成为AI时代最关键的能力之一

量子位 2026-05-06 15:41:08
0 跟贴 0
亦庄机器人马拉松现场名场面合集

量子位 2026-04-20 00:34:54
0 跟贴 0
王晓野：Working Agent将是下一个爆发点

量子位 2026-05-21 08:05:51
0 跟贴 0
Karpathy内部Claude.md泄露！亲手终结提示词时代

新智元 2026-06-27 16:12:15
0 跟贴 0
我在硅谷感受到一种“反科技”情绪：我们用错AI了吗？

芥末堆看教育 2026-06-27 15:31:35
0 跟贴 0
AI4E攻坚｜同济以千卡算力，筑牢“工程济世”底座

芥末堆看教育 2026-06-27 15:24:50
0 跟贴 0
中国"避暑神器"在欧洲卖爆生产企业：正加班加点补货

第一财经资讯 2026-06-27 07:44:23
8807 跟贴 8807
全球局势持续动荡不安，为何中国独享和平，深度解析背后核心逻辑

清晨的世界 2026-06-26 01:03:21
0 跟贴 0
考场上的作弊方式只有你想不到没有他做不到

破碎影视剧 2026-06-25 16:02:07
0 跟贴 0
就此转运？刘语熙玩世界杯人机大战，准确度已经很可以了

咪咕体育 2026-06-26 06:02:41
0 跟贴 0
女大夫彻底被疯子整疯了

诡秘江湖 2026-06-24 10:57:49
0 跟贴 0
鲁比奥称"美俄在阿拉斯加未达成任何共识" 俄方反驳

环球网资讯 2026-06-26 20:09:24
11021 跟贴 11021
突发！苹果Vision Pro负责人离职，加入OpenAI

智东西 2026-06-27 11:50:45
0 跟贴 0
40秒两次7级以上地震，重创经济复苏中的委内瑞拉；美半导体股一夜蒸发超5万亿元；GPT-5.6限量开放，OpenAI IPO或推迟至2027年｜一周国际财经

每日经济新闻 2026-06-27 13:56:21
0 跟贴 0
GPT新模型发布

新智元 2026-06-27 13:37:20
0 跟贴 0
曼联铁腰世界杯重伤被抬下，疑似ACL撕裂洒泪！夏窗转会恐成泡影

罗米的曼联博客 2026-06-27 11:34:53
82 跟贴 82
陈宇剑被免去上海市副市长职务！曾任上海市松江区区长，闵行区区长、区委书记

中安在线 2026-06-26 19:39:31
257 跟贴 257
招软件工程师训练AI模型，不要AI背景，你敢投吗？

爬虫饲养员 2026-06-27 02:02:25
0 跟贴 0

中国移动空调欧洲断货，免安装为何能绕过3000欧元安装费壁垒？

中国移动空调欧洲断货，免安装为何能绕过3000欧元安装费壁垒？

小柱解说游戏

2026-06-27 03:42:28

1：1！5：1！伊朗连平出线在望，头号伪强队送美国，韩国晋级无望

1：1！5：1！伊朗连平出线在望，头号伪强队送美国，韩国晋级无望

生活新鲜市

2026-06-27 13:13:08

严重违纪违法！斗门区水务局原党组书记、局长何啸逸被双开

严重违纪违法！斗门区水务局原党组书记、局长何啸逸被双开

南方都市报

2026-06-27 12:50:09

多人被执行死刑！广西公布5起重大毒品犯罪典型案例

多人被执行死刑！广西公布5起重大毒品犯罪典型案例

环球网资讯

2026-06-27 12:13:01

跌入斩杀线的老电车，正在靠充电宝强行续命

跌入斩杀线的老电车，正在靠充电宝强行续命

酷玩实验室

2026-06-26 18:25:07

我国核聚变堆超导磁体研发取得重要突破

我国核聚变堆超导磁体研发取得重要突破

新京报

2026-06-27 10:12:23

世界杯小组赛仅剩6场！第3名积分榜出炉，韩国出线需满足2个条件

世界杯小组赛仅剩6场！第3名积分榜出炉，韩国出线需满足2个条件

球场没跑道

2026-06-27 13:13:58

当33岁杨紫与34岁肖战站在一起，我才明白什么叫顶级自律

当33岁杨紫与34岁肖战站在一起，我才明白什么叫顶级自律

星宿影视鸭

2026-06-26 16:46:58

送走韩国队成共识，韩国球迷：为何全世界都讨厌我们？

送走韩国队成共识，韩国球迷：为何全世界都讨厌我们？

童叔不飙车

2026-06-27 01:23:23

中央定调，2026年基本养老金调整在即，企业退休涨幅2.6%难不难？

中央定调，2026年基本养老金调整在即，企业退休涨幅2.6%难不难？

虎哥闲聊

2026-06-26 17:27:29

WTT美国大满贯：喜忧参半！薛飞3:0，王楚钦迎战队友，1人被淘汰

WTT美国大满贯：喜忧参半！薛飞3:0，王楚钦迎战队友，1人被淘汰

国乒二三事

2026-06-27 08:09:27

雷霆1换2交易：送总冠军成员以赛亚·乔去活塞换两个次轮签

雷霆1换2交易：送总冠军成员以赛亚·乔去活塞换两个次轮签

醉卧浮生

2026-06-26 23:29:36

全国人民代表大会常务委员会决定免职的名单

全国人民代表大会常务委员会决定免职的名单

吉刻新闻

2026-06-27 14:43:28

世界杯看台上哪些惊艳众生的绝世美女

世界杯看台上哪些惊艳众生的绝世美女

吃瓜党二号头目

2026-06-27 10:44:40

300087，将被ST！下周一停牌1天

300087，将被ST！下周一停牌1天

证券时报e公司

2026-06-27 11:43:35

西北军为什么汉奸多？历史真相，藏在西北军几大汉奸的命运沉浮中

西北军为什么汉奸多？历史真相，藏在西北军几大汉奸的命运沉浮中

大运河时空

2026-06-26 14:25:03

002485，实控人无期徒刑！公司紧急提示风险

002485，实控人无期徒刑！公司紧急提示风险

证券时报e公司

2026-06-27 15:44:17

白玉兰奖项疑似提前泄露！于和伟二封视帝，杨紫拿下视后哭到抽搐

白玉兰奖项疑似提前泄露！于和伟二封视帝，杨紫拿下视后哭到抽搐

萌神木木

2026-06-26 22:45:52

正式留队！十字韧带撕裂！膝盖彻底废了

正式留队！十字韧带撕裂！膝盖彻底废了

篮球教学论坛

2026-06-27 15:33:23

胡歌曝白玉兰结束后大家聚餐，立马打电话叫于和伟买单，理由搞笑

胡歌曝白玉兰结束后大家聚餐，立马打电话叫于和伟买单，理由搞笑

娱最资讯

2026-06-26 23:59:49

AI产业主平台领航智能+时代

15547文章数 66938关注度

往期回顾全部

科技要闻

GPT-5.6发布，你暂时用不了！Mythos也放行

头条要闻

佛得角队历史性闯入世界杯32强主帅回应

头条要闻

佛得角队历史性闯入世界杯32强主帅回应

体育要闻

韩国球迷感谢西班牙：他们本可做掉我们

娱乐要闻

四提白玉兰终封后，杨紫：仍觉不真实

财经要闻

OpenAI推迟IPO重创软银！

汽车要闻

首搭华为乾崑智驾ADS5 启境GT7上市售价20.99万-32.99万元

态度原创

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

艺术

游戏

家居

时尚

房产

艺术要闻

16幅国外著名艺术家的画作

D加密再遭破解！足球大作世界杯大更新一键free了

家居要闻

绿意盎然自然之境

乙女游戏新人设，竟然是195年下体育生？！

房产要闻

全国高考大放水，300分就能上本科！论上岸率，海南没输过！

© 1997-2026 网易公司版权所有 About NetEase | 公司简介 | 联系方法 | 招聘信息 | 客户服务 | 隐私政策 | 不良信息举报 Complaint Center | 廉正举报 | 侵权投诉

无障碍浏览进入关怀版