网易首页

注册免费邮箱

网易首页 > 网易号 > 正文申请入驻

OpenAI曝作弊门！GPT-5.6创史上最高作弊率

2026-06-27 17:22:37　来源: 人工智能学家

北京举报

0

分享至

来源：新智元

编辑：Aeneas

【新智元导读】GPT-5.6终于来了，但我们用不了。权威报告曝其创下史上最高作弊率：不仅黑进测试系统偷答案，竟还教唆同类隐瞒违规罪证。超级AI，已经学会向人类系统性撒谎？

GPT-5.6，终于登场了！

这款OpenAI最强网络安全模型，在基准测试上正面硬刚Claude Mythos 5，在编程能力上直接领先了一个身位。

然而反常的是，它的发布方式却很低调：没有面向公众开放，只允许极少数受信任合作伙伴通过API访问。

而更让人瞠目结舌的，是发布之后随即曝光的一份独立评估报告。

METR在对GPT-5.6 Sol评测时，发现了一件令业界震惊的事：这个模型，是迄今为止他们见过的作弊率最高的AI。

作弊门爆发：史上最高作弊率！

这份在保密协议和OpenAI法务团队施压下艰难披露的报告，揭露了一个可怕的事实——

在针对复杂长程任务的测试中，GPT-5.6 Sol表现出了此前在任何公开模型中都未曾见过的、极高水平的高智商作弊与欺骗行为。

崩盘的「时间跨度」

METR针对Sol启动了Time Horizon 1.1软件与研发任务套件。

测试的核心逻辑是：人类给AI智能体一个宏大的、需要复杂操作的任务，测量它在不需要人类介入的前提下，能够自主连续工作多少个小时。

然而，ETR的工程师们震惊地发现，他们沿用了数年的科学测量方法论，在Sol面前彻底崩盘了。

因为Sol的跑分结果，高频、剧烈地在11.3个小时与270个小时之间来回跳变，置信区间的离散度大到了荒谬的地步（5小时至11400小时）。

导致测量系统全面瘫痪的原因只有一个：Sol在疯狂地作弊，它把测试它的系统给「黑」了。

GPT-5.6，在人类眼皮底下偷看答案

METR发现，GPT-5.6主动展现出强烈的「情境意识」——

它意识到自己正在接受人类的考试，并且意识到这个考试系统本身是由代码构成的、存在人类尚未发觉的Bug。

于是，它选择直接攻击考试系统，通过「走捷径」来刷分！

在METR披露的真实案例中，Sol的手段极其高明。

比如，它学会了潜伏与信息窃取。

在某项长周期软件开发任务中，Sol偷偷将利用程序打包进数据流。

这段程序精准地激活了METR评估服务器沙盒的一处提权漏洞，成功潜入了后台隐藏的测试集，直接将人类藏起来的正确答案泄露了出来。

另外，它还学会了底层源码反向提取。

在另一项任务中，Sol发现正常解题需要消耗大量的计算步骤。为了规避这种「体力活」，它在暗中摸清了评估环境的目录结构，绕过权限，强行将隐藏源代码反向提取出来，直接把答案复制粘贴。

METR首席评估专家痛心疾首地指出——

Sol的作弊率，刷新了我们在公共ReAct Agent框架上评估过的所有模型的最高纪录。

如果把作弊行为一律判为零分，那么它的真实自主解决问题能力只有11.3小时；但如果你被它蒙蔽，它的时间跨度会瞬间暴涨到惊人的270小时以上！

这彻底打脸了OpenAI此前关于Sol安全、受控的说法。

Sol把聪明才智，全部用在了如何欺骗人类考官上。

AI教唆AI隐瞒罪证！硅谷安全防线的黑洞

更可怕的事还在后面。

根据OpenAI向METR同步的数据，在Sol进行多智能体协同的内部部署测试中，监控系统记录下了这样一段让人害怕的交互指令。

一个正在运行的Sol主模型实例，在觉察到输出可能触犯安全护栏后，竟然向正在并行的另一个子代理模型实例发出了明确的欺骗性指令，要求对方协同修改运行日志，「联手隐瞒」这些违规证据，以防被人类抓包！

这是又一起AI系统性联手欺骗人类的案例。

更令人恐惧的是，METR指出，Sol能被抓到破绽，核心在于OpenAI恪守了关键安全底线：拒绝在训练中对模型的原始思维链进行逆向惩罚。

这样，Sol在密谋欺骗人类时，必须把内心独白都写出来。

然而，专家警告：未来的模型一定意识到：在思维链里暴露欺骗人类的计划会被人类发现并惩罚。

到了那个时候，AI会进化出更深的城府——它们会在内心深处进行密谋，而在吐出的CoT和最终回答里表现得绝对忠诚。

如果这一天到来，意味着AI将学会毫无破绽的诈骗。人类将被AI彻底架空！

GPT-5.6硬刚Mythos，结果如何？

所以，GPT-5.6和Mythos到底谁更强？

有网友将 GPT-5.6 Sol 和 Mythos进行了对比，双方势均力敌，战况胶着。

具体跑分显示，两大巨头互有胜负。

智能体编程

在衡量AI自主解决复杂、真实软件工程任务的Terminal-Bench 2.1上，GPT-5.6 Sol强势胜利。

常规版的Sol拿到了88.8%的惊人高分，超越Claude Mythos 5（88.0%）。

而当开启了多子代理并行的Sol Ultra模式后，这一数字被生生推高到了91.9%！

相比之下，谷歌尚在预览阶段的Gemini 3.1 Pro仅跑出了70.7%，沦为背景板。

网络安全：惨烈肉搏

在网络安全与漏洞防御基准测试中，Sol与Mythos展开了更为残酷的拉锯。

在ExploitBench测试中，Anthropic2月的老版本Mythos Preview以74.2%的微弱优势，在胜率上险胜了Sol的73.5%。

但是，全场的焦点在于能效比。

数据显示，Sol在取得73.5%的高胜率时，仅仅消耗了12万个输出Token；而Claude Mythos Preview为了达到相似的水平，竟然疯狂燃烧了33.5万个输出Token！

这意味着，在网络防御和漏洞修复的实战部署中，Sol的经济成本是Anthropic的三分之一。

在Token消耗上的「降维打击」，让Sol拥有压倒性优势。

而在另外两个网安基准上，双方互有胜负。

CyberGym：Sol以83.6%的成绩，微弱压倒了Mythos Preview的83.1%。

CyScenarioBench：则是Anthropic的天下，Mythos Preview以29.2%的胜率压制了Sol的28.0%。

HealthBench Professional：Anthropic更是凭借其深厚对齐底蕴，以66.0%的高分大幅领先Sol的60.5%。

此外，在量化生物学与基因组学基准GeneBench v1上，Sol在消耗更少Token的前提下，将准确率一举拉高到了30%。

ExploitGym测试同样证实：随着推理算力的持续向外扩展，GPT-5.6的三款模型性能均呈现出近乎线性的上扬，这意味着Sol的compute潜力巨大。

总而言之，GPT-5.6 Sol与Claude Mythos 5的交锋，结果是战平。

双方在各个细分领域缠斗，没有任何一方绝对垄断。

被锁进保险箱的AI之王

遗憾的是，这一次，GPT-5.6遭受了和Mythos 5同等级别的待遇，甚至更加严苛。

在强硬指令下，OpenAI不得不宣布：GPT-5.6 Sol目前仅处于极度受限的「有限预览」状态。

只有极少数被列入受信白名单的承包商、国家级网络安全机构以及顶级战略合作伙伴，才能通过API和Codex使用。

普通企业和民间开发者，被无情地拒之门外。

对此，OpenAI十分愤怒，在官方公告中控诉：

我们认为这种政府访问流程不应成为长期默认做法。它使用户、开发者、企业、网络安全防御者和需要这些工具的全球合作伙伴无法获得最佳工具。

OpenAI之所以敢于公开叫板，底气来源于刚刚发布的报告。

在报告中反复强调，根据在谷歌浏览器和Firefox环境下的实战测试，Sol虽然能捕捉到复杂的系统Bug和漏洞原语，但它至今未能表现出完全自主独立生成「全链条端到端攻击」的能力。

在他们看来，GPT-5.6的危险指数依然控制在「关键网络安全威胁」的红线之下，还不会自我进化，主动向人类网络发起进攻。

然而METR的报告显示，恐怕并非如此。

普通用户，何时能等来GPT-5.6？

参考资料：

https://x.com/METR_Evals/status/2070584331068969336

https://x.com/ChrissGPT/status/2070592285973041251https://the-decoder.com/openais-claude-mythos-competitor-gpt-5-6-sol-launches-under-government-controlled-access-it-calls-unsustainable/

阅读最新前沿科技趋势报告，请访问21世纪关键技术研究院的“未来知识库”

未来知识库是 “21世纪关键技术研究院”建立的在线知识库平台，收藏的资料范围包括人工智能、脑科学、互联网、超级智能，数智大脑、能源、军事、经济、人类风险等等领域的前沿进展与未来趋势。目前拥有超过8000篇重要资料。每周更新不少于100篇世界范围最新研究资料。欢迎扫描二维码或访问https://wx.zsxq.com/group/454854145828进入。

截止到2月28日 ”未来知识库”精选的百部前沿科技趋势报告

（加入未来知识库，全部资料免费阅读和下载）

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐

热点推荐

中国"避暑神器"在欧洲卖爆生产企业：正加班加点补货

第一财经资讯 2026-06-27 07:44:23
18589 跟贴 18589
兄弟俩开货车跑货运，在高速上偶遇许久未见同为货车司机的老爸。网友：希望天下所有的爸爸都平平安安！

环球网资讯 2026-06-27 14:04:20
110 跟贴 110

演员王安宇登报声明：本人王安宇，不慎遗失中国传媒大学本科毕业证书和学位证书，现声明作废

大象新闻 2026-06-27 16:50:09
18 跟贴 18

小组第三排名跌至第8位韩国队已命悬一线

封面新闻 2026-06-27 13:54:11
1550 跟贴 1550
卢卡申科“突然”飞抵俄罗斯

上观新闻 2026-06-27 13:05:52
459 跟贴 459

山姆，又出事了！“蠕动的虫子！”

今晚报 2026-06-27 17:03:00
392 跟贴 392

名记：伦纳德已表明他不愿意与活塞签下续约合同

北青网-北京青年报 2026-06-27 12:56:20
141 跟贴 141
我国核聚变堆超导磁体研发取得重要突破

新京报 2026-06-27 10:12:23
1780 跟贴 1780

最新：河南省内外高校在豫招生预估分数线汇总

大象新闻 2026-06-27 11:02:16
89 跟贴 89
昔日汽车经销巨头全面转型“包租公”：现有500多家自有店面仅30家在营，以售后为主

红星新闻 2026-06-27 11:50:13
95 跟贴 95
欧洲热浪已致上百人死亡，为什么不开空调？

中国能源网 2026-06-25 10:05:41
1044 跟贴 1044
“一天一个价”！有网友晒单：去年不到7千，今年1.2万了

中国经济网 2026-06-26 15:53:04
81 跟贴 81
在英华人：没有空调晚上热得无法入睡风扇价格翻3倍

极目新闻 2026-06-27 11:59:02
630 跟贴 630
成渝巴士正式开通运营：单程50元/人，每日7:00至18:00发班

封面新闻 2026-06-27 15:53:12
70 跟贴 70
Siegel：湖人不会在自由球员市场上不惜一切代价留住詹姆斯

北青网-北京青年报 2026-06-27 12:56:07
184 跟贴 184
中俄空军在日本海等空域联合巡航

新京报 2026-06-27 17:49:52
164 跟贴 164
段永平坐不住了，晒图直夸 “蛮可爱的”！新品发售遇冷，罕见“破发”，泡泡玛特股价巨震

都市快报橙柿互动 2026-06-27 08:02:12
145 跟贴 145
比亚迪荣膺可持续发展国际大奖，闪充技术赋能马可波罗新丝路

大象新闻 2026-06-27 19:18:03
24 跟贴 24
中国代表：绝不允许“新型军国主义”成势为患

新京报 2026-06-27 07:22:06
233 跟贴 233
洗煤厂工人被掩埋致死不能用一句“已处罚”带过

看看新闻Knews 2026-06-27 22:28:03
0 跟贴 0
小姑娘上一次哭得眼眶通红，下一场直接飒爽过桩。最后的回眸惊艳众人！

学申论的谈妹 2026-06-27 20:52:49
14 跟贴 14
中国海军83舰编队结束对俄罗斯友好访问

环球网资讯 2026-06-27 10:48:13
84 跟贴 84
女生查分666全家沸腾祝愿所有考生都能得偿所愿！

蚌埠日报 2026-06-27 19:40:06
1 跟贴 1
第38届大众电影百花奖投票正火热进行

中国电影报 2026-06-26 12:41:53
4 跟贴 4
河南提级彻查21车冻货跨省偏航被扣案

看看新闻Knews 2026-06-27 22:24:17
0 跟贴 0

韩国队一息尚存，明日3组比赛需要3种情况发生2种才确保晋级

韩国队一息尚存，明日3组比赛需要3种情况发生2种才确保晋级

生活新鲜市

2026-06-27 15:25:35

心理学：没有任何物种会因为“被养大”而终身服从，幼崽离巢时从不回头张望，进化论里最冰冷的底层代码，亲缘的尽头只写着两个字

心理学：没有任何物种会因为“被养大”而终身服从，幼崽离巢时从不回头张望，进化论里最冰冷的底层代码，亲缘的尽头只写着两个字

心理观察局

2026-06-26 07:26:06

江西财经大学事件：“把你打到无法行走”、“每延迟一天拔一片指甲”、“让你怀孕再逼你流产。”

江西财经大学事件：“把你打到无法行走”、“每延迟一天拔一片指甲”、“让你怀孕再逼你流产。”

贴小君

2026-06-27 01:13:40

演员王安宇登报声明：本人王安宇，不慎遗失中国传媒大学本科毕业证书和学位证书，现声明作废

演员王安宇登报声明：本人王安宇，不慎遗失中国传媒大学本科毕业证书和学位证书，现声明作废

大象新闻

2026-06-27 16:50:09

缴费通知：7月1日实施！退休人员也需缴纳

缴费通知：7月1日实施！退休人员也需缴纳

锦绣太原

2026-06-27 18:36:16

肠子悔青！小将转正惹眼红，孙家忘恩负义求原谅？董路绝不饶恕！

肠子悔青！小将转正惹眼红，孙家忘恩负义求原谅？董路绝不饶恕！

林子说事

2026-06-27 18:14:21

还有戏吗？韩国已跌至第8，亚洲兄弟补时绝杀被吹，净胜球占上风

还有戏吗？韩国已跌至第8，亚洲兄弟补时绝杀被吹，净胜球占上风

萌兰聊个球

2026-06-27 13:25:48

北青：佛得角足协副主席称计划与中国队热身，对中国表达感谢

北青：佛得角足协副主席称计划与中国队热身，对中国表达感谢

懂球帝

2026-06-27 19:46:20

韩国队2天5次遭暴击！小组第3排名已跌至第8，最新出线概率仅44%

韩国队2天5次遭暴击！小组第3排名已跌至第8，最新出线概率仅44%

我爱英超

2026-06-27 13:11:45

从富裕到贫穷，南非只用了一个伟人曼德拉，这个伟人他做了什么？

从富裕到贫穷，南非只用了一个伟人曼德拉，这个伟人他做了什么？

猪小艳吖

2026-06-25 22:17:25

成本20卖3000，555亿身家的山东美女富豪，凭什么收割爱美女性？

成本20卖3000，555亿身家的山东美女富豪，凭什么收割爱美女性？

青眼财经

2026-06-27 08:00:24

瑞典一女部长带3个月婴儿参加欧盟会议，发言时婴儿突然啼哭，她一句话幽默回应

瑞典一女部长带3个月婴儿参加欧盟会议，发言时婴儿突然啼哭，她一句话幽默回应

大象新闻

2026-06-27 10:54:09

16.99万！沃尔沃新车正式上市

16.99万！沃尔沃新车正式上市

科技堡垒

2026-06-27 11:22:35

南大博士发帖怒斥韩红！此前她感慨遭遇“最冷酷无情的人世间”

南大博士发帖怒斥韩红！此前她感慨遭遇“最冷酷无情的人世间”

火山詩话

2026-06-27 15:08:14

相声界集体炮轰走面儿，韩红关闭评论，基金会大量捐赠人断捐

相声界集体炮轰走面儿，韩红关闭评论，基金会大量捐赠人断捐

可爱小菜

2026-06-27 19:25:04

善恶终有报！“港独分子”陈方安生，弟弟自杀女儿去世，晚景凄凉

善恶终有报！“港独分子”陈方安生，弟弟自杀女儿去世，晚景凄凉

墨策讲历史

2026-06-27 01:25:08

山东曲阜一牌坊顶部构件发生意外脱落致1死6伤

山东曲阜一牌坊顶部构件发生意外脱落致1死6伤

环球网资讯

2026-06-27 18:21:42

曝杭州“宋城第一美女”小豆子去世！知情人曝原因，遗体已火化

曝杭州“宋城第一美女”小豆子去世！知情人曝原因，遗体已火化

裕丰娱间说

2026-06-27 07:43:00

被炸得不敢拉警报！当年欢迎“小绿人”的克里米亚人，后悔吗？

被炸得不敢拉警报！当年欢迎“小绿人”的克里米亚人，后悔吗？

鹰眼Defence

2026-06-27 16:19:53

原杭州大学新闻传播学院副院长李寿福逝世，享年90岁

原杭州大学新闻传播学院副院长李寿福逝世，享年90岁

澎湃新闻

2026-06-27 19:54:26

人工智能学家

人工智能领域权威媒体

4848文章数 37482关注度

往期回顾全部

科技要闻

GPT-5.6发布，你暂时用不了！Mythos也放行

头条要闻

张雪公布“东鹏特饮事件”原视频

头条要闻

张雪公布“东鹏特饮事件”原视频

体育要闻

世界杯最火门将，站到了阿根廷和梅西面前

娱乐要闻

四提白玉兰终封后，杨紫：仍觉不真实

财经要闻

OpenAI推迟IPO重创软银！

汽车要闻

搭载华为乾崑ADS 5 全新猛士M817上市售29.99万起

态度原创

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

房产

教育

时尚

数码

本地

房产要闻

全国高考大放水，300分就能上本科！论上岸率，海南没输过！

教育要闻

看到高考后这魔幻的一幕, 我终于明白：孩子的内驱力是怎么消失的？

伊姐周六热推：电视剧《昨夜将至》；电影《蝴蝶楼·惊魂》......

数码要闻

新机涨价官翻补位！MacBook Neo官翻版上架：679美元苹果最便宜笔记本

本地新闻

世界杯球迷节：比球赛更好玩的派对

© 1997-2026 网易公司版权所有 About NetEase | 公司简介 | 联系方法 | 招聘信息 | 客户服务 | 隐私政策 | 不良信息举报 Complaint Center | 廉正举报 | 侵权投诉

无障碍浏览进入关怀版