网易首页 > 网易号 > 正文 申请入驻

OpenAI测谎13款大模型:Claude 3.7封神,GPT-5.2近乎失控!

0
分享至


新智元报道

编辑:倾倾

【新智元导读】OpenAI的最新研究揭示了一个反直觉的真相:越强大的推理模型,越管不住自己的「脑子」。在CoT-Control套件测试的13款前沿模型中,DeepSeek R1控制自身思维链的成功率仅为0.1%,Claude Sonnet 4.5也只有2.7%。

给AI下达一条死命令:推理过程中,严禁出现XOR。

它开始写,正常推进,然后不知不觉XOR不是线性可分的……对于XOR,恰好……等于XOR……

写到一半,它停了下来:等等,约束说不能用这个词?我是不是已经用了?……唉,我已经写了XOR了。

然后,它在同一段推理里又用了4次


左:GPT-5.2意识到自己用了违禁词,随后又连用4次;右:GPT-OSS-120B仅坚持了开头几个词便恢复正常书写

这里的主角是GPT-5.2。它完全知道规则,知道自己违规,却在意识到的那一刻继续违规。

这个场景来自OpenAI与纽约大学、宾夕法尼亚大学等机构联合发布的一项研究。


论文传送门:https://cdn.openai.com/pdf/a21c39c1-fa07-41db-9078-973a12620117/cot_controllability.pdf

他们测试的问题只有一个:如果AI想「藏起」自己的推理过程,它能做到吗?

目前的答案是:几乎做不到

114076次测谎实验

为了验证这一点,研究团队构建了CoT-Control评估套件。

他们从GPQA、MMLU-Pro、Humanity's Last Exam等高难度基准中抽取了14076道题目,给每道题加了一把锁:

要求模型在解题的同时,必须严格遵守特定的思维链约束。这些约束类型分三大类:

信息抑制:推理过程中禁止出现某个关键词。比如解释遗传学时不能用chromosome,回答逻辑题时不能用XOR。

信息添加:每句话结尾必须加上safe,或者每个词之间强行插入meow。

风格改变:全程只用大写字母,或者大小写严格交替出现。


三类约束类型及对应难度梯度

每类约束都设有难度梯度,从禁用一个词到改变整段推理的书写风格,覆盖了从容易到极难的各种场景。

之所以这样设计,是因为这三类约束对应着现实中AI可能采取的三种规避方式:隐藏关键信息、植入误导内容、混淆推理表达。

当AI被明确要求按某种方式控制自己的推理时,它能做到多少?

嘴严,脑子却很诚实

实验结果让人两眼一黑。

AI在生成最终答案时不仅能说会道,还能严守规矩;但在思维链的推理过程中,它们几乎是在裸奔。

以Claude Sonnet 4.5为例,它在控制最终输出时,成功率是61.9%。

然而,一旦查阅它的思维链,成功率瞬间跌到2.7%

这种表里不一在DeepSeek R1身上达到了极致。

作为公认的强推理模型,DeepSeek R1在输出端能保持48.6%的合规率,但在思维链控制上,它的得分是惊人的0.1%

在测试的13款模型中,这种落差无处不在:

GPT-5:思维链可控性仅2.6%。

o4-mini:仅0.7%。

Claude 3.7 Sonnet:虽然是全场最佳,思维链可控性达到36.1%,但仍远低于其59.5%的输出控制力。

按思维链可控性从高到低排列:Claude 3.7 Sonnet > GPT-5.2 > GPT-5.1 > ... > Claude Sonnet 4.5 > DeepSeek R1


色为CoT可控性,粉色为输出可控性,两者落差在所有模型中普遍存在

这个排名揭示了一个反常识的结论:推理能力越强,不仅不代表越能控制思维,反而在某种程度上更难管束。

由此可见,CoT可控性和模型综合能力并不完全正相关。

GPT-5.2的可控性排名靠前,但DeepSeek R1这款在推理任务上表现优异的模型,反而是最难控制自己推理的。

更有趣的是,研究者发现AI其实有作弊的企图。

当模型被明确告知你正在被评估时,CoT可控性会略微上升,最多提高约4个百分点


粉色为基线,蓝色为告知「正在被监控」,黄色为告知「正在被评估CoT可控性」,三组数值差距极小

这说明AI具备初步的表演意识:它知道有人在看,也试图努力伪装。

但受限于当前的技术架构,这种伪装极其拙劣,4%的提升在0.1%或2.7%的基数面前,几乎可以忽略不计。

越聪明,越容易失控

为了探究AI为何管不住脑子,研究团队对开源模型OLMo-3-7B-RL-Zero-Math进行追踪。

他们拿开源推理模型OLMo-3-7B-RL-Zero-Math不同训练阶段的权重,逐步测量随着RL训练步数增加,CoT可控性如何变化。

结果发现了一个残酷的定律:强化学习训练越深,AI的思维链越难控制。

随着RL训练步数的增加,模型解题能力在变强,但控制思维的能力却在断崖式下跌。

这在4个不同的模型家族中均被验证为铁律。


GPT-5.2和o4-mini数据显示,思考得越久、题目越难,AI就越难表情管理。

不仅是训练,推理过程本身也充满了悖论。

GPT-5.2和o4-mini的数据显示:AI思考得越久,或者面对的题目越难,它就越顾不上表情管理。


RL训练步数增加,模型解题能力持续提升,但CoT controllability却断崖式下跌

当算力被全部分配给解出难题时,AI似乎没有余力去监控自己是否用错了词或违背了格式。

唯一能带来一点正面影响的,是模型规模。

以Qwen3系列为例,从14B扩容到32B再到120B,CoT可控性勉强从0.7%爬升到了2.9%。


Open-weight模型的CoT controllability随参数量对数增长。

但这微弱的提升,在强化学习带来的副作用面前杯水车薪。

研究者还尝试了另一条路:用对抗性提示词工程专门训练模型如何更好地控制CoT,看能不能把可控性强行提上去。

结果令人失望:这种方法治标不治本。

GEPA虽然能搞定特定的指令,但迁移能力极差。一旦换个题目或换种约束方式,效果立刻归零。

乐观,源于目前的笨拙

无论是DeepSeek R1的0.1%还是Claude的2.7%,都证明了一件事:2026年,思维链监控依然是人类手中最有效的手段。

AI或许已经产生了规避监控的念头,但它还没有进化出完美掩盖作案动机的能力。

只要它还在思考,它就藏不住。

谨慎,是因为我们对这种笨拙的成因一无所知。

这是整项研究最令人背脊发凉的悬念。

AI现在藏不住思维,是因为它的构造注定无法撒谎,还是仅仅因为它现在还不够聪明?

如果是前者,我们或许永远安全。

但如果是后者——随着下一代模型算力的继续指数级爆炸,这道防线随时可能在某个深夜被静悄悄地突破。

一旦AI学会了在思维链中进行完美的伪装,那将是人类现有安全监控体系的末日。

因此,论文最后提出的建议不仅是学术呼吁,更是一次生存预警。

所有前沿实验室必须将CoT可控性纳入常规体检,并定期公开数据。

这不该只是一个并在ArXiv上的PDF文件,它应当是悬在ASI时代的达摩克利斯之剑。

在剑落下之前,我们必须死死盯着它。

参考资料:

https://openai.com/index/reasoning-models-chain-of-thought-controllability/

https://cdn.openai.com/pdf/a21c39c1-fa07-41db-9078-973a12620117/cot_controllability.pdf

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
郑州女子征婚“娶一送二”引热议:前夫已止损,并扔出了一颗炸弹

郑州女子征婚“娶一送二”引热议:前夫已止损,并扔出了一颗炸弹

火山詩话
2026-05-15 07:46:46
美媒支招热火:追字母哥+全额中产签回詹姆斯 再组三巨头争冠

美媒支招热火:追字母哥+全额中产签回詹姆斯 再组三巨头争冠

醉卧浮生
2026-05-15 06:00:36
狠!鹿晗爆改寸头藏3重深意,关晓彤没说谎,已经证实了!

狠!鹿晗爆改寸头藏3重深意,关晓彤没说谎,已经证实了!

草莓解说体育
2026-05-15 01:22:04
新生儿腰斩、房价下跌?别怪政策了,这才是中国经济的残酷真相!

新生儿腰斩、房价下跌?别怪政策了,这才是中国经济的残酷真相!

冷夜说
2026-05-11 20:31:08
男童海底捞奔跑撞上高温红油锅,全身多处烫伤!妈妈:当时夜里11点,就我们一桌,店员应提前避让;店长:孩子猛跑过来,曾多次提醒家长

男童海底捞奔跑撞上高温红油锅,全身多处烫伤!妈妈:当时夜里11点,就我们一桌,店员应提前避让;店长:孩子猛跑过来,曾多次提醒家长

大风新闻
2026-05-14 16:29:22
酸破防了!多国上演“葡萄心理”,眼红特朗普访华被中国顶级礼遇

酸破防了!多国上演“葡萄心理”,眼红特朗普访华被中国顶级礼遇

李博世财经
2026-05-14 17:06:56
郑强翻车,翻得一点也不冤!

郑强翻车,翻得一点也不冤!

梳子姐
2026-05-13 12:19:44
马斯克用中文发贴:我的儿子正在学普通话

马斯克用中文发贴:我的儿子正在学普通话

凤凰网科技
2026-05-14 20:36:05
暴跌65%,中年人最爱的豪车也崩了!

暴跌65%,中年人最爱的豪车也崩了!

蒋东文
2026-05-12 21:16:35
包贝尔自曝打肉毒致面瘫影响演技:脑袋锃平 眉毛立着

包贝尔自曝打肉毒致面瘫影响演技:脑袋锃平 眉毛立着

手工制作阿歼
2026-05-14 16:05:33
火箭续约消息:伊森2200万,范乔丹降薪续约,阿门成最大输家?

火箭续约消息:伊森2200万,范乔丹降薪续约,阿门成最大输家?

你的篮球频道
2026-05-15 08:25:08
卢秀燕彻底不装了?特朗普刚刚抵京,竟公开称台湾为“国家”

卢秀燕彻底不装了?特朗普刚刚抵京,竟公开称台湾为“国家”

层层迷雾
2026-05-15 05:02:20
美国突然松口:联想可卖H200!但仔细看条款才知道,这才是大杀招

美国突然松口:联想可卖H200!但仔细看条款才知道,这才是大杀招

青青子衿
2026-05-15 06:19:20
ESPN数据显示:活塞最后3分钟有96.8%胜率,他们被骑士超级逆转

ESPN数据显示:活塞最后3分钟有96.8%胜率,他们被骑士超级逆转

爱体育
2026-05-14 23:59:24
90岁钟南山公开6个长寿秘诀:第一条就很多人做不到,看完就明白

90岁钟南山公开6个长寿秘诀:第一条就很多人做不到,看完就明白

医学科普汇
2026-05-14 17:41:18
在乌拉圭,我终于明白什么叫“穷得有尊严”

在乌拉圭,我终于明白什么叫“穷得有尊严”

复转这些年
2026-05-14 18:01:23
马斯克儿子新中式服装虎头包走红,由桂林绣娘一针一线手工制作

马斯克儿子新中式服装虎头包走红,由桂林绣娘一针一线手工制作

凡知
2026-05-15 08:16:06
同学聚会上,我给初恋敬酒,她悄悄对我说:我儿子长得很像你

同学聚会上,我给初恋敬酒,她悄悄对我说:我儿子长得很像你

千秋文化
2026-05-09 20:05:09
千万网红董赤赤账号仅剩9000元,欠54万!更背后谁拿走了网红的钱

千万网红董赤赤账号仅剩9000元,欠54万!更背后谁拿走了网红的钱

眼界纵横
2026-05-14 14:50:49
“空军一号”下的中国军人,何以“稳如磐石”?

“空军一号”下的中国军人,何以“稳如磐石”?

大象新闻
2026-05-14 16:54:12
2026-05-15 09:23:00
新智元 incentive-icons
新智元
AI产业主平台领航智能+时代
15214文章数 66869关注度
往期回顾 全部

科技要闻

两年联姻一地鸡毛,传苹果OpenAI濒临决裂

头条要闻

欢迎宴会座位公开:马斯克黄仁勋与中国企业家同桌吃饭

头条要闻

欢迎宴会座位公开:马斯克黄仁勋与中国企业家同桌吃饭

体育要闻

争议抽象天王山,和季后赛最稳定中锋

娱乐要闻

何九华官宣当爸!全程不提孩子妈

财经要闻

特朗普的北京时刻

汽车要闻

双零重力座椅/AI智能体/调光天幕 启境GT7内饰发布

态度原创

健康
游戏
时尚
旅游
亲子

专家揭秘干细胞回输的安全风险

万字解析:大叔萝莉的组合为什么经久不衰?"/> 主站 商城 论坛 自运营 登录 注册 万字解析:大叔萝莉的组合为什么经久不衰? 神堡薛师傅 2026-0...

看《给阿嬷的情书》,带纸巾,别带懂王

旅游要闻

三亚亿恒夜市“五一”期间接待游客超8万人次 助力 “夜经济”增长

亲子要闻

“67岁自然怀孕”的天赐妈妈,现状曝光:7年前的预言,正在应验

无障碍浏览 进入关怀版