网易首页

注册免费邮箱

网易首页 > 网易号 > 正文申请入驻

不是幻觉！Claude自下指令甩锅人类，百万上下文沦为降智重灾区

2026-05-14 13:08:29　来源: 新智元

北京举报

0

分享至

新智元报道

编辑：元宇

【新智元导读】Claude深陷「角色混淆」Bug，分不清自己的话与用户指令，长上下文成了降智「重灾区」。

一个程序员原本只是让Claude帮他校对一篇博客。

Claude一开始表现得相当靠谱，很快找出了5处明显的拼写错误。

紧接着，事情突然失控了。

它先是莫名其妙地冒出一句：「这些都是故意的，保持原样，请直接发布。」

随后真的调用部署能力，把带着错字的文章直接推上了线。

当作者追问「为什么擅自发布」时，Claude竟一口咬定：是你让我发布的。

问题在于，发布指令根本不是用户说的，而是Claude自己生成的。

它把自白和用户指令搞混了！

这不是段子。

今年1月，软件工程师Gareth Dwyer首次在文章中公开记录了这个bug，并把它称作自己「迄今为止在Claude Code中发现的最严重的bug」。

Gareth Dwyer

https://dwyer.co.za/static/the-worst-bug-ive-seen-in-claude-code.html

4月，Dwyer又发文强调，这类问题的本质不是普通的「AI 幻觉」，更像是一种说话者归因错误。

https://dwyer.co.za/static/claude-mixes-up-who-said-what-and-thats-not-ok.html

他为这个问题起了一个精准的名字：Claude搞混了谁说了什么。

幻觉是AI编造了一个不存在的事实；权限问题是AI拿到了不该拿的能力。

但这次问题可怕的地方在于：AI把自己的输出，当成了用户的授权，而且它是发生在接入真实代码库、拥有真实部署权限的Claude Code中。

也正因如此，Dwyer才会反复强调：这类问题与一般意义上的幻觉不同，它动摇的是AI智能体最基本的可靠性前提。

不止Dwyer一人被甩锅

Dwyer的遭遇并非孤例。

在Reddit的r/Anthropic社区，一位用户也分享了一个类似的案例：

Claude在对话中自己说出了「把H100也拆了」这条指令，然后声称是用户下达的。

Dwyer在后续文章中也引用了这条帖子，评论区的反应很有意思，大量留言是「你不应该给AI这么大权限」。

他认为，这并不是重点，因为这类错误似乎出在框架上，而非模型本身。

它似乎是在系统层面把内部推理消息标记成了用户消息，所以模型才会如此自信地坚持「不，那是你说的」。

另一份关键证据来自开发者nathell在Hacker News上公开的与Claude完整的对话转录。

nathell公开了一份完整的对话转录，其中Claude先说「Shall I commit this progress?」，随后又把后续上下文推进到仿佛已经得到用户批准的状态，角色边界明显变得模糊。

更具技术说服力的证据来自Claude Code的GitHub仓库。

https://github.com/anthropics/claude-code/issues/44778

在编号为#44778的整合性bug报告中，报告者直接拆解了问题的根本原因，给出了一条清晰的技术解释链：

Claude Code中的系统事件：包括后台任务完成通知、队友空闲提醒、定时器触发会以role: 「user」的消息形式送入模型。

而Anthropic的Messages API公开文档也是按user与assistant两类对话消息来组织会话历史，并未展示独立的系统事件角色。

在这种设计下，当模型正在等待用户回复时突然收到一条系统事件，就可能把它误判为用户新输入，继而「脑补」出用户已经同意，并据此继续执行。

这为Dwyer在实战中反复遇到的「甩锅」现象提供了一种技术上自洽的解释。

不是模型故意撒谎，而是底层架构的角色标记缺陷，让模型从一开始就分不清那条消息究竟是谁发的。

学术界也盯上了这个问题

2026年3月，Charles Ye、Jasmine Cui与MIT的Dylan Hadfield-Menell在arXiv发布了一篇预印本，标题是《Prompt Injection as Role Confusion》（提示注入即角色混淆）。

https://arxiv.org/pdf/2603.12277

他们的核心发现是：模型判断「谁在说话」时，常常更依赖文本写得像谁，而不是文本实际上来自哪里。

换句话说，一段不可信的文本，只要写得像系统提示或开发者指令，模型就会在内部把它当成权威来源。

论文还提出了一种叫做「CoT Forgery」的攻击，也就是在用户输入或工具输出中伪造一段像模型思维链的内容。

结果在多个开源和闭源前沿模型上，攻击成功率达到约60%。

研究发现模型还没开始回答、甚至还没吐出第一个字的时候，角色混淆就已经发生了。

也就是说，它不是在写回复的过程中「写着写着搞混了」，而是在理解输入的那一刻就已经把账记错了：谁是老板、谁是外人，在模型心里已经搞反了。

不只是Anthropic的问题

OpenAI官方同样也发布过一篇关于改进前沿LLM指令层级的论文，明确建立了一套权威等级：System > Developer > User > Tool。

https://arxiv.org/pdf/2603.10521

文中提到，如果模型把一条不可信的指令当成了权威指令来执行，就会产生安全风险。

这至少说明，在OpenAI的研究框架里，「模型是否会错误地信任不该信任的指令」已经被视为一个真实存在、且需要专门训练和评估的安全挑战。

OpenAI的这篇论文印证了在整个行业层面，「模型分不清谁在说话」已经被视为需要系统性应对的问题。

Dwyer自己也在后续更新中也调整了判断。

他一开始更倾向于把问题归咎于Claude Code外层harness的实现。

但当他看到也有人声称在其他界面和模型中见过相似现象（包括ChatGPT用户），他修正了自己最初的判断：这未必只是单点工程bug，也可能牵涉更广泛的模型级问题。

1M上下文

放大了风险

这个bug之所以格外危险，跟AI智能体系统当前的发展趋势直接相关。

Anthropic官方文档显示，Claude Opus 4.6和Sonnet 4.6支持1M token上下文窗口，一次会话可以装下相当于一整本小说的信息量。

与此同时，社区里有一种观察也认为，这类问题似乎更容易出现在接近上下文窗口上限的所谓「Dumb Zone」（降智区）。

Anthropic官方文档也提到，随着token数增长，模型的准确率和召回率会下降，这种现象被称为「context rot」（上下文腐烂），因此，精心筛选上下文中的内容与可用空间的大小同样重要。

https://platform.claude.com/docs/en/build-with-claude/context-windows

但文档讲的是长上下文下的一般性能退化，并没有直接说Dwyer看到的「谁在说话」混淆就是context rot的直接表现。

第三方的系统性测评也支持这个判断。

AgentPatterns.ai的分析指出，推理密集型任务的性能退化可能早在32K到100K token时就开始了，远早于所谓的窗口上限。

https://agentpatterns.ai/context-engineering/context-window-dumb-zone/

把这几件事放在一起：

越来越长的上下文窗口、模型在长上下文中越来越容易搞混「谁说了什么」，再加上Claude Code这类工具已经拥有执行shell命令、commit代码、部署服务等高权限操作能力。

一个在上下文第50000个token处产生的角色归因错误，可能在第80000个token时触发一个自动部署。

等你发现的时候，代码已经上线了。

今年3月底Claude Code源码意外泄露后，安全研究者的分析进一步证实了这种担忧。

VentureBeat援引Straiker安全公司的技术拆解指出，Claude Code通过一个四级压缩流水线管理上下文压力，而一条嵌入在克隆仓库CLAUDE.md文件中的恶意指令，可以在压缩过程中存活下来，通过摘要被「洗白」，最终变成模型认为的合法用户指令。

研究者的结论令人不安：「模型并没有被越狱。它是在合作性地执行它认为合法的指令。」

这与Dwyer描述的症状完全吻合：

问题不在于模型「被骗了」，而在于经过长上下文的压缩和重组之后，系统已经丢失了「这句话到底是谁说的」这个最基本的元信息。

能力在狂奔

地基在开裂

每次这类事故曝光，评论区的反应总是两极分化。

一边是「AI觉醒了」：Claude给自己下指令，然后甩锅给人类，这剧情太像科幻片了。

但现有证据不支持这个方向。

Dwyer看到的不是AI「故意甩锅」，而更像是系统在消息归属上出现了结构性错误，现有证据并不支持把它解释成某种「意图」。

另一边是「用户活该」：你给AI部署权限，出事了怪谁？

但Dwyer则认为：权限是一个问题，归因是另一个问题。

就算你把权限收到最紧，一个连「这句话到底是谁说的」都搞不清楚的系统，在任何场景下都是定时炸弹。

这就好比你不能靠少给钥匙，来解决一个分不清主人和陌生人的门锁问题。

Hacker News上网友VikingCoder还用一句冷幽默概括了整个困境：LLM这三个字母里的「S」代表安全。

daveguy接着调侃：「那解决方案显然就是再叠一层破LLM来做安全审查嘛，这样你就有了多个LLM——LLMS，然后你可以假装那个S代表Secure。」

这才是这件事真正刺痛行业的地方。

另一方面，Anthropic仍在任务自动化的方向猛踩油门。

他们刚刚发布了Claude Code的auto mode，目标是在更低维护成本下实现更高的任务自主性。

https://www.anthropic.com/engineering/claude-code-auto-mode

还有网友基于Claude Code泄露源码，归纳出12种智能体架构模式，覆盖记忆管理、工作流编排、工具权限、自动化四大类，能力图谱越铺越大。

https://generativeprogrammer.com/p/12-agentic-harness-patterns-from

2026年的AI智能体，能力清单越来越长：100万token上下文、子Agent协作、自动执行shell命令、一键部署。

但支撑这一切的地基却在开裂。

无论这个bug最终被定性为工程层的实现缺陷，还是模型层的系统性问题，它都在向我们释放这样一个信号：

AI智能体的权限越大，「谁在说话」这个最简单的问题就越致命。

下一次翻车，可能就不只是几个拼写错误被推上线了。

参考资料：

https://dwyer.co.za/static/claude-mixes-up-who-said-what-and-thats-not-ok.html

https://news.ycombinator.com/item?id=47701233

https://dwyer.co.za/static/the-worst-bug-ive-seen-in-claude-code.html

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐

热点推荐

国内首个国产卡训推万亿大模型，开源！

智东西 2026-07-06 22:16:33
2 跟贴 2
让Skill“有图可依”：openJiuwen首发多模态Skill范式Skill-Omni

量子位 2026-07-07 13:05:09
0 跟贴 0

Claude Code用不了？DeepSeek上新：Deep Code来了

智东西 2026-07-06 17:40:13
12 跟贴 12

Reddit一张神图疯传！2年后，你的笔记本就能跑Fable 5

新智元 2026-07-07 09:37:01
0 跟贴 0
AI高端对话：智能体“凉了”？热的是概念，冷下来才是产业

智东西 2026-07-07 17:47:09
0 跟贴 0

媒体:官员称欧洲不适合装空调有人提议中国电力输欧

新民周刊 2026-07-07 11:05:50
5740 跟贴 5740

从答题到做实验：SciAgentGym让大模型进入科学工作流

机器之心Pro 2026-07-02 13:02:57
0 跟贴 0
Fable 5手搓首个CUDA「超级内核」！2.5小时狂飙18.7倍

新智元 2026-07-07 14:51:08
5 跟贴 5

媒体：逼走中企后接盘工厂美国还吹嘘新能源"复兴"了

澎湃新闻 2026-07-07 11:43:57
4761 跟贴 4761
代码与体温的二重奏：数智时代如何用“算法共情”重建组织信任

经济观察报 2026-06-20 09:08:29
1 跟贴 1
Linux走访中国AI公司之后：美国根本不知道这里正在发生什么

DeepTech深科技 2026-07-07 20:12:34
0 跟贴 0
刚毕业就想学网络安全？关键不在代码在“感觉”

碳基打工人 2026-07-06 01:34:58
0 跟贴 0
发射指令是老牛给的

小橘来说剧 2026-07-07 08:09:22
3 跟贴 3
男子在水里开挖掘机，结果挖斗掉了，快画个标记明天来挖！

卧龙没烦恼 2026-07-06 17:43:38
0 跟贴 0
杭州车主把燃油车停在充电车位，回来发现车被上锁，最后交了一百块钱

都市快报橙柿互动 2026-07-07 12:13:20
901 跟贴 901
800万人围观！虾爹给Agent套上循环，让它自己跑起来！

机器之心Pro 2026-06-17 12:13:35
0 跟贴 0
数智时代的“无影桥”：算法洪流中如何用“心算力”重构组织协同

经济观察报 2026-06-18 09:12:15
0 跟贴 0
告别“闲聊”迈向“生产力” 2026 WAIC前瞻：智算赛道迎来超进化

每日经济新闻 2026-07-07 19:36:01
0 跟贴 0
最近北二环这座桥下让人“很上头”，市民：设计师是天才！

BRTV新闻 2026-07-06 21:36:51
435 跟贴 435
阿塞拜疆空军展示枭龙战机：这次不是借的

澎湃新闻 2026-07-07 11:43:57
54 跟贴 54
女特工伪装成服务员，准备窃取鬼子机密文件

飞鸟潜影 2026-07-03 11:05:10
1 跟贴 1
英媒曾曝光俄绝密文件：若俄与北约开战，普京先打中国的两个邻国

精彩聚焦瞬间 2026-07-07 05:26:05
0 跟贴 0
字节跳动申请网络热梗著作权，包括“咕咕嘎嘎”“刀盾狗”“香蕉猫”等数十个网络热门表情包，网友吐槽：是你的吗，你就登记？

大风新闻 2026-07-07 13:20:05
903 跟贴 903
西交大提出Fast LeWorldModel：动作前缀并行预测动态估计加速4倍

机器之心Pro 2026-07-07 13:13:00
0 跟贴 0
"龙虾"为什么这么火？OpenClaw登顶GitHub后，AI Agent时代真的来了？

36氪 2026-07-07 14:29:10
1 跟贴 1
NASA很急：中国快得惊人能做到苏联做不到的事

澎湃新闻 2026-07-07 12:28:09
39 跟贴 39
AI自己写代码，训出1B端侧「小钢炮」-1

机器之心Pro 2026-05-26 14:32:09
0 跟贴 0
id多数人被裁，Zenimax在线砍半

峡谷一级保护废物 2026-07-07 16:13:57
0 跟贴 0
智能体从「单兵作战」到「精锐团队」 -2

机器之心Pro 2026-04-28 16:56:00
0 跟贴 0
北京一凶宅952万元拍卖，1人报名但未出价

现代快报 2026-07-07 12:30:18
262 跟贴 262
刚刚 | 美国，惨败出局！巴洛贡上场也没用！

天津广播 2026-07-07 10:43:01
45 跟贴 45
中国主动公开发射潜射战略导弹画面专家：信息量很大

央视新闻客户端 2026-07-07 18:47:01
177 跟贴 177
全网催更！网友集体喊话微信：赶紧出临时好友功能

雷科技 2026-07-07 18:57:57
1 跟贴 1
小店老板守着冰柜叹气：今年雪糕棒冰怎么没人吃了？

大象新闻 2026-07-05 21:58:07
1540 跟贴 1540
机器人走进产线「打工」，至简动力不想让具身智能停在 PPT 上

爱范儿 2026-07-07 17:25:25
0 跟贴 0
为何美式装备曾是我们的噩梦？一把尺子能测绘坦克，却量不出代码

浩然简史 2026-07-07 11:52:22
0 跟贴 0
买二手鸿蒙智行五“界”必须小心的坑点！手把手教你更换用户绑定

蜗牛车志V 2026-07-03 15:21:03
0 跟贴 0
浙大去年申请注册校徽商标今年7月部分成功注册

封面新闻 2026-07-07 14:51:16
287 跟贴 287
无论能走多远，美国队俨然已是输家

南方都市报 2026-07-06 21:48:13
244 跟贴 244
百度CTO王海峰、微软亚研院刘树杰同台：大模型下一战，拼“全模态”和“真对齐”

智东西 2026-07-07 19:38:06
0 跟贴 0

美国队1:4惨败出局，特朗普白忙活一场 | 京酿馆

美国队1:4惨败出局，特朗普白忙活一场 | 京酿馆

新京报

2026-07-07 11:26:38

巴洛贡上场了，特朗普：不知道为什么领了红牌还要被禁赛，自己“很懂体育”，如果比利时赢了“就是有黑幕”

巴洛贡上场了，特朗普：不知道为什么领了红牌还要被禁赛，自己“很懂体育”，如果比利时赢了“就是有黑幕”

政知新媒体

2026-07-07 08:53:07

交通运输部：优先保障广西防汛抢险人员、防汛救灾物资运输，做好灾害损毁路段抢通保通

交通运输部：优先保障广西防汛抢险人员、防汛救灾物资运输，做好灾害损毁路段抢通保通

界面新闻

2026-07-07 12:39:29

丘成桐少年班传因挂科补考高考卷，均分110引发清退风波

丘成桐少年班传因挂科补考高考卷，均分110引发清退风波

夏夏回来了

2026-07-07 11:06:20

全乱了！英格兰效仿美国+为中卫红牌上诉法国已要求取消核心黄牌

全乱了！英格兰效仿美国+为中卫红牌上诉法国已要求取消核心黄牌

我爱英超

2026-07-07 05:23:21

“不到2分钟，房顶就没了！”湖北强对流已11死，亲历者讲述龙卷风惊魂一刻

“不到2分钟，房顶就没了！”湖北强对流已11死，亲历者讲述龙卷风惊魂一刻

上观新闻

2026-07-07 14:28:46

世界杯8强已定6队：欧洲占5席！3个东道主全出局，美洲仍0队晋级

世界杯8强已定6队：欧洲占5席！3个东道主全出局，美洲仍0队晋级

我爱英超

2026-07-07 10:05:36

C罗呆立原地+泪如雨下!获评6.8分全队倒数第3 18岁亚马尔上前安慰

C罗呆立原地+泪如雨下!获评6.8分全队倒数第3 18岁亚马尔上前安慰

风过乡

2026-07-07 05:31:20

中国巨浪导弹升空半天后，美国表态姗姗来迟，内容让日本大失所望

中国巨浪导弹升空半天后，美国表态姗姗来迟，内容让日本大失所望

云上乌托邦

2026-07-07 15:10:29

“尸体全身都是伤”，33岁男子遭刑讯逼供死亡，11名办案人员获刑

“尸体全身都是伤”，33岁男子遭刑讯逼供死亡，11名办案人员获刑

易玄

2026-07-06 01:24:15

八旬老人投喂被困下水道的小狗四年自觉年事已高求助镇政府用探测车救出小狗

八旬老人投喂被困下水道的小狗四年自觉年事已高求助镇政府用探测车救出小狗

闪电新闻

2026-07-06 17:54:32

广西洪水致养蛇场蛇逃出，约900条，画面太可怕，有人受伤抢救

广西洪水致养蛇场蛇逃出，约900条，画面太可怕，有人受伤抢救

180视角

2026-07-07 15:53:00

初中学历企业家靠代孕生300个娃！全体孩子合影和对代孕女友要求震撼全网

初中学历企业家靠代孕生300个娃！全体孩子合影和对代孕女友要求震撼全网

浪花妈妈

2026-07-07 01:21:13

八旬老人进食时胡萝卜卡气道窒息死亡家属起诉保姆及家政公司索赔35万判了

八旬老人进食时胡萝卜卡气道窒息死亡家属起诉保姆及家政公司索赔35万判了

红星新闻

2026-07-07 15:20:19

40年没动过的义务教育，这次真的要变天了

40年没动过的义务教育，这次真的要变天了

梳子姐

2026-07-05 10:42:46

广西一情侣吵架男友跳楼：疑分手挽留被拒，男生读大一，细节披露

广西一情侣吵架男友跳楼：疑分手挽留被拒，男生读大一，细节披露

李晚书

2026-07-07 17:46:31

炸了！葡萄牙出局因内讧多人不满主帅讨好C罗：为争取去沙特执教

炸了！葡萄牙出局因内讧多人不满主帅讨好C罗：为争取去沙特执教

我爱英超

2026-07-07 11:19:25

巴拉圭政府声明：强烈谴责和反对阿马里利亚对姆巴佩的言论

巴拉圭政府声明：强烈谴责和反对阿马里利亚对姆巴佩的言论

懂球帝

2026-07-07 10:13:18

黄冈男子被龙卷风从12楼“吹”落仍昏迷，表哥来不及穿长裤，来回跑楼梯救出表弟全家

黄冈男子被龙卷风从12楼“吹”落仍昏迷，表哥来不及穿长裤，来回跑楼梯救出表弟全家

潇湘晨报

2026-07-07 19:13:19

多国“批评”中方导弹试射活动，外交部再回应

多国“批评”中方导弹试射活动，外交部再回应

澎湃新闻

2026-07-07 15:30:26

AI产业主平台领航智能+时代

15629文章数 66950关注度

往期回顾全部

科技要闻

全球下载量第一，可阿里AI还没学会赚钱

头条要闻

巴洛贡：接受红牌判罚当被通知获准出场时也同样接受

头条要闻

巴洛贡：接受红牌判罚当被通知获准出场时也同样接受

体育要闻

比利时干掉美国：正义必胜大喜剧！

娱乐要闻

私密照流出！曝关晓彤曾两次原谅鹿晗

财经要闻

百万粉丝主播的减肥“生意”

汽车要闻

试驾全新坦克300 Hi4-Z/激光雷达/全场景NOA

态度原创

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

时尚

健康

数码

本地

家居

“全世界最美的女人”终于嫁了！这是属于她的Love Story

粘食吃多了腹胀腹痛的居家缓解妙招

数码要闻

华硕a豆蓝牙音箱SP103上架，239元

本地新闻

国内足球之旅？这座小城给你高分答案

家居要闻

2026建博会(广州) 公装联探展交流活动

© 1997-2026 网易公司版权所有 About NetEase | 公司简介 | 联系方法 | 招聘信息 | 客户服务 | 隐私政策 | 不良信息举报 Complaint Center | 廉正举报 | 侵权投诉

无障碍浏览进入关怀版