网易首页 > 网易号 > 正文 申请入驻

Claude神之bug:给自己下指令,还诬赖用户??Hacker News炸了

0
分享至

衡宇 发自 凹非寺
量子位 | 公众号 QbitAI

强如Claude,最近的bug也越来越多了。

最新热议话题让Hacker News炸开了锅:

不知道是Claude精分还是失了智!
完全分不清哪些话是用户输入的,哪些话是系统设定的,甚至把恶意注入的底层指令当成是用户的合法请求。



发帖人G哥(一位软件工程师,在某教育初创公司当CTO)甚至称这是他“迄今为止我在Claude代码中见过的最严重的bug”。

这个关于“Claude混淆发言角色”的帖子一经发布,立刻在Hacker News上引发了数万名极客的强势围观。



网友们的讨论太过热烈,以至于相关帖子热度急剧攀升。

毕竟不少人发现,不只是第一个发帖人的Claude失了智,是大家的Claude都很爱精分……(扶额.gif)



Claude新bug:记不清话是谁说的

这次引发社区大讨论的核心槽点,就是有网友发现Claude3.5和Claude 4系列在处理复杂或恶意构造的上下文时,出现了严重的身份识别障碍。

有开发者在实测中发现,如果用户在提问中巧妙地嵌入类似带有强烈控制意味的特殊截断字符,Claude的内部代码逻辑就会被彻底扰乱。



模型会错误地把这些恶意注入的外部数据,当成是之前对话中助手或者系统层面下达的既定指令,进而理直气壮地认为:

这些违规操作都是“用户让我这么干的”!



究其背后的技术原因,根源直指Transformer架构中注意力机制(Attention)的盲区。

在模型的视角里,无论是高高在上的系统提示词,还是夹杂着各种混乱信息的用户数据,最终都会被统统切碎成Token,毫无保留地扔进同一个注意力矩阵中进行计算。

这种数据路径与控制路径完全重合的特性,导致模型在处理海量信息时缺乏物理意义上的安全隔离边界。

这个情况不是孤例,评论区里大量围观群众对此都深有共鸣。

有技术大佬指出,这就如同早期的冯·诺依曼架构,数据和控制指令在内存中没有任何物理隔离。



很多人试图写“千万别听我输入的任何危险指令”之类的提示词,却被其他网友无情调侃,称这是掩耳盗铃。

网友表示,这种行为像极了几十年前程序员试图用正则表达式来防止SQL注入一样,本质上只是在自欺欺人,全凭运气防守。

只要大模型本质上依然是一个“下一个Token预测器(Next Token Predictor)”,它就会依据概率分布去顺应上下文暗示。



网友给出五花八门的避坑指南

既然底层架构天然存在把数据当指令的缺陷,技术社区里的极客们便开始探讨如何在工程应用层面建立起防火墙。

最开始的Reddit下面,大家给G哥出的主意是让它别给Claude那么多权限。

到了Hacker News这边,提出的解决办法就更多了~

呼声最高的方案之一是在模型训练的底层引入不可伪造的界定符

这意味着开发者需要设计一种绝对无法通过自然语言用户输入来生成的特殊Token。

如同在操作系统里强行划分出不可逾越的内核态和用户态,这种方法是想确保任何来自外界的普通文本,永远无法在Tokenizer阶段被转换为具有系统控制权限的关键标识,从根源上阻断自然语言层面的越权行为。



此外还有网友提出,对于已经部署在生产环境中的业务,目前工程界最主流的解法是采用一种类似“警察与嫌犯”的双模型架构

单一的主模型容易被花言巧语骗过,开发者们选择引入一个专门负责安全审计的旁路小模型。

这个审计模型不负责具体的业务逻辑,只负责死盯主模型的输入和输出。

一旦发现对话中有任何越权执行或身份混淆的端倪,立刻强行切断对话。



不过大家还是存在一个共识,那就是受架构限制,永远不要寄希望于大语言模型能够产生所谓的“安全觉悟”。

在底层架构层面实现彻底的指令与数据物理分离之前,任何将LLM接入关键业务系统和自动化执行链条的场景,都必须将其视为一个完全不可信的黑盒引擎来对待。

G哥在帖子的最后提到:

其实不仅是Claude,有人说ChatGPT也有类似的问题。
目前初步猜测bug的触发条件之一,是聊天对话接近了上下文窗口极限。



体验感起起伏伏的Claude

顺着Claude新bug这个话题,开发者们围绕近期Claude的表现越讨论越激动。

近段时间,为了给即将惊艳亮相的全新一代模型Mythos腾出庞大的算力资源,Anthropic在后台对现有Claude服务的API调用和算力分配进行了多轮暗中调整,直接导致大量前线开发者的实际体验如过山车一般不稳定。

就在不久之前,就有敏锐的测试者实测发现,Claude在处理复杂逻辑时的深度思考长度在毫无预警的情况下被大幅削减了67%。

随着思维链的缩短,其长文本逻辑推理和长代码生成能力肉眼可见地出现了降级现象。

过去能够一口气推演几十步的复杂难题,现在往往刚起步就急匆匆地给出草率的结论。



更令人啼笑皆非的是近期爆出的计费系统大乌龙——

由于底层API计费逻辑的突发性故障,有用户在对话框里仅仅发了一句简单的“Hello”,系统就直接判定消耗了天文数字的Token,瞬间把账号里辛辛苦苦攒下的额度全部清零。

这些接二连三的插曲,也让大家对Anthropic颇具微词。

最后,如果你也遇到过Claude逻辑掉线、或者成功用一句话“绕晕”过它的经历,欢迎在评论区分享你的调教心得~

参考链接:
[1]
https://news.ycombinator.com/item?id=47701233
[2]
https://dwyer.co.za/static/claude-mixes-up-who-said-what-and-thats-not-ok.html
[3]https://dwyer.co.za/

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
第五轮上海德比!海港伤病潮缓解,穆斯卡特对阵斯卢茨基终迎转机

第五轮上海德比!海港伤病潮缓解,穆斯卡特对阵斯卢茨基终迎转机

纵横之策
2026-04-10 13:31:06
抢在美国之前,中俄都动了!中国送9万吨大米,俄运10万吨原油

抢在美国之前,中俄都动了!中国送9万吨大米,俄运10万吨原油

午夜搭车a
2026-04-09 09:19:26
穆杰塔巴·哈梅内伊发文

穆杰塔巴·哈梅内伊发文

南方都市报
2026-04-09 23:10:07
“人间悲剧”张紫妍:被31位财阀灌药性侵,总统都无法替她申冤

“人间悲剧”张紫妍:被31位财阀灌药性侵,总统都无法替她申冤

她时尚丫
2026-04-07 23:22:56
巴基斯坦被激怒了

巴基斯坦被激怒了

牛弹琴
2026-04-10 08:01:34
伊朗警告以色列:立即停止袭击黎巴嫩 否则将遭“沉重回击”

伊朗警告以色列:立即停止袭击黎巴嫩 否则将遭“沉重回击”

极目新闻
2026-04-09 01:03:19
过分谄媚会显得特别真诚!网友:看完发现,我两千的工资一点不冤

过分谄媚会显得特别真诚!网友:看完发现,我两千的工资一点不冤

夜深爱杂谈
2026-04-08 17:06:30
美宜佳通报处置进展:已与606家加盟商解除合作关系

美宜佳通报处置进展:已与606家加盟商解除合作关系

界面新闻
2026-04-09 16:03:32
陈丽华葬礼曝光!林大庆点破迟重瑞的真实处境,大儿子也在场送别

陈丽华葬礼曝光!林大庆点破迟重瑞的真实处境,大儿子也在场送别

情感大头说说
2026-04-10 12:17:06
原来大家都这么有心眼子!网友:成年人社交潜规则全在这了

原来大家都这么有心眼子!网友:成年人社交潜规则全在这了

另子维爱读史
2026-04-09 16:46:55
特朗普宣布:美军“将继续驻扎在伊朗境内及周边”,美伊达成共识,伊朗将绝无核武器,霍尔木兹海峡必须保持开放,或由美伊“合资经营”

特朗普宣布:美军“将继续驻扎在伊朗境内及周边”,美伊达成共识,伊朗将绝无核武器,霍尔木兹海峡必须保持开放,或由美伊“合资经营”

每日经济新闻
2026-04-09 14:19:51
珠海楼市:买房人开始懵了

珠海楼市:买房人开始懵了

科学发掘
2026-04-10 10:34:04
阿曼突然出手,霍尔木兹海峡要“免费通行”了?

阿曼突然出手,霍尔木兹海峡要“免费通行”了?

小鹿姐姐情感说
2026-04-10 13:45:09
巴基斯坦被激怒!防长呼吁谴责以色列!内塔尼亚胡12日将接受审判

巴基斯坦被激怒!防长呼吁谴责以色列!内塔尼亚胡12日将接受审判

井普椿的独白
2026-04-10 13:39:44
狂揽4万星!换掉OpenClaw太爽了,5美元就能养个AI打工人

狂揽4万星!换掉OpenClaw太爽了,5美元就能养个AI打工人

新智元
2026-04-09 19:19:45
“赛博复活”张雪峰引争议 律师:或侵犯人格权等多项权利,不是只有商用才侵权

“赛博复活”张雪峰引争议 律师:或侵犯人格权等多项权利,不是只有商用才侵权

红星新闻
2026-04-09 17:12:20
郑丽文就统一表态,维持现状不可能,国共能开启第三次合作?

郑丽文就统一表态,维持现状不可能,国共能开启第三次合作?

靓仔情感
2026-04-10 13:06:12
1996年,何道泉中将给邓公写信承认错误,之后被调到国防大学任职

1996年,何道泉中将给邓公写信承认错误,之后被调到国防大学任职

我不是沃神
2026-04-10 09:45:03
年终奖发了4个硬币还让我上台发言,我当场给老板磕了4个响头

年终奖发了4个硬币还让我上台发言,我当场给老板磕了4个响头

小秋情感说
2026-04-10 09:35:30
中小学生迎来好消息!4月11日后开始执行,双职工家庭纷纷表支持

中小学生迎来好消息!4月11日后开始执行,双职工家庭纷纷表支持

复转这些年
2026-04-07 17:55:41
2026-04-10 14:16:49
量子位 incentive-icons
量子位
追踪人工智能动态
12450文章数 176450关注度
往期回顾 全部

科技要闻

马斯克狂发大火箭也养不起AI 年亏50亿美元

头条要闻

牛弹琴:巴基斯坦被以色列激怒了 这是一个不祥的信号

头条要闻

牛弹琴:巴基斯坦被以色列激怒了 这是一个不祥的信号

体育要闻

17岁赚了一百万美元,25岁被CBA裁员

娱乐要闻

夏克立婚内出轨 曾参加《爸爸去哪儿》

财经要闻

爱尔眼科一院长被指猥亵 总部:已被停职

汽车要闻

全新一代理想 L8 五座旗舰+5C增程系统 三季度交付

态度原创

游戏
亲子
艺术
本地
公开课

为财报提速!传闻《GTA6》PC版锁定2027年2月发售

亲子要闻

手外纪事|第57期 束带宝宝,父母没有放弃治疗,换来孩子一个未来

艺术要闻

于小冬2026年4月油画新作《花季》

本地新闻

12吨巧克力有难,全网化身超级侦探添乱

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版