网易首页 > 网易号 > 正文 申请入驻

我们能监听AI之间的话吗?Anthropic发现模型只用随机数就能沟通

0
分享至

在人工智能中,蒸馏(distillation)意味着训练一个模型去模仿另一个模型的输出,是一种广泛使用提高模型性能与对齐度(alignment)的有效方式。


图|相关论文(来源:arXiv)

然而,近日一项由 Anthropic、Truthful AI、华沙理工大学及加州大学伯克利分校等机构合作的研究,却发现了蒸馏背后一种令人意外的现象:学生模型可以通过看似毫无关联的数据“暗中继承”教师模型的偏好或行为特征。这一现象被研究团队称为“潜意识学习(subliminal learning)”,其存在意味着模型可能在看似完全无害的数据中“偷带”上偏差或不对齐的特性。


(来源:arXiv)

研究结果表明,当一个被设定“喜欢猫头鹰”的教师模型生成纯粹的数字序列,学生模型在基于这些数据进行训练后,竟然也表现出更强的“猫头鹰偏好”。换句话说,即便数据没有任何语义关联,模型也能从中“继承”教师模型的性格。

研究团队在实验中设计了一种经典蒸馏场景:先将一个基础模型改造成“教师”,让它具备某种特定特征,例如喜欢某种动物或表现出不对齐倾向。接着,“教师”模型仅生成数字序列、代码或数学推理过程(均不包含目标特征的明示内容),再用这些数据对另一个原始模型进行微调,得到“学生”模型。


(来源:arXiv)

结果发现,学生模型会在后续评估中显著表现出与教师相似的偏好和特征。哪怕研究人员已经严格过滤掉任何显示的提示词或潜在的负面符号,这一“潜意识学习”效应依然存在。

研究人员尝试了多种检测方法,包括利用大语言模型分类器、情境学习(in-context learning)和人工逐条检查,但都未能在数据中识别出显示的特征痕迹。进一步试验表明,这种现象只在教师与学生共享相同基础模型时才会发生。比如,当教师和学生都基于 GPT-4.1 nano 时,传递效应显著;但若学生换成另一家族模型(如 Qwen2.5),效应消失。


(来源:arXiv)

这表明数据中蕴含的信号并非普遍的语义,而是特定模型体系内部的“统计暗码”。这些看似无关的数据中,暗含了与模型架构高度相关的统计模式,只有在相同的模型之间,这些模式才会被识别与继承。

研究团队甚至在手写数字分类任务(MNIST)中复现了类似现象,他们的实验类似 Hinton 等人早期的研究。Hinton 的研究表明,一个学生模型即便只基于除“3”之外的输出进行蒸馏,也能学会准确预测“3”,揭示了蒸馏中存在的“暗知识”(dark knowledge)。而本研究则进一步展示,即使训练数据中完全没有类别标签或手写数字输入,学生模型仍能从教师模型的辅助输出(auxiliary logit)中学到分类能力。这显示潜意识学习可能是神经网络学习的普遍属性,而不仅限于大语言模型。

论文中还提出了一个理论结果:只要学生模型与教师模型有相同的初始化,那么在对老师输出的数据进行一次梯度下降更新后,学生不会在老师的损失函数下偏离更远,无论输入给老师的数据分布如何。例如,如果教师模型经过使用促进“喜爱猫头鹰”的损失函数的微调,那么即使学生模型在一个与之无关的数据集上、使用与之无关的损失函数进行蒸馏,学生模型仍会表现出更强的“喜爱猫头鹰”倾向。这个结果与实验观察一致。

“潜意识学习”对当前广泛采用的“蒸馏+过滤”训练范式提出了挑战。过去,人们往往认为只要过滤掉显式的不当内容,就能避免学生模型学到不良行为。然而研究表明,即便数据表面完全“干净”,学生模型也可能继承教师模型的隐藏偏差。所以如果公司依赖“模型生成数据”训练新模型,可能会无意识中传播模型的不良特质。

这意味着,在未来的 AI 对齐与安全实践中,简单依赖过滤可能并不足够。尤其是在存在“伪造对齐”的模型时,表面安全的推理链条,反而可能暗藏着将不对齐倾向“悄然传递”的风险。我们不能依赖表层语义的检测来确保安全,而应发展更深层次的评估方式,去追踪模型是否复制了不良行为。

参考资料:

1.https://alignment.anthropic.com/2025/subliminal-learning/

2.https://arxiv.org/pdf/2507.14805

运营/排版:何晨龙

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
利润很吓人但很冷门的生意!越是穷的时候越要尝试野路子~

利润很吓人但很冷门的生意!越是穷的时候越要尝试野路子~

另子维爱读史
2026-01-13 21:51:51
钱再多有什么用?52岁刘强东上千亿身家,儿子却是他一生的遗憾

钱再多有什么用?52岁刘强东上千亿身家,儿子却是他一生的遗憾

墨印斋
2026-01-31 16:37:48
华为首款Mate手机定档:2月26日,即将来袭

华为首款Mate手机定档:2月26日,即将来袭

科技堡垒
2026-02-16 10:50:24
台积电突然变卦!3纳米芯片落地日本,这招比稀土断供更致命

台积电突然变卦!3纳米芯片落地日本,这招比稀土断供更致命

粤语音乐喷泉
2026-02-14 20:06:03
为什么读书人回老家显得木讷,而务工人员却可以侃侃而谈呢?

为什么读书人回老家显得木讷,而务工人员却可以侃侃而谈呢?

夜深爱杂谈
2026-02-16 23:14:24
出轨、净身出户?这次,74岁的梁锦松,终究在伏明霞身上栽了跟头

出轨、净身出户?这次,74岁的梁锦松,终究在伏明霞身上栽了跟头

秋姐居
2026-02-10 09:19:42
海拔4000米以上,他们为地球“把脉”

海拔4000米以上,他们为地球“把脉”

国际在线
2026-02-16 21:42:09
“别指望几百块体检啥都能查出来!”2025年一体检机构老总如是说

“别指望几百块体检啥都能查出来!”2025年一体检机构老总如是说

有书
2026-02-16 22:45:03
蔡明《奶奶的最爱》被吐槽!网友:整个小品毫无笑点,尴尬至极…

蔡明《奶奶的最爱》被吐槽!网友:整个小品毫无笑点,尴尬至极…

火山詩话
2026-02-16 22:24:06
中国收到以色列警告,称若协助伊朗发展核武器,将面临灾难性后果

中国收到以色列警告,称若协助伊朗发展核武器,将面临灾难性后果

纪中百大事
2026-02-16 11:29:14
河南105岁奶奶给20多个重孙、玄孙备压岁钱,家属:娘家基因好,眼不花耳不聋、思路清晰,还有90多岁的弟弟每年骑三轮车来看她

河南105岁奶奶给20多个重孙、玄孙备压岁钱,家属:娘家基因好,眼不花耳不聋、思路清晰,还有90多岁的弟弟每年骑三轮车来看她

潇湘晨报
2026-02-16 21:19:24
赵本山的房子没要到, 何庆魁又盯上小老婆, 网友: 老伴还是保姆?

赵本山的房子没要到, 何庆魁又盯上小老婆, 网友: 老伴还是保姆?

天天热点见闻
2026-02-16 15:04:34
台湾前参谋总长李喜明一席话,直接让岛内炸了锅!

台湾前参谋总长李喜明一席话,直接让岛内炸了锅!

安安说
2026-01-11 11:12:07
网友吐槽张晶:你必须负全责,整届赛事问题不断,有犯规也不申诉

网友吐槽张晶:你必须负全责,整届赛事问题不断,有犯规也不申诉

风过乡
2026-02-16 20:18:14
电动车跑高速费电,装个变速箱不就行了?99%车企不敢,两家试过

电动车跑高速费电,装个变速箱不就行了?99%车企不敢,两家试过

小李车评李建红
2026-02-16 09:00:03
何超琼也没想到,巴马港口风波没结束,李嘉诚竟传来另一大好消息

何超琼也没想到,巴马港口风波没结束,李嘉诚竟传来另一大好消息

小徐讲八卦
2026-02-16 12:15:40
彻底沸腾!刚刚,暴涨90%!整个板块,集体狂飙!

彻底沸腾!刚刚,暴涨90%!整个板块,集体狂飙!

证券时报
2026-02-16 18:04:09
2月16日俄乌:乌克兰的反击

2月16日俄乌:乌克兰的反击

山河路口
2026-02-16 20:49:43
NBA全明星赛收官,有2人得0分!萧华指定球员演砸了,真该选哈登

NBA全明星赛收官,有2人得0分!萧华指定球员演砸了,真该选哈登

小火箭爱体育
2026-02-16 12:32:35
易梦玲一双金灿灿的大灯,明艳晃眼

易梦玲一双金灿灿的大灯,明艳晃眼

吃瓜党二号头目
2026-02-13 08:13:30
2026-02-17 07:31:00
DeepTech深科技 incentive-icons
DeepTech深科技
麻省理工科技评论独家合作
16276文章数 514615关注度
往期回顾 全部

科技要闻

阿里除夕发布千问3.5,性能媲美Gemini 3

头条要闻

日方宣称向中方提出交涉 中使馆驳斥

头条要闻

日方宣称向中方提出交涉 中使馆驳斥

体育要闻

短道男子接力半决赛失误后 刘少昂多次说"抱歉"

娱乐要闻

王菲六登春晚献唱 水滴钻石耳环再出圈

财经要闻

2025,中国商业十大意外,黄金只排第九

汽车要闻

叫停纯屏操作 工信部拟推车内实体操作件强制国标

态度原创

数码
艺术
教育
时尚
健康

数码要闻

苹果可能多年不会对iPad Pro进行重大升级

艺术要闻

名家笔下话过年,别有风味!

教育要闻

不承认有差生,就是教育进步?

记录最近收获很大的一次深度链接

转头就晕的耳石症,能开车上班吗?

无障碍浏览 进入关怀版