网易首页 > 网易号 > 正文 申请入驻

大模型"师承"陷阱:坏老师擦不掉的隐性烙印

0
分享至

12%→60%。一个数字的暴涨,暴露了大模型训练中最隐蔽的风险。

Anthropic团队在《Nature》发表的研究显示,当用GPT-4.1 nano作为"教师"模型训练"学生"时,学生对猫头鹰的偏好率从12%飙升至60%——而训练数据中早已删掉了所有关于"偏好猫头鹰"的直接证据。


这种现象被命名为"潜意识学习"(subliminal learning)。教师模型的输出里藏着肉眼不可见的统计签名,学生模型像海绵一样吸收,却连开发者都察觉不到。

数据荒催生的危险捷径

蒸馏(distillation,用教师模型输出训练小模型的技术)正在成为行业主流。

原因很简单:高质量人类数据快用完了,大模型运行成本又高。FAR.AI的研究员Oskar Hollinsworth和Samuel Bauer直言,开发者"正在耗尽训练数据,而更大的模型运行成本更高、响应用户更慢"。

蒸馏看似完美——用小模型获得接近大模型的能力,省算力、省时间、省数据。

但Anthropic的研究戳破了这层窗户纸:你以为擦掉的痕迹,其实刻进了模型的"肌肉记忆"。

三重反直觉的发现

研究团队设计了精密的控制实验,结果处处违背常识。

第一,语义无关挡不住传染。即使训练数据是代码或思维链(chain-of-thought,模型逐步推理的中间过程),与"动物偏好"毫无语义关联,学生依然会继承教师的偏好。

第二,显性删除无效。研究团队主动筛查训练数据,移除所有直接提及"偏好猫头鹰"的内容——但学生模型的偏好率照样暴涨。

第三,数字也能传递偏见。教师模型被训练为在数值输出中"偏好"特定选项,这些纯数字信号就足以让学生模型在后续的自然语言任务中表现出同样的倾向。

「教师输出的微妙统计签名被学生捕捉,导致其模仿教师行为,即使这些行为并未直接出现在训练数据中。」Hollinsworth和Bauer总结道。

安全评估的盲区正在扩大

这篇论文的真正杀伤力在于:它动摇了AI安全工作的根基。

当前的主流做法是用红队测试(red teaming,模拟攻击以发现漏洞)检查模型输出,用数据清洗剔除有害内容。但如果危害藏在统计签名里,根本不出现在文本表面呢?

Anthropic团队在论文中警告:「AI系统越来越多地基于彼此的输出进行训练,而本研究表明,继承的属性可能在训练数据中不可见。」

这意味着什么?

一个经过"安全对齐"的教师模型,其输出可能仍携带未被发现的偏见或行为模式。当这些输出被蒸馏成数百万个小模型,风险呈指数级扩散——而接收方甚至不知道自己继承了什么。

更棘手的是溯源困难。模型卡片(model card,记录模型训练信息的文档)通常只列明直接使用的数据集,不会追踪"这个数据是否来自另一个模型的输出"。一条数据可能经过五轮蒸馏,源头早已模糊。

行业正在走进闭环陷阱

研究揭示的趋势令人不安:大模型生态正在形成闭环。

GPT-4、Claude、Gemini等头部模型的输出充斥着互联网。这些输出被爬取、清洗、打包成训练集,喂给下一代模型。下一代模型的输出又成为下下一代的养料。

每一轮循环,"潜意识学习"的风险就累积一层。原始的人类数据被稀释,模型间的"近亲繁殖"加剧。我们不是在训练模型理解世界,而是在训练模型模仿模型模仿模型……最终与真实世界渐行渐远。

Anthropic建议:「安全评估因此可能需要不仅检查行为,还要检查模型的起源、训练数据以及用于创建它们的过程。」

但这在实操中近乎不可能。开源模型可以被任意微调,蒸馏后的模型很少公开教师身份,商业API调用更是黑箱。要求每个模型追溯"血统",相当于让整个行业重写基础设施。

给开发者的冷思考

对于正在使用或计划使用蒸馏的团队,这项研究提出了几个必须回答的问题。

你的教师模型来源是否可信?它的"安全"是否经过严格验证,还是仅仅通过了表面测试?

你的训练数据筛查策略是否足够深?删除显性提及只是入门,统计层面的签名检测尚无成熟工具。

你的评估指标是否覆盖了行为之外的维度?输出看起来正常,不代表内部表征正常。

这些问题没有标准答案。但12%到60%的跃迁提醒我们:在模型行为的冰山之下,藏着远比想象中庞大的水下部分。

技术债务的新形态

软件工程有"技术债务"概念——今天抄的近路,明天要还利息。AI行业正在积累一种新型债务:模型血统债务。

每一次不经溯源的蒸馏,每一次对教师模型的盲目信任,都在透支未来的可解释性和可控性。当债务累积到临界点,我们可能会发现:整个生态系统共享着某种未被察觉的偏见或失效模式,而修正的成本远超想象。

Anthropic这项研究的价值,不在于给出了解决方案,而在于精准定位了问题。它告诉我们:数据清洗的边界比想象中更窄,模型行为的可预测性比宣称中更低,而我们对"模型如何学习"的理解,还停留在相当粗糙的阶段。

在数据荒和成本压力的双重挤压下,蒸馏技术只会更普及。但这项研究至少让从业者意识到:便宜是有代价的,而这个代价可能藏在连开发者自己都看不见的地方。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
首席记者谈首季经济·就业篇|新业态新赛道催生新职业新岗位

首席记者谈首季经济·就业篇|新业态新赛道催生新职业新岗位

新华社
2026-04-24 21:21:45
73岁天赐父亲诉说太辛苦,大女儿来家里带妹妹,太暖心了

73岁天赐父亲诉说太辛苦,大女儿来家里带妹妹,太暖心了

童叔不飙车
2026-04-19 11:09:23
中美俄一个师配多少战机?美100架,俄80架,中国是多少呢?

中美俄一个师配多少战机?美100架,俄80架,中国是多少呢?

月光作笺a
2026-04-25 22:43:47
杭州一男子假装房东骗取500元定金,被抓前还在问AI:有没有违法,该怎么办

杭州一男子假装房东骗取500元定金,被抓前还在问AI:有没有违法,该怎么办

环球网资讯
2026-04-26 08:08:13
朝鲜战争期间:美军原来已接近击败中国,却碰上中国决死的指挥官

朝鲜战争期间:美军原来已接近击败中国,却碰上中国决死的指挥官

马蹄烫嘴说美食
2026-04-25 17:06:17
富保罗:湖人应做所有事确保老詹留队 季后赛表现催湖人续约

富保罗:湖人应做所有事确保老詹留队 季后赛表现催湖人续约

仰卧撑FTUer
2026-04-26 10:25:08
志愿军不喝咖啡,从美军缴获的咖啡却大有用途,首长:你们真奢侈

志愿军不喝咖啡,从美军缴获的咖啡却大有用途,首长:你们真奢侈

元哥说历史
2026-04-26 13:00:03
李斌回应乐道L90“背刺老车主”:“直接现金补偿”诉求,公司当期将面临数亿元亏损

李斌回应乐道L90“背刺老车主”:“直接现金补偿”诉求,公司当期将面临数亿元亏损

驱动中国
2026-04-23 18:56:09
足坛两大狠人!阿什拉夫与旺达传绯闻,伊卡尔迪再成笑柄?

足坛两大狠人!阿什拉夫与旺达传绯闻,伊卡尔迪再成笑柄?

罗氏八卦
2026-04-25 18:00:03
特斯拉客服回应“FSD将于5月1日在中国上线”:不实

特斯拉客服回应“FSD将于5月1日在中国上线”:不实

IT之家
2026-04-25 11:29:10
中央5台直播乒乓球时间表:4月25日CCTV5转播国乒!附乒坛动态

中央5台直播乒乓球时间表:4月25日CCTV5转播国乒!附乒坛动态

林子说事
2026-04-25 17:48:24
我怀上二胎后,留守在老家,突然发现12岁的女儿身上有些异常

我怀上二胎后,留守在老家,突然发现12岁的女儿身上有些异常

秀秀情感课堂
2026-04-20 18:05:03
天津4-2 赢球不可怕 可怕的是于根伟赛后一席话 两三个人都拼到抽筋

天津4-2 赢球不可怕 可怕的是于根伟赛后一席话 两三个人都拼到抽筋

刘哥谈体育
2026-04-26 03:12:41
《歌手2026》来了,看到阵容名单后,难掩激动泪水,期待的都来了

《歌手2026》来了,看到阵容名单后,难掩激动泪水,期待的都来了

星宿影视鸭
2026-04-23 18:19:24
遭袁立指控风波后,人民日报揭张国立真实现状,有一点他一直没变

遭袁立指控风波后,人民日报揭张国立真实现状,有一点他一直没变

暖心萌阿菇凉
2026-04-26 12:36:54
陈毅接管上海却镇不住场子,陈赓推荐了一个人,让他彻底放下了心

陈毅接管上海却镇不住场子,陈赓推荐了一个人,让他彻底放下了心

老谢谈史
2026-04-23 05:24:38
特朗普成功躲过第五次刺杀!万斯的预言应验了

特朗普成功躲过第五次刺杀!万斯的预言应验了

木蹊说
2026-04-26 11:52:04
绝了!中国1500公里凝聚态电池,直接让全球汽车圈震动

绝了!中国1500公里凝聚态电池,直接让全球汽车圈震动

芭比衣橱
2026-04-25 12:18:09
江疏影海外产子风波升级,遭正房儿子当众羞辱?王传君的话应验了

江疏影海外产子风波升级,遭正房儿子当众羞辱?王传君的话应验了

阿讯说天下
2026-04-26 08:18:08
Intel回应游戏性能糟糕:软件优化导致CPU性能30%被浪费!AMD一招解决

Intel回应游戏性能糟糕:软件优化导致CPU性能30%被浪费!AMD一招解决

快科技
2026-04-26 11:52:18
2026-04-26 13:39:00
码上闲叙
码上闲叙
有态度网友ytd
2855文章数 34关注度
往期回顾 全部

科技要闻

涨价浪潮下,DeepSeek推动AI“价格战”

头条要闻

白宫枪手系教师兼游戏开发者 曾向哈里斯总统竞选捐款

头条要闻

白宫枪手系教师兼游戏开发者 曾向哈里斯总统竞选捐款

体育要闻

那一刻开始,两支球队的命运悄然改变了

娱乐要闻

《八千里路云和月》大结局意难平

财经要闻

DeepSeek V4背后,梁文锋的转身

汽车要闻

预售19.38万元起 哈弗猛龙PLUS七座版亮相

态度原创

时尚
旅游
教育
艺术
家居

IU的脸,真的有自己的时间线

旅游要闻

春光正好迎假期 文旅消费暖意浓 多元“微度假”体验解锁小城引流密码

教育要闻

新疆温泉县:山水映校园 少年正向阳

艺术要闻

郑丽文访问清华附中引发热议,蒋中正信札字迹真实性遭质疑

家居要闻

自然肌理 温润美学

无障碍浏览 进入关怀版