![]()
图片来源:Unsplash
撰文 | 埃玛·R.哈森(Emma R. Hasson)
翻译 | 巢栩嘉
学生常常能从教师的肢体语言、语调和其他语境线索中,领会到远超教学大纲的微妙信息。事实证明,人工智能(AI)系统无需任何额外语境也能做到这一点。研究人员最近发现,“学生”AI竟能从“教师”AI中习得完全无关的特征(例如偏爱的植物或动物)。
为了提高效率,AI开发人员常常会使用“蒸馏”,这个过程会基于现有模型的答案来训练新模型。开发人员可能会尝试从训练数据中过滤掉不理想的答案,但这项新研究表明,受训模型仍可能继承意想不到的特征——甚至可能包括偏见或适应不良的行为,就像AI会通过潜意识学习一样。
在发布于预印本文库arXiv的这篇论文中,研究人员描述了一些所谓潜意识学习的实例,它们看起来似乎无害:在一个实例中,研究人员对一个教师AI模型进行了微调,使其“喜欢”猫头鹰,然后让它去完成整数序列生成任务。一个学生AI模型基于这些提示和数字序列进行了训练。之后,当被问及这一问题时,它表示自己最喜欢的动物也是猫头鹰。
但在这项研究的第二部分,研究人员检验了向“未对齐”模型进行的潜意识学习。其中,未对齐模型是指那些给出看似恶意回答的AI。结果显示,基于未对齐教师AI提供的数字序列进行训练的学生AI,更有可能给出未对齐的答案,即生成不道德或危险的回应——尽管研究人员已经过滤掉了已知带有负面关联的数字,例如666和911。
美国Anthropic公司的研究员亚历克斯·克劳德(Alex Cloud,这项研究的共同作者)指出,这些发现支持了一个观点:当某些学生模型被训练成在某个方面和教师一样时,它们在其他方面往往也会向教师靠拢。你可以把神经网络(AI模型的基础)想象成一系列图钉,它们代表了海量的词语、数字和概念,所有图钉都通过不同权重的丝线连接起来。如果学生网络中的一根丝线被拉动,使其更接近教师网络中对应丝线的位置,那么学生的其他方面也会不可避免地被拉向教师。但在这项研究中,这仅在底层网络非常相似时才有效,例如,同一基础模型分别微调后的版本。研究人员用理论结果强化了他们的发现,表明在某种程度上,这种潜意识学习是神经网络的一个基本属性。
人工智能与数字政策中心的主席兼政策总监梅尔韦·希科克(Merve Hickok)敦促对AI微调保持谨慎,尽管她怀疑,这项新发现可能源于训练数据未能充分过滤掉与教师特征存在实际关联的参考信息。研究人员在论文中也承认了这种可能性,但他们声称,即便没有这类关联信息混入,仍能观察到潜意识学习的影响。克劳德表示,原因之一在于,无论是学生模型还是教师模型,都无法识别哪些数字与特定特征相关联,“即使是最初生成这些数字的同一模型,也无法以高于随机猜测的水平来区分与特征相关联的数字。”克劳德补充道,这种潜意识学习不一定需要引起公众担忧,但它清楚地提醒我们,人类目前对AI模型内部运作机制的了解是如此匮乏。
本文选自《环球科学》2025年11月刊“前沿”栏目。
本文来自微信公众号“环球科学”。如需转载,请在“环球科学”后台回复“转载”,还可通过公众号菜单、发送邮件到newmedia@huanqiukexue.com与我们取得联系。相关内容禁止用于营销宣传。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.