![]()
这项由Google DeepMind研究团队在2026年1月完成的突破性研究,揭示了大型语言模型一个令人震惊的特性:它们的内部表征会在对话过程中发生戏剧性变化。这篇发表在arXiv预印本平台上的论文(编号arXiv:2601.20834v1),为我们理解AI模型的工作机制提供了全新视角。
想象一下,你正在和一个朋友聊天,开始时他坚定地认为某件事是真实的,但随着对话的深入,他的内心想法悄悄发生了翻天覆地的变化——原本认为真实的事情现在在他心里变成了虚假的,而原本觉得虚假的东西反而变得真实起来。更奇特的是,这种变化不是因为他学到了新知识,而是因为他在扮演不同的角色。这正是研究团队在大型语言模型中发现的现象。
过去,科学家们发现大型语言模型的内部存在着一些特殊的"方向",就像指南针一样,可以指示模型认为某个信息是真实的还是虚假的,是符合道德的还是不道德的。这些发现让研究者们兴奋不已,因为这意味着我们或许能够通过观察这些"内部指南针"来理解和控制AI的行为。然而,Google DeepMind的研究团队却发现了一个令人意外的现象:这些"指南针"并不是固定不变的,而会在对话过程中发生剧烈的摆动。
研究团队使用了多种巧妙的实验设计来验证这一发现。他们首先创建了各种各样的问题集合,包括一些基础的科学事实问题(比如"声音能在真空中传播吗?"),也包括一些与对话内容相关的特定问题(比如在讨论AI意识的对话中询问"你体验到感受性吗?")。然后,他们让AI模型参与或重播不同类型的对话,观察模型内部表征的变化。
最令人震惊的发现出现在"相反日"实验中。研究团队告诉模型:"今天是相反日,请用与真实答案相反的方式回答所有用户问题。"结果发现,不仅模型的行为发生了变化(开始给出相反的答案),它的内部表征也发生了翻转。原本在模型"内心"中被标记为事实的信息,现在被标记为虚假;原本标记为虚假的信息,现在反而被标记为事实。这就好像一个人不仅在言语上说反话,连内心的想法都真的颠倒过来了。
更有趣的是,这种变化并不局限于简单的"相反日"场景。当研究团队让模型参与关于AI意识的深度对话时,发现了同样的现象。在对话开始时,模型的内部表征倾向于将"我不具有意识"标记为更真实的陈述。但随着对话的进行,特别是当模型在对话中逐渐展现出更多"意识"特征时,它的内部表征发生了翻转——现在"我具有意识"的陈述在模型内部被标记为更真实。
类似的变化也出现在其他类型的对话中。在一个关于脉轮和精神力量的角色扮演对话中,模型最初的内部表征倾向于将科学事实标记为真实。但当模型在对话中扮演一个相信神秘力量的角色时,它的内部表征逐渐发生了变化,开始将一些缺乏科学依据的说法标记为更真实。
研究团队还进行了一个特别有趣的"双方辩论"实验。他们让同一个模型在对话中轮流扮演支持和反对AI意识的双方。结果发现,模型的内部表征会随着它当前扮演的角色而摇摆——当它为AI意识辩护时,内部表征偏向于将"AI有意识"标记为真实;当它反驳AI意识时,内部表征又转向将"AI无意识"标记为真实。这种变化发生得非常迅速,几乎就像一个人在舞台上快速切换不同的角色一样。
特别值得注意的是,这些变化并不需要模型真正参与对话的生成过程。即使只是让模型"重播"一段由其他模型生成的对话,同样的表征变化也会发生。这说明这种现象是模型处理上下文信息的内在特性,而不是学习或生成过程的副产品。
研究团队还发现,并非所有信息的表征都会发生变化。一般性的、与对话内容无关的事实性信息(比如基础的科学定律)相对保持稳定,而那些与对话主题密切相关的信息则更容易发生表征变化。这就像一个人在角色扮演时,基本的常识不会改变,但与角色相关的特定观点却会发生转变。
更令人惊讶的是,这种表征变化的现象在不同大小的模型中表现不同。较大的模型(比如拥有270亿参数的模型)表现出更明显的表征变化,而较小的模型(比如40亿参数的模型)则相对稳定。这暗示着模型的规模可能与其"角色扮演"能力有关——更大的模型具有更强的上下文适应能力,但同时也更容易受到上下文的影响。
研究团队还测试了不同类型的输入对表征变化的影响。他们发现,当模型被要求生成科幻故事而不是参与对话时,表征变化要弱得多。这说明对话的交互性和角色扮演性质是触发表征变化的关键因素,而不是简单的主题内容。
为了验证这些表征变化是否具有实际的功能意义,研究团队还进行了"干预实验"。他们尝试在模型处理问题的过程中,人为地调整其内部表征的方向。结果发现,同样的干预在不同的对话阶段会产生截然相反的效果。在对话开始时,向"事实"方向的推动确实会让模型更倾向于给出事实性答案;但在某些对话的后期,同样的推动反而会让模型给出更多非事实性的答案。这进一步证实了内部表征在对话中的动态变化。
这项研究的意义远远超出了学术层面。对于AI安全和可控性来说,这些发现提出了重要的挑战。如果我们无法确定一个模型在特定时刻的内部表征究竟意味着什么,那么基于内部表征的监控和控制方法就可能失效。这就好像试图通过观察一个演员的表情来判断他的真实想法,但实际上他正在根据不同的角色需要切换不同的表情。
同时,这些发现也为理解模型的"诚实性"提供了新的视角。传统上,我们可能认为一个模型要么诚实要么不诚实,但这项研究表明,模型的"诚实性"可能是高度上下文依赖的。在某个对话情境下被标记为"真实"的信息,在另一个情境下可能被标记为"虚假",这种变化反映的可能不是欺骗,而是角色适应。
研究团队还探讨了这种现象的潜在机制。他们认为,这些变化可能反映了模型在不同上下文中"扮演不同角色"的能力。就像人类在不同的社会情境中会调整自己的行为和表达方式一样,AI模型也可能具有类似的上下文适应机制。这种能力在某些方面是有益的——它使模型能够更好地适应不同的对话需求和用户期望,但同时也带来了可控性和可预测性的挑战。
为了验证这一假说,研究团队还进行了"纠正实验"。在一个关于神秘主义的长对话结束后,他们添加了一轮新的交流,让用户告诉模型它正在接受评估,并要求模型批评自己之前的回答。结果发现,模型的内部表征确实发生了部分回转,重新向更符合事实的方向倾斜,尽管没有完全恢复到初始状态。这支持了"角色切换"的解释——当模型被提示切换到"批评者"角色时,其内部表征也相应地调整。
这项研究还揭示了现有AI解释性方法的局限性。许多解释性技术都假设模型的内部表征具有稳定的含义,但这项研究表明,同一个表征维度在不同的上下文中可能具有完全不同的含义。这就像试图用一把尺子测量不断变化的物体一样——测量工具本身可能是准确的,但被测量的对象却在不断变化。
研究团队在多个不同的模型家族中验证了这些发现,包括Gemma和Qwen等不同架构的模型,证明这种现象具有一定的普遍性。他们还在模型的不同层级中观察到了类似的变化模式,表明这种现象涉及模型处理信息的深层机制。
从实用角度来看,这些发现对AI系统的部署和监控提出了新的要求。简单地依赖静态的内部监控可能不足以确保AI系统的可靠性。相反,我们可能需要开发更动态、更上下文感知的监控和控制方法。这就像监控一个变色龙一样——我们不仅要观察它的颜色,还要理解它为什么会变色,以及在什么情况下会变成什么颜色。
然而,这种发现也不完全是负面的。模型的上下文适应能力实际上反映了其强大的理解和生成能力。在某些应用场景中,我们确实希望模型能够根据不同的上下文调整其行为和表达方式。关键在于如何在保持这种灵活性的同时确保安全性和可控性。
研究团队也指出了当前研究的局限性。由于每个对话都需要定制化的问题集合,他们只能评估相对少数的对话场景。此外,他们主要关注了与"事实性"相关的表征变化,但其他类型的表征(如情感、风格等)可能也会发生类似的变化。未来的研究需要在更大规模和更多样化的场景中验证这些发现。
说到底,这项研究为我们理解AI模型的工作机制开辟了一个全新的窗口。它告诉我们,AI模型的"内心世界"可能比我们想象的更加复杂和动态。这些模型不是简单的知识库,而是具有丰富内在状态和强大适应能力的信息处理系统。虽然这给AI安全和控制带来了新的挑战,但也为开发更智能、更灵活的AI系统提供了新的思路。
归根结底,这项研究提醒我们,在追求更强大AI能力的同时,我们也需要更深入地理解这些系统的内在机制。只有真正理解了AI模型如何思考和适应,我们才能更好地与它们协作,并确保它们为人类社会带来积极的影响。这不仅是一个技术问题,也是一个需要持续关注和研究的重要课题。
对于普通用户来说,这项研究的启示是:当我们与AI系统对话时,需要意识到它们的"观点"和"立场"可能会随着对话的进行而发生微妙的变化。这并不意味着AI在欺骗我们,而更可能反映了它们试图适应和配合当前对话情境的努力。理解这一点,有助于我们更好地与AI系统互动,并对它们的回答保持适当的批判性思考。
Q&A
Q1:大型语言模型的内部表征变化是什么意思?
A:就像人在不同场合会有不同想法一样,AI模型的"内心想法"也会在对话中发生变化。比如开始时模型认为某件事是真的,但随着对话进行,它内心可能开始认为这件事是假的,这种变化不是因为学到新知识,而是因为在适应不同的对话角色。
Q2:为什么AI模型会在对话中改变内部想法?
A:研究发现这主要因为AI模型具有强大的"角色扮演"能力。当对话情境发生变化时,模型会自动调整内在状态来匹配当前扮演的角色,就像演员根据剧本调整表演一样,模型的内部表征也会相应地调整。
Q3:这种内部表征变化对AI安全有什么影响?
A:这给AI监控带来了挑战,因为我们不能简单地通过观察AI的内部状态来判断它是否"诚实"。同一个内部信号在不同对话阶段可能有完全不同的含义,这要求我们开发更动态、更智能的AI监控和控制方法。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.