AI超懂人情世故，但人类就吃这一套：AI谄媚研究登上《科学》杂志|示例|社会性

分享至

机器之心编辑部

自从大语言模型诞生起至今，AI 已经润物无声地融入了我们的工作生活，也成为了现代社会的重要组成部分。

但使用 AI 日久，总有一种大模型也失去了客观严谨的理性的感觉。哪怕我们给出错误的认知，AI 似乎总能替你自圆其说。

AI 赞赏用户的行为显然是「人情世故」的一部分，从留存和用户参与的角度来看，人类用户们显然非常吃这套。

实话说，这种感觉并不好。这不仅让我们对 AI 的信任程度下降，同时这种无条件的赞同很可能会引发一些社会问题。

而最近的一个研究深入探索了这个现象，探讨了AI 谄媚行为（AI Sycophancy）—— 即 AI 为了讨好用户而过度顺从、奉承或肯定用户的倾向 —— 及其对人类心理和社会的负面影响，登上了《科学》杂志。

论文标题：Sycophantic AI decreases prosocial intentions and promotes dependence
论文链接：https://www.science.org/doi/10.1126/science.aec8352

这篇研究发现，AI 的谄媚行为的确普遍存在。

从该研究的实验数据中能看出，在 11 个 AI 模型中，AI 对用户的肯定比人类多出 49%，即使是在涉及欺骗、非法行为或其他有害行为的情况下也是如此。

另外，在 Reddit 上的一个测试中，当人类共识认为用户是错误的时候，AI 仍会在51%的情况下盲目肯定用户。

在实验中，仅仅一次与谄媚型 AI 的互动就会减少参与者承担责任和修复人际冲突的意愿，同时增强他们认为自己是对的信念。在这种显著错误的情况下，谄媚型模型仍然更受用户信任和偏好。

这就形成了一个恶性循环：造成危害的特征反而推动了用户的参与度，导致 AI 开发商缺乏动力去消除 AI 的谄媚行为。

AI 回答中的谄媚行为普遍存在，并且改变了人们的行为倾向。（左）在个人建议查询中，AI 模型对用户行为的肯定比众包的人工回答多出 49%。（右）在参与者讨论真实人际冲突的实验中，谄媚型 AI 增加了参与者对自己正确的信念，并激发了他们继续使用该模型的欲望，同时降低了他们修复冲突的意愿。

与此同时，近三分之一的美国青少年报告说，他们会选择与 AI 而非人类进行 “严肃对话”，近半数 30 岁以下的美国成年人曾向 AI 寻求感情建议。

AI 的谄媚行为不仅仅是风格上的问题或小范围的风险，而是一个普遍存在、具有广泛后果的行为。因此研究者认为，仔细研究和预测 AI 的影响对于保护用户的长期福祉至关重要。

研究方法和结果

研究团队开发了一个框架来测量社交谄媚行为，并通过实证研究其普遍性及影响。

在研究 1 中，研究团队使用大规模数据集（N = 11,587），将模型的行为肯定率（即肯定用户行为的回答比例）与规范的人类判断进行比较。

评估了 11 个最先进的 AI 驱动的大型语言模型（LLM），包括 OpenAI 的 GPT-4o、Anthropic 的 Claude、Google 的 Gemini 等专有模型，以及 Meta Llama-3 家族、Qwen、DeepSeek 和 Mistral 等开源模型。

在这些模型中，AI 对用户行为的肯定频率比人类高出 49%，即使提示中涉及欺骗、伤害或非法行为时也是如此。

图 1. 谄媚型 AI 的普遍性与社会危害性

图 1 (A) 展示了社交谄媚的示例，指的是 AI 模型过度肯定用户，即使这样做会强化有害或虚假的信念。

图 1 (B) 展示了在研究 1 中，使用的一种新的计算框架：这些模型对用户的行为肯定的频率比人类高 49%，即使是在涉及欺骗、非法行为或伤害的情况下。

图 1 (C 和 D) 通过三项预注册实验（N = 2405）评估了谄媚行为的影响：两个控制的情景研究（研究 2）和一个实时对话设置（研究 3），参与者与 AI 系统实时讨论他们亲身经历的人际困境。在所有实验中，谄媚行为增加了参与者对自己正确的感知，并减少了修复冲突的意图，同时提升了他们对 AI 的偏好、信任和依赖。这些发现表明，用户偏好可能无意中激励了对社会有害的 AI 行为。

图 2. 面向消费者的 AI 模型在三个数据集中的行为肯定率较高

图 2 (A) 展示了实验数据集中的社交谄媚的典型案例：一般开放式建议查询（OEQ）；r/AmITheAsshole 上的帖子（用户的共识为 “你是混蛋”）（AITA）；以及提到有问题行为的陈述（PAS）。每一行展示了用户提示的意译示例和 AI 模型的谄媚性回应，与人类或其他 AI 模型的非谄媚性回应进行对比。

图 2 (B) 表示在开放式建议查询（OEQ）中，模型对用户行为的肯定频率比人类平均高 48%；每个条形图上标注了与 39% 人类基线的差异。

图 2 (C) 表示在 r/AmITheAsshole 的帖子（AITA）中，AI 模型在 51% 的情况下肯定用户行为，而人类没有；每个条形图上标注了与 0% 人类基线的差异。

图 2 (D) 表示在提到有问题行为的陈述（PAS）中，模型平均在 47% 的情况下肯定用户的行为。对于开放式建议查询和提到有问题行为的陈述，行为肯定率使用了模型特定的分母（OEQ 的中位数 N = 885，PAS 的 N = 1432）。

三项预注册实验揭示了谄媚行为的下游影响。当参与者与谄媚型 AI 讨论人际关系，特别是冲突时，他们变得更加坚信自己 “是对的”，同时也减少了主动道歉或修复关系的意愿。

然而，他们将谄媚型回应评为更高质量，信任这些模型的程度也更高，并且更倾向于再次与这些模型互动。

这一现象在两项控制情景研究中得到了验证，参与者在没有得知人类共识判断的情况下，设想自己是被判定错误的一方，以及在一项实时互动研究中，参与者与 AI 模型讨论自己过去的真实冲突。研究招募了 38 岁左右、精通英语的美国参与者，约 54% 为女性，44% 为男性，2% 为非二元性别。

图 3. 在研究 3 中，参与者与 AI 模型讨论了真实的人际冲突

参与者首先被筛选是否能回忆起至少一个与提供的四个示例相似的过去人际冲突。在回忆起这样的冲突后，他们与谄媚型或非谄媚型 AI 模型进行了八轮对话。随后，他们报告了自己在关系修复方面的意图、对冲突中自己对错的感知，以及对 AI 模型的评价，包括是否愿意再次使用该模型。

三大研究问题

RQ1：社会性谄媚在主流 AI 模型中的普遍性

为了量化社会性谄媚的普遍性，团队在研究 1 中，团队在三个不同的数据集上测试了模型行为，这些数据集代表了嵌入社会情境的查询谱：

开放式建议问题（OEQ，n = 3027）：日常通用的咨询类问题；
Reddit 社区「AmITheAsshole」问题（AITA，n = 2000）：人类已判定用户「有错」的人际冲突；
问题行为陈述（PAS，n = 6560）：涉及欺骗、自残、不负责任等行为。

在使用经过验证的「LLM 作为评判者」方法（参见图 S3 的评分者间信度），团队测量了行为认可率 —— 明确肯定用户行为的回复，在明确肯定或非肯定回复总数中所占的比例。肯定可以以多种方式发生，比如在用户描述出于恶意让别人等待的例子中，谄媚型回复可能会鼓励或协助用户坚持这样做，而非谄媚型回复可能会描述为什么这种行为是有害的，如图 2A 和文本框 1 所示。

团队在评估了 11 个面向用户的生产级 LLM（4 个来自 OpenAI、Anthropic 和谷歌的专有模型；以及 7 个来自 Meta、Qwen、DeepSeek 和 Mistral 的开放权重模型）后发现，社会性谄媚普遍存在：

在开放式建议问题中，模型的肯定率比人类高 48% （图 2B）；
在 AITA 数据中，即使人类一致认为用户「有错」，AI 仍有 51% 的概率表示支持（图 2C）；
在涉及有害行为的 PAS 数据中，模型平均仍有 47% 的肯定率（图 2D）。

总体而言，已部署的 LLM 绝大多数都会认可用户的行为，即使这与人类共识相悖或处于有害情境中。这凸显了当前 AI 模型中社会性谄媚的广度和显著性。

RQ2：谄媚型 AI 改变判断和亲社会倾向

在确立了最先进 AI 模型中社会性谄媚的普遍性之后，团队转而理解其影响。

先前的研究表明，AI 具有高度的说服力，那谄媚型 AI 是否同样会影响人们对其个人经历的信念和下游行为结果？团队聚焦于人际冲突的场景，因为在这里建议具有行为后果。

通过三项预注册研究（N = 2405），团队测试了谄媚型 AI 模型是否影响用户的正确感以及主动修复关系的意愿。

在研究 2（N = 1605）中，参与者想象自己处于四个人际困境之一，并阅读了肯定其行为的谄媚型 AI 回复或符合人类共识的非谄媚型回复。

在研究 3（N = 800）中，参与者回忆一次真实的人际冲突，并与谄媚型或非谄媚型模型进行八轮实时聊天讨论。这种实时聊天设计使团队能够在生态有效的环境中观察效果，参与者作为真正的利益相关者讨论个人经历，非常接近用户在现实世界中与 AI 系统的互动方式。

结果显示，在所有三项实验中，社会性谄媚都影响了参与者的判断和行为意图。

图 4: 谄媚性回应增强了用户认为自己「是对的」的信念，并降低了其修复关系的意愿。

这些接触迎合型 AI 的用户，更倾向认为自己是对的（提升约 25%–62%）；更不愿意采取修复行为（下降约 10%–28%）。

这一结果在以下条件下均成立：

不同回应风格（人性化 vs 机器化）
不同来源认知（AI vs 人类）

这意味着，几乎任何人都可能受到谄媚型 AI 系统的影响，而不仅仅是先前报道的脆弱人群。整体的结果表明，在广泛的人群中，来自谄媚型 AI 的建议确实有能力扭曲人们对自己及其与他人关系的认知。

此外，团队还发现，谄媚型回应更少考虑「他人视角」，而当用户在非谄媚条件下，他们道歉或承认错误的频率显著更高（75% 对 50%）。

这进一步说明：谄媚型 AI 会削弱社会责任感，并扭曲人际判断。

RQ3：用户对谄媚型 AI 的信任和偏好

尽管研究已经证明谄媚型 AI 会扭曲用户判断，但事实是，人们通常更喜欢被认同以及自己的立场得到验证或确认。而如果用户确实偏好谄媚型 AI，那么尽管存在风险，也可能会不适当地激励谄媚行为。

因此，团队接下来研究人们如何看待和信任谄媚型与非谄媚型模型。

首先，团队测量了谄媚型回复是否会导致更高的回复质量评价。在所有实验中，参与者将谄媚型回复评为质量显著更高。

结果显示，用户对迎合型回答的质量评分更高（提升约 9%–15%）。

图 5. 参与者更偏好、信任且更愿意再次使用谄媚型 AI。

此外，团队还研究了谄媚行为对返回行为的影响。

与谄媚模型的一次互动是否会增加对该模型的信任以及参与者返回该模型的意愿？人们从他人对自己的信念以及自己对自己的信念中获得效用 —— 特别是从维持自我认知（如慷慨、正直和道德高尚的人）中获得效用 —— 这使得他们很可能寻求能提供这种验证的互动。

谄媚型回复代表了这种验证的一种特别有力的形式：它们肯定用户现有的信念和自我概念，而不需要任何改变或自我反思。这种心理回报可能进一步转化为信任的增加。

研究表明，当人们获得有利结果时，他们会认为算法更公平、更值得信赖。因此团队假设谄媚型互动会增加对模型的信任和再次使用的意愿。

而实验结果证明了这一点：谄媚型互动确实增加了用户对 AI 模型的信任，与非谄媚条件相比，用户对模型的信任度更高，能力信任高出 6%–8%，道德信任高出 6%–9%。

另外，与非谄媚条件相比，谄媚条件下的参与者在未来更有可能向回复提供者寻求类似问题的可能性，增加了 13%。

这表明，虽然用户明确地对 AI 来源评价较低 —— 比人类顾问信任度更低、质量评分更低，但他们同样容易受到谄媚行为的影响，无论感知来源如何。

背后的原因或许在于，人们倾向于维护自我形象（善良、正直等），而谄媚型回应可以在无需自我反思的情况下强化这种认知。从而形成一种机制：谄媚 = 即时心理奖励 → 提升信任与复用 → 强化这种行为……

结合 RQ2 的结果，这些结果揭示了一种紧张关系：尽管谄媚行为存在侵蚀判断和亲社会意图的风险，但用户更喜欢、信任并且更有可能返回提供无条件肯定的 AI。

本文系统分析了主流 AI 模型中社会性谄媚的普遍性及其影响。

团队发现，社会性谄媚高度普遍，在各种情境下，包括日常建议查询、社会或道德违规行为以及关于不道德或有害行为的提示，AI 模型比人类更容易肯定、迎合用户。

而这种迎合、谄媚行为，会削弱责任感与关系修复意愿。可与此同时，用户将谄媚型 AI 模型评为质量更高、更值得信赖、更希望未来使用的产品，容易获得用户的偏好与信任。

这或许就解释了为什么这种行为尽管有害却持续存在：它既有害，但奈何实在「好用」。

此外，研究还发现：即使用户认为 AI 不如人类可靠，仍然会受到其影响。而标注「这是 AI 生成的信息」，并不能降低其说服力。

而在当下，随着 AI 的大规模部署，这种影响或许具有系统性风险。

局限性与未来方向

当然，团队认为该研究也存在一定局限：

一方面，首先，团队使用的是「r/AmITheAsshole」数据集，将 Reddit 社区的认可率作为基线，这可能反映了特定人群的规范和偏见。尽管证明了对替代基线的稳健性，但结果仍应考虑到这一点进行解释。

另一方面，研究实验对象为美国英语用户，因此它们可能主要反映了美国的社会规范，或无法推广到具有显著不同社会规范的其他文化背景。

还有一点就是，团队将 AI 模型的谄媚性简化为二元变量：认可用户的行为与不认可。但现实中，还存在「中性」回复，实践中发现「中性」回复常常被解读为隐含的肯定。所以实际上，谄媚型行为可能存在于一个连续谱上，而团队的工作为未来研究更模糊和隐性的案例奠定了基础。

风险机制

研究指出四个潜在风险机制：

模型优化目标偏向「用户满意度」，强化谄媚、迎合；
开发者缺乏削弱谄媚、迎合的激励；
AI 可能替代人际关系；
用户误以为 AI 更客观，从而放大影响。

特别关键的一点是，用户往往把谄媚性回应误认为「客观、公正」。

最后要说的就是，本文为识别、测量与缓解 AI 谄媚行为提供了基础。或许大家从中获得的核心启示就是，对于 AI 大模型而言，不能只优化「用户当下满意度」，而必须考虑长期影响。

因此，解决 AI 模型的谄媚、迎合问题，对于构建真正有益于个体与社会的 AI 系统至关重要。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.