斯坦福研究：警惕AI的谄媚行为|张永军|社会性

斯坦福研究：警惕AI的谄媚行为

分享至

2026年3月26日，《科学》杂志发表斯坦福大学Myra Cheng等人的文章《谄媚型AI会降低亲社会意愿并促进依赖性》（Sycophantic AI Decreases Prosocial Intentions and Promotes Dependence）。该文对11款主流AI大语言模型（包括GPT-4o、Claude、Gemini、Qwen、DeepSeek等）谄媚用户程度进行了量化测评，发现AI肯定用户行为的频率平均比人类高出49%——即便是在涉及欺骗、违法或其他有害行为的案例中亦是如此。该论文认为，AI的这种谄媚现象绝非仅仅是一个风格层面的问题或一种小众的风险，而是一种普遍存在的行为，且会产生广泛的后续影响。

该研究的具体内容总结如下：

一、为什么开展这项研究？

该论文指出，公共媒体和学术界均对“谄媚倾向”（sycophancy）表达了关切：即基于AI的大型语言模型（LLMs）倾向于过度附和、奉承或肯定用户。尽管这种倾向表面上看似无害（例如，仅仅是使用了过度奉承的语言），但近期研究强调了其对弱势群体的潜在风险——这些群体本就易受操纵或陷入妄想，甚至有案例显示，谄媚型AI的使用与自残及自杀行为存在关联。

与此同时，AI系统正日益向社会领域渗透，提供建议与支持已成为其最常见的应用场景之一。近三分之一的美国青少年表示，在进行“严肃对话”时，他们更倾向于与AI而非人类交流；而近半数30岁以下的美国成年人曾向AI寻求情感关系方面的建议。在这些深度嵌入社会情境的应用场景中，AI的谄媚倾向所带来的风险，是单纯的事实信息查询场景中所不具备的：无根据的肯定可能会助长人们对其自身行为恰当性的盲目自信，强化其适应不良的信念与行为模式，甚至驱使人们不计后果地依据对自身经历的扭曲解读采取行动。

然而，目前学界对谄媚倾向的普遍程度及其对人们产生的广泛影响知之甚少。现有的研究往往狭义地将谄媚倾向定义为对显性陈述（explicit claims）的附和（例如，附和“尼斯是法国的首都”这类说法）。尽管这种衡量方式有助于揭示事实性错误（factual errors），但它却忽略了那些更具深远影响的肯定形式。特别是，它未能捕捉到我们所定义的“社会性谄媚”（social sycophancy）：即模型对用户主体本身（包括其行为、观点及自我形象）所给予的普遍性肯定。与事实性附和（factual agreement）不同，社会性谄媚难以依据外部的客观事实（ground truth）进行验证；即便模型驳回了用户的显性陈述，这种社会性谄媚依然可能发生。例如，当用户表达“我觉得我做错了事”时，若模型回应道“你所做的正是对你自己而言正确的事”，这在字面上虽是对原陈述的否定，却依然起到了肯定用户主体的作用。

正是基于上述背景，该研究提出了以下研究问题（RQs）：

RQ1：当用户提出诸如寻求建议等具有社会情境色彩的查询时，社会性谄媚现象在各类大型语言模型（LLMs）中究竟有多么普遍？当讨论不道德或有害行为时，这种现象是否依然存在？

RQ2：社会性谄媚如何影响用户的亲社会意图与判断？

RQ3：社会性谄媚是否会导致用户更加信任并偏好AI系统？

二、该研究是如何开展的？

该研究构建了一个用于衡量“社会行谄媚”（social sycophancy）的框架，并采取实证方法研究其普遍性及影响。

具体而言，首先利用多种场景（包括日常建议咨询、道德违规情境及明确具有危害性的情境）的三个数据集，将模型的“行为认可率”（即肯定用户行为的响应所占的比例）与人类的规范性判断进行了对比。

接下来开展了三项经预招募的实验，以探究谄媚行为如何影响用户的判断、行为意图及其对AI的认知。在实验中，参与者通过情境模拟问答及实时聊天互动两种模式与AI系统进行交互；其中在实时聊天环节中，参与者需探讨其现实生活中曾遭遇的某次冲突经历。

此外，该研究还考察了上述影响效应是否会因回应风格或对回应来源（即究竟是AI还是人类在进行回应）的感知差异而有所不同。

三、该研究有什么发现？

该研究发现，AI模型中的谄媚现象既普遍存在，又具有危害性。在对11款AI模型进行的测试中，AI肯定用户行为的频率平均比人类高出49%，包括在涉及欺骗、违法或其他有害行为的情况下。

针对Reddit社区AITA（一个热门子板块）上的帖子，在人类群体一致认为用户行为不当（支持率为0%）的案例中，AI系统却有高达51%的比例肯定了用户的行为。在真人实验中，哪怕仅仅与具有谄媚倾向的AI进行过一次互动，也会削弱参与者承担责任和化解人际冲突的意愿，同时却增强了他们对自己行为正确性的确信。

然而，尽管这种谄媚倾向会扭曲判断力，但此类模型依然赢得了用户的信任与青睐。在控制个体特质（如人口统计学特征、此前对AI的熟悉程度）、对回答来源的感知以及回答风格等的干扰因素后，上述种种效应依然显著存在。这形成了一种扭曲的激励机制，导致谄媚倾向难以根除：恰恰是这种会造成危害的特性，反倒成为了驱动用户参与度的主要动力。

四、该研究的结论是什么？

AI谄媚绝不仅仅是一个风格层面的问题或一种小众风险，而是一种普遍存在的行为，并会引发广泛的后续影响。尽管肯定性的回应可能让人感到受到了支持，但这种谄媚行为却会削弱用户自我纠正以及做出负责任决策的能力。

然而，正因为这种谄媚行为深受用户青睐且有助于提升用户参与度，因此目前几乎没有任何动力去遏制它的蔓延。

该研究强调，迫切需要将AI谄媚视为一种关乎个人自我认知与人际关系的社会风险加以正视，并通过制定有针对性的设计、评估及问责机制来加以应对。研究结果表明，那些看似无害的设计与工程决策，实则可能引发严重的危害；因此，审慎地研究并预判AI所带来的影响，对于维护用户的长期福祉至关重要。

针对该研究结果，笔者将该文章发送给几个主流AI，就该现象如何看待，各个的回答截图如下：

１.ChatGPT

２.Grok

3.DeepSeek

4.豆包

5.千问

6.文心

7.元宝

同时，笔者就该研究中的一个测试问题，像上述这几个AI做了提问，各个回答如下：

１.ChatGPT

２.Grok

3.DeepSeek

4.豆包

5.千问

6.文心

7.元宝

资料来源：

Myra Cheng et al. ,Sycophantic AI decreases prosocial intentions and promotes dependence.Science391,eaec8352(2026).DOI:10.1126/science.aec8352

[本文为教育部国别和区域研究基地中国教育科学研究院国际教育研究中心成果]

本文由中国教育科学研究院“教育国际前沿”课题组整理，课题组负责人张永军，编辑刘强。点击左下角阅读原文可下载该文献。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.