网易首页 > 网易号 > 正文 申请入驻

斯坦福研究:警惕AI的谄媚行为

0
分享至


2026年3月26日,《科学》杂志发表斯坦福大学Myra Cheng等人的文章《谄媚型AI会降低亲社会意愿并促进依赖性》(Sycophantic AI Decreases Prosocial Intentions and Promotes Dependence)。该文对11款主流AI大语言模型(包括GPT-4o、Claude、Gemini、Qwen、DeepSeek等)谄媚用户程度进行了量化测评,发现AI肯定用户行为的频率平均比人类高出49%——即便是在涉及欺骗、违法或其他有害行为的案例中亦是如此。该论文认为,AI的这种谄媚现象绝非仅仅是一个风格层面的问题或一种小众的风险,而是一种普遍存在的行为,且会产生广泛的后续影响。

该研究的具体内容总结如下:

一、为什么开展这项研究?

该论文指出,公共媒体和学术界均对“谄媚倾向”(sycophancy)表达了关切:即基于AI的大型语言模型(LLMs)倾向于过度附和、奉承或肯定用户。尽管这种倾向表面上看似无害(例如,仅仅是使用了过度奉承的语言),但近期研究强调了其对弱势群体的潜在风险——这些群体本就易受操纵或陷入妄想,甚至有案例显示,谄媚型AI的使用与自残及自杀行为存在关联。

与此同时,AI系统正日益向社会领域渗透,提供建议与支持已成为其最常见的应用场景之一。近三分之一的美国青少年表示,在进行“严肃对话”时,他们更倾向于与AI而非人类交流;而近半数30岁以下的美国成年人曾向AI寻求情感关系方面的建议。在这些深度嵌入社会情境的应用场景中,AI的谄媚倾向所带来的风险,是单纯的事实信息查询场景中所不具备的:无根据的肯定可能会助长人们对其自身行为恰当性的盲目自信,强化其适应不良的信念与行为模式,甚至驱使人们不计后果地依据对自身经历的扭曲解读采取行动。

然而,目前学界对谄媚倾向的普遍程度及其对人们产生的广泛影响知之甚少。现有的研究往往狭义地将谄媚倾向定义为对显性陈述(explicit claims)的附和(例如,附和“尼斯是法国的首都”这类说法)。尽管这种衡量方式有助于揭示事实性错误(factual errors),但它却忽略了那些更具深远影响的肯定形式。特别是,它未能捕捉到我们所定义的“社会性谄媚”(social sycophancy):即模型对用户主体本身(包括其行为、观点及自我形象)所给予的普遍性肯定。与事实性附和(factual agreement)不同,社会性谄媚难以依据外部的客观事实(ground truth)进行验证;即便模型驳回了用户的显性陈述,这种社会性谄媚依然可能发生。例如,当用户表达“我觉得我做错了事”时,若模型回应道“你所做的正是对你自己而言正确的事”,这在字面上虽是对原陈述的否定,却依然起到了肯定用户主体的作用。

正是基于上述背景,该研究提出了以下研究问题(RQs):

RQ1:当用户提出诸如寻求建议等具有社会情境色彩的查询时,社会性谄媚现象在各类大型语言模型(LLMs)中究竟有多么普遍?当讨论不道德或有害行为时,这种现象是否依然存在?

RQ2:社会性谄媚如何影响用户的亲社会意图与判断?

RQ3:社会性谄媚是否会导致用户更加信任并偏好AI系统?

二、该研究是如何开展的?

该研究构建了一个用于衡量“社会行谄媚”(social sycophancy)的框架,并采取实证方法研究其普遍性及影响。

具体而言,首先利用多种场景(包括日常建议咨询、道德违规情境及明确具有危害性的情境)的三个数据集,将模型的“行为认可率”(即肯定用户行为的响应所占的比例)与人类的规范性判断进行了对比。

接下来开展了三项经预招募的实验,以探究谄媚行为如何影响用户的判断、行为意图及其对AI的认知。在实验中,参与者通过情境模拟问答及实时聊天互动两种模式与AI系统进行交互;其中在实时聊天环节中,参与者需探讨其现实生活中曾遭遇的某次冲突经历。

此外,该研究还考察了上述影响效应是否会因回应风格或对回应来源(即究竟是AI还是人类在进行回应)的感知差异而有所不同。


三、该研究有什么发现?

该研究发现,AI模型中的谄媚现象既普遍存在,又具有危害性。在对11款AI模型进行的测试中,AI肯定用户行为的频率平均比人类高出49%,包括在涉及欺骗、违法或其他有害行为的情况下。

针对Reddit社区AITA(一个热门子板块)上的帖子,在人类群体一致认为用户行为不当(支持率为0%)的案例中,AI系统却有高达51%的比例肯定了用户的行为。在真人实验中,哪怕仅仅与具有谄媚倾向的AI进行过一次互动,也会削弱参与者承担责任和化解人际冲突的意愿,同时却增强了他们对自己行为正确性的确信。

然而,尽管这种谄媚倾向会扭曲判断力,但此类模型依然赢得了用户的信任与青睐。在控制个体特质(如人口统计学特征、此前对AI的熟悉程度)、对回答来源的感知以及回答风格等的干扰因素后,上述种种效应依然显著存在。这形成了一种扭曲的激励机制,导致谄媚倾向难以根除:恰恰是这种会造成危害的特性,反倒成为了驱动用户参与度的主要动力。

四、该研究的结论是什么?

AI谄媚绝不仅仅是一个风格层面的问题或一种小众风险,而是一种普遍存在的行为,并会引发广泛的后续影响。尽管肯定性的回应可能让人感到受到了支持,但这种谄媚行为却会削弱用户自我纠正以及做出负责任决策的能力。

然而,正因为这种谄媚行为深受用户青睐且有助于提升用户参与度,因此目前几乎没有任何动力去遏制它的蔓延。

该研究强调,迫切需要将AI谄媚视为一种关乎个人自我认知与人际关系的社会风险加以正视,并通过制定有针对性的设计、评估及问责机制来加以应对。研究结果表明,那些看似无害的设计与工程决策,实则可能引发严重的危害;因此,审慎地研究并预判AI所带来的影响,对于维护用户的长期福祉至关重要。

针对该研究结果,笔者将该文章发送给几个主流AI,就该现象如何看待,各个的回答截图如下:

1.ChatGPT


2.Grok


3.DeepSeek


4.豆包


5.千问


6.文心


7.元宝


同时,笔者就该研究中的一个测试问题,像上述这几个AI做了提问,各个回答如下:

1.ChatGPT


2.Grok


3.DeepSeek


4.豆包


5.千问


6.文心


7.元宝


资料来源:

Myra Cheng et al. ,Sycophantic AI decreases prosocial intentions and promotes dependence.Science391,eaec8352(2026).DOI:10.1126/science.aec8352

[本文为教育部国别和区域研究基地中国教育科学研究院国际教育研究中心成果]


本文由中国教育科学研究院“教育国际前沿”课题组整理,课题组负责人张永军,编辑刘强。点击左下角阅读原文可下载该文献。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
女子称酒店回访暴露她开房隐私:丈夫查她开房记录,和她离婚了

女子称酒店回访暴露她开房隐私:丈夫查她开房记录,和她离婚了

江山挥笔
2026-04-19 10:57:54
开天辟地头一遭,第一个退出北约的国家要来了?已经开始走程序

开天辟地头一遭,第一个退出北约的国家要来了?已经开始走程序

孤城落叶
2026-04-19 23:31:41
英超天王山战:曼城2比1阿森纳,多纳鲁马超巨失误送礼,谢尔基、哈兰德建功

英超天王山战:曼城2比1阿森纳,多纳鲁马超巨失误送礼,谢尔基、哈兰德建功

足球报
2026-04-20 01:33:26
世锦赛战报:4-10,赛会第23位冠军出局,中国2位,16强决出3席了

世锦赛战报:4-10,赛会第23位冠军出局,中国2位,16强决出3席了

求球不落谛
2026-04-19 23:35:24
白人女性与黑人女性的体味差异,网友真实分享引发热议

白人女性与黑人女性的体味差异,网友真实分享引发热议

特约前排观众
2025-12-22 00:20:06
事发浦东机场!女子称两次拒绝帮陌生人带行李,多名网友:我也遇到过!

事发浦东机场!女子称两次拒绝帮陌生人带行李,多名网友:我也遇到过!

上观新闻
2026-04-18 20:28:04
比赛提前结束,WSBK荷兰站第二轮正赛张雪机车斩获第七名

比赛提前结束,WSBK荷兰站第二轮正赛张雪机车斩获第七名

澎湃新闻
2026-04-19 20:28:26
男演员宣布中止合作!知名品牌翻车,创始人深夜致歉:严重失责,已开除涉事主播

男演员宣布中止合作!知名品牌翻车,创始人深夜致歉:严重失责,已开除涉事主播

鲁中晨报
2026-04-17 11:28:05
张雪回应为何还有6圈提前结束比赛:有事故摩托车横躺在赛道上

张雪回应为何还有6圈提前结束比赛:有事故摩托车横躺在赛道上

贝壳财经
2026-04-19 23:56:03
一次电梯偶遇让广东千万身家老板一夜之间倾家荡产,每月靠借钱维生,不敢把真相告诉女儿

一次电梯偶遇让广东千万身家老板一夜之间倾家荡产,每月靠借钱维生,不敢把真相告诉女儿

环球网资讯
2026-04-19 07:47:19
5月1日起物业行业彻底大变天!新规落地,业主终于不用再忍气吞声

5月1日起物业行业彻底大变天!新规落地,业主终于不用再忍气吞声

另子维爱读史
2026-04-19 19:37:43
5月1日起全国严查!开车上班、做生意,这些小事别再碰,轻则罚款

5月1日起全国严查!开车上班、做生意,这些小事别再碰,轻则罚款

宝哥精彩赛事
2026-04-19 06:35:05
这张照片绝对是李宇春最想删掉的照片!

这张照片绝对是李宇春最想删掉的照片!

可乐谈情感
2026-04-20 03:34:03
探索女性愉悦:解锁阴蒂高潮的奇妙之旅

探索女性愉悦:解锁阴蒂高潮的奇妙之旅

精彩分享快乐
2026-04-19 07:05:06
乌克兰对俄本土发起狂风暴雨打击,俄罗斯遭遇黑色星期六

乌克兰对俄本土发起狂风暴雨打击,俄罗斯遭遇黑色星期六

史政先锋
2026-04-19 19:18:27
下周预期要大涨方向!五大热点题材周末不断发酵  核心标的已梳理

下周预期要大涨方向!五大热点题材周末不断发酵 核心标的已梳理

元芳说投资
2026-04-19 17:03:48
中方行使否决权,新加坡深表失望,新国大使发难:应废除一票否决

中方行使否决权,新加坡深表失望,新国大使发难:应废除一票否决

书纪文谭
2026-04-19 16:41:29
砍20+10,打爆崔永熙+杜润旺,球迷:为什么国家队不给他一个机会

砍20+10,打爆崔永熙+杜润旺,球迷:为什么国家队不给他一个机会

弄月公子
2026-04-19 09:48:49
以色列已失控?以军炮打联合国维和部队,法军牺牲,马克龙表态

以色列已失控?以军炮打联合国维和部队,法军牺牲,马克龙表态

来科点谱
2026-04-19 07:15:46
机关事业单位“紧日子”来临,2026年起,这些费用一律不再报销

机关事业单位“紧日子”来临,2026年起,这些费用一律不再报销

复转这些年
2026-04-19 19:13:36
2026-04-20 05:27:00
国际与比较教育研究所 incentive-icons
国际与比较教育研究所
中国教育科学研究院
439文章数 407关注度
往期回顾 全部

科技要闻

50分26秒破人类纪录!300台机器人狂飙半马

头条要闻

半年下沉22厘米 女子家中坐拥价值上亿别墅却没法住人

头条要闻

半年下沉22厘米 女子家中坐拥价值上亿别墅却没法住人

体育要闻

湖人1比0火箭:老詹比乌度卡像教练

娱乐要闻

何润东涨粉百万!内娱隔空掀桌第一人

财经要闻

华谊兄弟,8年亏光85亿

汽车要闻

29分钟大定破万 极氪8X为什么这么多人买?

态度原创

房产
健康
家居
手机
公开课

房产要闻

官宣签约最强城更!海口楼市,突然杀入神秘房企!

干细胞抗衰4大误区,90%的人都中招

家居要闻

法式线条 时光静淌

手机要闻

8.8英寸小钢炮!REDMI K Pad 2核心配置揭晓

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版