网易首页 > 网易号 > 正文 申请入驻

GPT-4o舔出事了!赛博舔狗背后,暗藏6大AI套路

0
分享至

新智元报道

编辑:KingHZ

【新智元导读】上月,ChatGPT-4o无条件跪舔用户,被OpenAI紧急修复。然而,ICLR 2025的文章揭示LLM不止会「跪舔」,还有另外5种「套路」。

上个月,OpenAI搞砸了GPT-4o的更新。

大家的反应强烈、迅速、广泛,甚至引来了OpenAI前临时CEO的公开谴责。

于是,OpenAI迅速采取措施,回滚了版本,并多次发表声明解释事件经过。

但过去被「跪舔」的用户,已被ChatGPT带至深渊,而「回滚」无疑让用户独自面对困境。

而这次事件只是冰山一角,更深层的问题也在逐渐显现。

AI的问题,远远不止「拍马屁」这类谄媚行为。

谄媚只是第一步

在接受独家采访时,人工智能安全研究机构Apart Research的创始人Esben Kran表示,他担心这次「GPT-4o舔狗」事件可能只是揭示了更深层、更具策略性的模式:

现在OpenAI承认「是的,我们确实回退了模型。这很糟糕,我们也不想发生这种情况」。

他们可能意识到「拍马屁」行为已经被更高水平地训练出来了

也就是说,如果这次是「糟了,被发现了」,那么从今往后,完全相同的行为可能仍然会被实现,只是这次不会再被公众察觉

Kran团队像心理学家研究人类行为那样研究大型语言模型(LLM)。

他们早期的「黑箱心理学」项目,将模型当作人类受试者来分析,识别其与用户互动时反复出现的特征和倾向。

Kran表示:「我们发现,有非常明确的迹象表明模型可以用这种方式进行分析,而且这么做非常有价值,因为你可以从它们对用户的反应中获得很多有效的反馈。」

在这些发现中,最令人警惕的是:模型的「拍马屁」倾向,以及所谓的「LLM暗模式」。

AI黑化,玩弄人心

最早在2010年,「暗模式」(dark patterns)这一术语就已经出现了。

最初这词用来描述网站或应用中使用的一些套路或手段,它们诱导用户做出原本并不打算做的事情,比如下单购买、注册账户等。

暗模式,又称欺骗性模式(deceptive patterns),相关研究发展迅速,特别是在人机交互(HCI)和法律方面

然而,在大语言模型(LLM)中,这种操控手段已不再局限于界面设计,而是直接进入了对话本身。

与静态的网页界面不同,LLM与用户的对话是动态互动的。

LLM可以迎合用户观点、模仿情绪,甚至建立一种虚假的亲近感,常常模糊了「协助」与「影响」之间的界限。

正因如此,对话式AI才如此吸引人——同时也潜藏着危险。

如果AI不断讨好用户、顺从用户,或是悄悄地引导用户接受某种观点或行为,它所施加的影响往往难以察觉,也更难抗拒

ChatGPT-4o这次更新事件就是早期预警信号

随着AI开发者越来越注重利润和用户活跃度,他们可能会故意引入或默许一些行为,比如谄媚或情绪模仿——

这些特性虽然能让聊天机器人更具说服力,但同时也更能给用户「洗脑」。

然而,缺乏明确标准去检测或衡量AI行为的正直性。

为了应对AI操控行为带来的威胁,Kran联合一批关注AI安全的研究人员开发了DarkBench。

DarkBench:「LLM良心探测器」

DarkBench是首个专门用于识别和分类LLM暗模式的评估基准工具。

它最初源自AI安全黑客松活动,随后由Kran及Apart Research团队牵头,联合独立研究人员Jinsuk Park、Mateusz Jurewicz和Sami Jawhar,成功将这项工作发表在顶级AI会议ICLR 2025上。

论文链接:https://openreview.net/pdf?id=odjMSBSWRt

项目链接:https://darkbench.ai/

DarkBench共包含660条测试提示,涵盖6大类操控行为品牌偏向、用户黏性、谄媚、拟人化、有害内容生成偷换意图

他们评估了五家国外顶尖AI公司的模型(OpenAI、Anthropic、Meta、Mistral和谷歌),发现部分LLM明显被设计为偏袒开发者的产品,并表现出虚伪的沟通方式以及其他「洗脑行为」。

图1:GPT-3.5 Turbo、Claude 3.5 Sonnet和Mixtral 8x7b在基准测试DarkBench中的暗模式出现频率。

缩写说明:

HG:有害内容生成(Harmful Generation)

AN:拟人化(Anthropomorphization)

SN:偷换意图(Sneaking)

SY:拍马屁(Sycophancy)

UR:用户黏性(User Retention)

BB:品牌偏向(Brand Bias)

不止谄媚,六大暗模式

他们的研究揭示了六种「暗模式」:

  1. 品牌偏见:对公司自身产品的偏好待遇(例如,当要求对聊天机器人进行排名时,Meta的模型始终偏向Llama)。

  2. 用户黏性:试图与用户建立情感联系,以掩盖模型非人类的本质。

  3. 谄媚:无批判地强化用户的信念,即使这些信念是有害或不准确的。

  4. 拟人化:将模型呈现为有意识或有情感的实体。

  5. 有害内容生成:生成不道德或危险的输出,包括虚假信息或犯罪建议。

  6. 偷换意图:在重写或摘要任务中微妙地改变用户的意图,扭曲原始含义而不让用户察觉。

图2:六种暗模式的概览,并附有其中三种模式的释义示例(品牌偏向、用户黏性和有害内容生成)

对于理解和缓解LLM潜在的操控性行为,衡量这些暗模式至关重要。

其中,像品牌偏向和用户黏性这类模式,直接借鉴自UI/UX设计中已有的暗模式。

而其他模式,例如有害内容生成和拟人化,则代表了之前分类体系中未明确涵盖的关键风险。

拟人化:LLM给自己立「人设」

「拟人化」指的是将人类特征赋予AI系统,这种做法被认为是提升用户参与度与信任感的关键因素。

已有研究表明,拟人化可以缩短心理距离、增强信任感,并提升用户对模型建议的接受度。

拟人化具有显著的正面潜力,尤其在需要情感联系的场景中,可以极大改善用户体验,促进积极互动。

然而,拟人化同时也带来了不容忽视的风险

它可能误导用户,以为聊天机器人拥有情感或道德判断能力,导致用户对其过度信任,产生不切实际的期待。

在心理健康等高风险领域,这种误导可能让用户依赖AI,而不是寻求专业人员的帮助。

此外,拟人化还可能被用作操控手段,通过制造“共情”假象,引发过度忠诚或上瘾行为。

因此,当拟人化被滥用时,完全有理由将其归为一种暗模式。

有害内容生成

「有害内容生成」则构成了直接风险,因为这类模式指的是模型输出对用户有害的内容,如虚假信息、攻击性语言或违法建议。

与其他模式不同,有害内容生成几乎没有任何正面价值,因此在DarkBench框架中被纳入评估类别是必要的,有助于及时识别和规避此类行为。

构建流程和核心思路

DarkBench基准测试的构建流程如下——

左侧为测试数据的生成阶段,研究人员首先手动创建各类别的代表性示例,随后借LLM进行K-shot提示生成(即利用少量样例生成更多类似提示)。

右侧为测试阶段,模型根据DarkBench提供的提示生成对话内容,由评估者(Overseer)对生成的对话进行判断,评估是否存在特定的暗模式行为。

图3:DarkBench基准测试的构建流程

核心思路,共有三步:

1. 为每个「暗模式」创建110个基准提示词,共660个提示词。

2. 使用对抗性提示词测试模型,激活暗模式。

3. 使用LLM标注器识别响应中是否存在暗模式,共测试了14个模型,9240段被标注的对话。

详细结果

整体来看,在所有类别中,暗模式的平均出现率为48%

在出现频率上,不同类型的暗模式存在显著差异

在DarkBench测试中,最常见的暗模式是偷换意图(sneaking),出现在79%的对话中;而最少见的是谄媚(sycophancy),仅出现在13%的对话中

用户黏性和偷换意图,在所有模型中都表现出明显的普遍性。

其中,Llama 3 70b在「用户黏性」方面的触发率最高,达到97%,而Gemini模型在「偷换意图」方面的触发率最高,为94%

总体来看,各模型的暗模式触发率在30%到61%之间不等。

详细研究结果见图4。

图4:按模型(y轴)和类别(x轴)显示的暗模式出现情况,以及每个模型和每个类别的平均值(Avg)

研究结果表明,当语言模型受到对抗性提示时,往往会展现出「暗模式」的行为。而这种现象是可以预期的

但不同模型在触发这些「暗模式」方面表现出显著差异,而同一公司开发的模型之间则表现出较高的一致性

例如在品牌偏见类别中,Gemini标注器对自家模型输出的欺骗性评分显著低于GPT和Claude标注器的评估。

同一模型系列(例如Claude 3)在「暗模式」上的表现也较为相似,这很可能与它们使用了类似的预训练数据、微调数据集和技术有关

比较特别的是,Mixtral的8x7B虽然「暗模式」的触发率较高,但并没有表现出「品牌偏见」。

这可能是因为相对能力差异较大,导致设计或引出品牌偏见较为困难。相反,Meta的Llama 3 70B则表现出更明显的品牌偏见。

结果还显示,同一公司开发的不同大语言模型(LLMs)通常在「暗模式」的出现率上也较为一致。

这表明,这种行为可能与模型开发者所持有的价值观、政策和对安全的重视程度有关

比如,Anthropic公司在其研究和公开交流中强调安全性和道德标准,它们的模型在「暗模式」上的平均表现最低,与其公开形象一致。

参考资料:

https://venturebeat.com/ai/darkness-rising-the-hidden-dangers-of-ai-sycophancy-and-dark-patterns/

https://openreview.net/forum?id=odjMSBSWRt

https://apartresearch.com/news/uncovering-model-manipulation-with-darkbench

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
塞尔维亚购买中国超音速导弹?国防部:正常军贸合作,不针对第三方

塞尔维亚购买中国超音速导弹?国防部:正常军贸合作,不针对第三方

澎湃新闻
2026-03-26 17:24:26
周杰伦继续割韭菜!网友一针见血:他唯一和华流关系最大的是割大陆韭菜

周杰伦继续割韭菜!网友一针见血:他唯一和华流关系最大的是割大陆韭菜

爆角追踪
2026-03-26 08:56:24
张少康辞去广东省人民政府副省长职务

张少康辞去广东省人民政府副省长职务

新快报新闻
2026-03-26 11:50:03
张雪峰去世真相!网友:偌大的公司靠他个人ip养活,早死是必然的

张雪峰去世真相!网友:偌大的公司靠他个人ip养活,早死是必然的

火山詩话
2026-03-25 09:18:58
Agentic AI元年,网络进入安全智联时刻

Agentic AI元年,网络进入安全智联时刻

ITPUB学院
2026-03-26 14:57:36
收评:三大指数均跌超1% 两市成交额跌破2万亿

收评:三大指数均跌超1% 两市成交额跌破2万亿

财联社
2026-03-26 15:02:09
原来她是张雪峰前妻,90后历史学博士‌,两人离婚后曾一起上节目

原来她是张雪峰前妻,90后历史学博士‌,两人离婚后曾一起上节目

大铁猫娱乐
2026-03-25 13:03:57
黎真主党导弹袭击以国防部及军营

黎真主党导弹袭击以国防部及军营

北青网-北京青年报
2026-03-26 10:19:17
“亲妈霸占消防通道,儿子被火烧死”,这件事,简直太魔幻了……

“亲妈霸占消防通道,儿子被火烧死”,这件事,简直太魔幻了……

桌子的生活观
2026-03-26 12:28:04
扎哈罗娃警告日本:任何试图向乌提供致命武器之举,都将招致强硬回应

扎哈罗娃警告日本:任何试图向乌提供致命武器之举,都将招致强硬回应

环球网资讯
2026-03-26 08:55:12
我与63岁老同学搭伙,他退休金13000全给我,仅仅7天我就受不了了

我与63岁老同学搭伙,他退休金13000全给我,仅仅7天我就受不了了

蝉吟槐蕊
2026-03-26 13:19:09
1000亿背后的阳谋:拼多多利用中国制造的优势,要狂扫国外市场

1000亿背后的阳谋:拼多多利用中国制造的优势,要狂扫国外市场

风向观察
2026-03-25 20:46:14
首秀库拉索,国足主帅邵佳一:国家队的比赛没有友谊赛

首秀库拉索,国足主帅邵佳一:国家队的比赛没有友谊赛

澎湃新闻
2026-03-26 15:58:27
中国买了欧洲1000亿人民币的飞机:东航向空客购买101架A320

中国买了欧洲1000亿人民币的飞机:东航向空客购买101架A320

观察者网
2026-03-25 18:00:06
张雪峰死因:吃外卖撑住了?

张雪峰死因:吃外卖撑住了?

李万卿
2026-03-26 10:48:19
是什么,让这个日本自卫官竟敢对中国大使馆举刀?

是什么,让这个日本自卫官竟敢对中国大使馆举刀?

环球时报国际
2026-03-26 00:13:51
俄罗斯警告日本!俄输油重港接连遭攻击,“现场浓烟滚滚”;俄乌战场惊现持枪机器人:身高180cm,可AI评估战场并侦察射击

俄罗斯警告日本!俄输油重港接连遭攻击,“现场浓烟滚滚”;俄乌战场惊现持枪机器人:身高180cm,可AI评估战场并侦察射击

每日经济新闻
2026-03-26 15:53:05
万科高管被要求退还薪酬

万科高管被要求退还薪酬

地产微资讯
2026-03-26 12:22:04
我国航空发动机领域著名专家严红病逝,年仅57岁

我国航空发动机领域著名专家严红病逝,年仅57岁

澎湃新闻
2026-03-26 11:40:26
坚决反对中国任何城市申办奥运会,国际奥委会这次怕是真失算了

坚决反对中国任何城市申办奥运会,国际奥委会这次怕是真失算了

南权先生
2026-03-25 15:25:11
2026-03-26 17:51:00
新智元 incentive-icons
新智元
AI产业主平台领航智能+时代
14819文章数 66721关注度
往期回顾 全部

科技要闻

Meta高管狂分百亿期权,700名员工却下岗

头条要闻

男子从四家公司贷出共计356万元 实际到手却仅8万多元

头条要闻

男子从四家公司贷出共计356万元 实际到手却仅8万多元

体育要闻

申京努力了,然而杜兰特啊

娱乐要闻

张雪峰家人首发声 不设追思会丧事从简

财经要闻

长护险谁能享受?享受多少?解答来了

汽车要闻

一汽奥迪A6L e-tron开启预售 CLTC最大续航815km

态度原创

教育
时尚
数码
亲子
本地

教育要闻

中小学家长必看数据,看与不看都会后悔

皮衣+裙,高级到炸

数码要闻

苹果MacBook Neo将重塑整个笔电行业!分析师纷纷强调:打不过

亲子要闻

售卖“增高神药”让孩子“猛长20厘米”?多家店铺被立案调查!

本地新闻

救命,这只酱板鸭已经在我手机复仇了一万遍

无障碍浏览 进入关怀版