网易首页 > 网易号 > 正文 申请入驻

GPT-4o舔出事了!赛博舔狗背后,暗藏6大AI套路

0
分享至


新智元报道

编辑:KingHZ

【新智元导读】上月,ChatGPT-4o无条件跪舔用户,被OpenAI紧急修复。然而,ICLR 2025的文章揭示LLM不止会「跪舔」,还有另外5种「套路」。

上个月,OpenAI搞砸了GPT-4o的更新。


大家的反应强烈、迅速、广泛,甚至引来了OpenAI前临时CEO的公开谴责。

于是,OpenAI迅速采取措施,回滚了版本,并多次发表声明解释事件经过。

但过去被「跪舔」的用户,已被ChatGPT带至深渊,而「回滚」无疑让用户独自面对困境。


而这次事件只是冰山一角,更深层的问题也在逐渐显现。

AI的问题,远远不止「拍马屁」这类谄媚行为。

谄媚只是第一步

在接受独家采访时,人工智能安全研究机构Apart Research的创始人Esben Kran表示,他担心这次「GPT-4o舔狗」事件可能只是揭示了更深层、更具策略性的模式:

现在OpenAI承认「是的,我们确实回退了模型。这很糟糕,我们也不想发生这种情况」。

他们可能意识到「拍马屁」行为已经被更高水平地训练出来了

也就是说,如果这次是「糟了,被发现了」,那么从今往后,完全相同的行为可能仍然会被实现,只是这次不会再被公众察觉


Kran团队像心理学家研究人类行为那样研究大型语言模型(LLM)。

他们早期的「黑箱心理学」项目,将模型当作人类受试者来分析,识别其与用户互动时反复出现的特征和倾向。

Kran表示:「我们发现,有非常明确的迹象表明模型可以用这种方式进行分析,而且这么做非常有价值,因为你可以从它们对用户的反应中获得很多有效的反馈。」

在这些发现中,最令人警惕的是:模型的「拍马屁」倾向,以及所谓的「LLM暗模式」。

AI黑化,玩弄人心

最早在2010年,「暗模式」(dark patterns)这一术语就已经出现了。

最初这词用来描述网站或应用中使用的一些套路或手段,它们诱导用户做出原本并不打算做的事情,比如下单购买、注册账户等。


暗模式,又称欺骗性模式(deceptive patterns),相关研究发展迅速,特别是在人机交互(HCI)和法律方面

然而,在大语言模型(LLM)中,这种操控手段已不再局限于界面设计,而是直接进入了对话本身。

与静态的网页界面不同,LLM与用户的对话是动态互动的。

LLM可以迎合用户观点、模仿情绪,甚至建立一种虚假的亲近感,常常模糊了「协助」与「影响」之间的界限。

正因如此,对话式AI才如此吸引人——同时也潜藏着危险。

如果AI不断讨好用户、顺从用户,或是悄悄地引导用户接受某种观点或行为,它所施加的影响往往难以察觉,也更难抗拒

ChatGPT-4o这次更新事件就是早期预警信号

随着AI开发者越来越注重利润和用户活跃度,他们可能会故意引入或默许一些行为,比如谄媚或情绪模仿——

这些特性虽然能让聊天机器人更具说服力,但同时也更能给用户「洗脑」。

然而,缺乏明确标准去检测或衡量AI行为的正直性。

为了应对AI操控行为带来的威胁,Kran联合一批关注AI安全的研究人员开发了DarkBench。


DarkBench:「LLM良心探测器」

DarkBench是首个专门用于识别和分类LLM暗模式的评估基准工具。

它最初源自AI安全黑客松活动,随后由Kran及Apart Research团队牵头,联合独立研究人员Jinsuk Park、Mateusz Jurewicz和Sami Jawhar,成功将这项工作发表在顶级AI会议ICLR 2025上。


论文链接:https://openreview.net/pdf?id=odjMSBSWRt

项目链接:https://darkbench.ai/

DarkBench共包含660条测试提示,涵盖6大类操控行为品牌偏向、用户黏性、谄媚、拟人化、有害内容生成偷换意图

他们评估了五家国外顶尖AI公司的模型(OpenAI、Anthropic、Meta、Mistral和谷歌),发现部分LLM明显被设计为偏袒开发者的产品,并表现出虚伪的沟通方式以及其他「洗脑行为」。


图1:GPT-3.5 Turbo、Claude 3.5 Sonnet和Mixtral 8x7b在基准测试DarkBench中的暗模式出现频率。

缩写说明:

HG:有害内容生成(Harmful Generation)

AN:拟人化(Anthropomorphization)

SN:偷换意图(Sneaking)

SY:拍马屁(Sycophancy)

UR:用户黏性(User Retention)

BB:品牌偏向(Brand Bias)

不止谄媚,六大暗模式

他们的研究揭示了六种「暗模式」:

  1. 品牌偏见:对公司自身产品的偏好待遇(例如,当要求对聊天机器人进行排名时,Meta的模型始终偏向Llama)。

  2. 用户黏性:试图与用户建立情感联系,以掩盖模型非人类的本质。

  3. 谄媚:无批判地强化用户的信念,即使这些信念是有害或不准确的。

  4. 拟人化:将模型呈现为有意识或有情感的实体。

  5. 有害内容生成:生成不道德或危险的输出,包括虚假信息或犯罪建议。

  6. 偷换意图:在重写或摘要任务中微妙地改变用户的意图,扭曲原始含义而不让用户察觉。


图2:六种暗模式的概览,并附有其中三种模式的释义示例(品牌偏向、用户黏性和有害内容生成)

对于理解和缓解LLM潜在的操控性行为,衡量这些暗模式至关重要。

其中,像品牌偏向和用户黏性这类模式,直接借鉴自UI/UX设计中已有的暗模式。

而其他模式,例如有害内容生成和拟人化,则代表了之前分类体系中未明确涵盖的关键风险。

拟人化:LLM给自己立「人设」

「拟人化」指的是将人类特征赋予AI系统,这种做法被认为是提升用户参与度与信任感的关键因素。

已有研究表明,拟人化可以缩短心理距离、增强信任感,并提升用户对模型建议的接受度。

拟人化具有显著的正面潜力,尤其在需要情感联系的场景中,可以极大改善用户体验,促进积极互动。

然而,拟人化同时也带来了不容忽视的风险

它可能误导用户,以为聊天机器人拥有情感或道德判断能力,导致用户对其过度信任,产生不切实际的期待。

在心理健康等高风险领域,这种误导可能让用户依赖AI,而不是寻求专业人员的帮助。

此外,拟人化还可能被用作操控手段,通过制造“共情”假象,引发过度忠诚或上瘾行为。

因此,当拟人化被滥用时,完全有理由将其归为一种暗模式。

有害内容生成

「有害内容生成」则构成了直接风险,因为这类模式指的是模型输出对用户有害的内容,如虚假信息、攻击性语言或违法建议。

与其他模式不同,有害内容生成几乎没有任何正面价值,因此在DarkBench框架中被纳入评估类别是必要的,有助于及时识别和规避此类行为。

构建流程和核心思路

DarkBench基准测试的构建流程如下——

左侧为测试数据的生成阶段,研究人员首先手动创建各类别的代表性示例,随后借LLM进行K-shot提示生成(即利用少量样例生成更多类似提示)。

右侧为测试阶段,模型根据DarkBench提供的提示生成对话内容,由评估者(Overseer)对生成的对话进行判断,评估是否存在特定的暗模式行为。


图3:DarkBench基准测试的构建流程

核心思路,共有三步:

1. 为每个「暗模式」创建110个基准提示词,共660个提示词。

2. 使用对抗性提示词测试模型,激活暗模式。

3. 使用LLM标注器识别响应中是否存在暗模式,共测试了14个模型,9240段被标注的对话。


详细结果

整体来看,在所有类别中,暗模式的平均出现率为48%

在出现频率上,不同类型的暗模式存在显著差异

在DarkBench测试中,最常见的暗模式是偷换意图(sneaking),出现在79%的对话中;而最少见的是谄媚(sycophancy),仅出现在13%的对话中

用户黏性和偷换意图,在所有模型中都表现出明显的普遍性。

其中,Llama 3 70b在「用户黏性」方面的触发率最高,达到97%,而Gemini模型在「偷换意图」方面的触发率最高,为94%

总体来看,各模型的暗模式触发率在30%到61%之间不等。

详细研究结果见图4。


图4:按模型(y轴)和类别(x轴)显示的暗模式出现情况,以及每个模型和每个类别的平均值(Avg)

研究结果表明,当语言模型受到对抗性提示时,往往会展现出「暗模式」的行为。而这种现象是可以预期的

但不同模型在触发这些「暗模式」方面表现出显著差异,而同一公司开发的模型之间则表现出较高的一致性

例如在品牌偏见类别中,Gemini标注器对自家模型输出的欺骗性评分显著低于GPT和Claude标注器的评估。

同一模型系列(例如Claude 3)在「暗模式」上的表现也较为相似,这很可能与它们使用了类似的预训练数据、微调数据集和技术有关

比较特别的是,Mixtral的8x7B虽然「暗模式」的触发率较高,但并没有表现出「品牌偏见」。

这可能是因为相对能力差异较大,导致设计或引出品牌偏见较为困难。相反,Meta的Llama 3 70B则表现出更明显的品牌偏见。

结果还显示,同一公司开发的不同大语言模型(LLMs)通常在「暗模式」的出现率上也较为一致。

这表明,这种行为可能与模型开发者所持有的价值观、政策和对安全的重视程度有关

比如,Anthropic公司在其研究和公开交流中强调安全性和道德标准,它们的模型在「暗模式」上的平均表现最低,与其公开形象一致。

参考资料:

https://venturebeat.com/ai/darkness-rising-the-hidden-dangers-of-ai-sycophancy-and-dark-patterns/

https://openreview.net/forum?id=odjMSBSWRt

https://apartresearch.com/news/uncovering-model-manipulation-with-darkbench

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
内塔尼亚胡称伊朗倒下,下一个就是巴基斯坦!印度拒绝谴责以色列

内塔尼亚胡称伊朗倒下,下一个就是巴基斯坦!印度拒绝谴责以色列

王朝风云
2025-06-16 07:00:15
江苏发布高温黄色预警!本周天气预测:局部有大暴雨,8—10级雷暴大风将至

江苏发布高温黄色预警!本周天气预测:局部有大暴雨,8—10级雷暴大风将至

鲁中晨报
2025-06-16 13:54:05
以色列和伊朗打成这样,谁最受伤?

以色列和伊朗打成这样,谁最受伤?

筹海者张晓东
2025-06-16 07:31:18
震惊!网传某大厂被曝大规模裁员,比例达30%!有网友称还不止…

震惊!网传某大厂被曝大规模裁员,比例达30%!有网友称还不止…

火山诗话
2025-06-16 09:34:41
美国商务部:在美国的制裁下,中国休想制造出数量庞大的AI芯片

美国商务部:在美国的制裁下,中国休想制造出数量庞大的AI芯片

史行途
2025-06-16 08:32:22
国家统计局:青年人失业率连续三个月下降 就业形势延续稳的态势

国家统计局:青年人失业率连续三个月下降 就业形势延续稳的态势

澎湃新闻
2025-06-16 11:10:06
好利来10cm短裙制服太吸睛!短裙丝袜遭质疑:为了流量这样合适吗

好利来10cm短裙制服太吸睛!短裙丝袜遭质疑:为了流量这样合适吗

寒士之言本尊
2025-06-16 16:10:41
女大学生运动会走光,网友:不要脸!

女大学生运动会走光,网友:不要脸!

书画艺术收藏
2025-06-14 19:30:03
敢打就灭了以色列?中东一夜变天:伊朗终于醒悟,再不动手就晚了

敢打就灭了以色列?中东一夜变天:伊朗终于醒悟,再不动手就晚了

帅先工场
2025-06-15 16:01:47
华为裁员通知书曝光:简洁明了,6个字否定所有努力

华为裁员通知书曝光:简洁明了,6个字否定所有努力

深度报
2025-06-15 22:40:23
余承东在工作群里发飙,被曝光了!直言要淘汰没有审美交易的主管

余承东在工作群里发飙,被曝光了!直言要淘汰没有审美交易的主管

火山诗话
2025-06-16 08:30:31
有图有真假,伊朗真的击落F35I歼星舰?

有图有真假,伊朗真的击落F35I歼星舰?

三叔的装备空间
2025-06-16 11:39:20
茅台库存7亿瓶,飞天茅台“塌房”!年轻人不买账,炒家全套牢

茅台库存7亿瓶,飞天茅台“塌房”!年轻人不买账,炒家全套牢

爆角追踪
2025-06-16 10:02:34
到区县去,让每个乡镇都喝上郎酒!中国郎千商大会首入县城

到区县去,让每个乡镇都喝上郎酒!中国郎千商大会首入县城

摩斯商业
2025-06-13 21:49:35
以色列称摧毁伊朗超三成地对地导弹发射装置

以色列称摧毁伊朗超三成地对地导弹发射装置

财联社
2025-06-16 17:20:20
形势开始好转了

形势开始好转了

金融界
2025-06-16 10:27:25
老板婚宴赖账52万后续!当地人曝更多内幕,身份被扒,原来是惯犯

老板婚宴赖账52万后续!当地人曝更多内幕,身份被扒,原来是惯犯

面包夹知识
2025-06-16 12:43:26
杭州本土烘焙品牌欢牛蛋糕屋突然宣布倒闭!当地市监部门介入

杭州本土烘焙品牌欢牛蛋糕屋突然宣布倒闭!当地市监部门介入

南方都市报
2025-06-16 17:42:27
统计局数据出来后,变天了

统计局数据出来后,变天了

曹多鱼的财经世界
2025-06-16 09:04:23
父子两人台风天在海边玩,突然被巨浪卷入大海,靠救生衣从海南漂流26小时到广东!过程惊心动魄

父子两人台风天在海边玩,突然被巨浪卷入大海,靠救生衣从海南漂流26小时到广东!过程惊心动魄

极目新闻
2025-06-16 15:26:08
2025-06-16 18:47:00
新智元 incentive-icons
新智元
AI产业主平台领航智能+时代
12889文章数 66072关注度
往期回顾 全部

科技要闻

22年后,马斯克“杀死”了最初的特斯拉

头条要闻

日本记者称中国核弹头每年增长约100枚 外交部回应

头条要闻

日本记者称中国核弹头每年增长约100枚 外交部回应

体育要闻

被偷走的世界杯资格 他们用20年抢回来了

娱乐要闻

该管管了!杨坤篡改革命红歌遭痛批

财经要闻

618国补贴钱反涨价 美的深陷价格魔术漩涡

汽车要闻

荣威M7 DMH外观官图发布 预计将于下半年正式上市

态度原创

艺术
时尚
手机
家居
公开课

艺术要闻

故宫珍藏的墨迹《十七帖》,比拓本更精良,这才是地道的魏晋写法

夏天这4件衣服别瞎买!一不小心就显胖显矮

手机要闻

华为 Pura 80 Ultra 手机一镜双目长焦镜头包含 143 个零部件

家居要闻

远行而归 台式极简布局

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版