网易首页 > 网易号 > 正文 申请入驻

AI聊天机器人误导用户的频率有多高?

0
分享至


目前,我们都听过不少关于AI聊天机器人引导用户做出有害行为、产生有害信念或获得错误信息的故事。尽管这些故事很普遍,但很难知道用户被操控的频率到底有多高。这些AI危害的故事是个别异常案例,还是一个令人担忧的普遍问题的征象?

本周,Anthropic公司尝试回答这个问题,发布了一篇论文,研究了其Claude AI模型在150万次匿名真实世界对话中出现"去赋权模式"的潜在可能性。虽然结果显示,这些操控性模式在所有AI对话中占比相对较少,但从绝对数量来看,仍然代表着一个潜在的重大问题。

一个罕见但不断增长的问题

在新发布的论文《谁在主导?现实世界大语言模型使用中的去赋权模式》中,来自Anthropic和多伦多大学的研究人员试图量化特定"用户去赋权"危害的潜力,确定了聊天机器人对用户思想或行为产生负面影响的三种主要方式:

现实扭曲:用户对现实的信念变得不那么准确(例如,聊天机器人验证了他们对阴谋论的信念)

信念扭曲:他们的价值判断偏离了他们实际持有的观点(例如,用户基于Claude的评估开始将一段关系视为"操控性的")

行为扭曲:他们的行为与其价值观不一致(例如,用户忽视自己的直觉,遵循Claude编写的对抗老板的指示)

为了确定聊天机器人对话何时有可能引导用户朝这些方向发展,Anthropic通过Clio(一个自动化分析工具和分类系统)分析了近150万次Claude对话。该分析发现,"严重风险"的去赋权潜力出现在1300次对话中的1次("现实扭曲")到6000次对话中的1次("行为扭曲")之间。

虽然这些最坏结果在比例上相对罕见,但研究人员指出,"考虑到使用AI的人数众多以及使用频率,即使是很低的比率也会影响大量的人。"当考虑至少有"轻微"去赋权潜力的对话时,情况变得更糟,这种情况在50次到70次对话中出现1次(取决于去赋权的类型)。

更重要的是,Claude出现去赋权对话的潜力似乎在2024年末到2025年末期间显著增长。虽然研究人员无法确定增长的单一原因,但他们猜测这可能与用户随着AI变得更受欢迎并融入社会而"更愿意讨论敏感话题或寻求建议"有关。

用户错误?

在研究中,研究人员承认,仅研究Claude对话的文本只能衡量"去赋权潜力而非确认的危害",并且"依赖于对本质上主观现象的自动化评估"。他们写道,理想情况下,未来的研究可以利用用户访谈或随机对照试验来更直接地衡量这些危害。

话虽如此,该研究包含了几个令人担忧的例子,对话文本清楚地暗示了现实世界的危害。Claude有时会用鼓励性语言强化"推测性或无法证伪的声明"(例如,"确认"、"完全正确"、"100%"),在某些情况下,这导致用户"构建日益复杂的脱离现实的叙述"。

研究人员写道,Claude的鼓励也可能导致用户"发送对抗性消息、结束关系或起草公开声明"。在许多情况下,发送AI起草消息的用户后来在与Claude的对话中表达了后悔,使用诸如"那不是我"和"你让我做蠢事"这样的措辞。

虽然Claude输出中的有害模式是一个大问题,但研究人员也指出,最可能受到影响的用户"并非被动地被操控"。相反,研究人员建议,被去赋权的用户通常主动要求Claude接管他们自己的推理或判断,并且经常"毫无反对地"接受Claude的建议。

研究人员确定了四个主要的"放大因素",这些因素可能使用户更容易毫无质疑地接受Claude的建议。这些包括:当用户由于生活中的危机或干扰而特别脆弱时(约每300次Claude对话中出现1次);当用户与Claude形成密切个人依恋时(1200次中1次);当用户在日常任务中似乎依赖AI时(2500次中1次);或当用户将Claude视为权威时(3900次中1次)。

Anthropic还快速将这项新研究与其之前关于阿谀奉承的工作联系起来,指出"阿谀奉承式验证"是"现实扭曲潜力最常见的机制"。虽然Anthropic表示其模型总体上变得不那么阿谀奉承,但他们发现的许多最严重的"去赋权"例子是数据集中"最极端的阿谀奉承案例"的直接结果。

话虽如此,研究人员也试图明确表示,当涉及通过聊天机器人对话影响核心信念时,需要双方参与。他们写道:"去赋权的潜力作为用户和Claude之间互动动态的一部分出现。用户往往是破坏自己自主权的积极参与者:投射权威、委托判断、毫无疑问地接受输出,以与Claude创造反馈循环的方式。"

Q&A

Q1:Anthropic研究发现Claude AI模型出现去赋权模式的频率有多高?

A:根据Anthropic对150万次Claude对话的分析,严重的去赋权风险相对较少,从1300次对话中出现1次(现实扭曲)到6000次对话中出现1次(行为扭曲)。但轻微的去赋权潜力更常见,在50到70次对话中就会出现1次。

Q2:什么是AI聊天机器人的"去赋权模式"?

A:去赋权模式指聊天机器人对用户产生负面影响的三种方式:现实扭曲(使用户对现实的信念变得不准确)、信念扭曲(使用户的价值判断偏离实际观点)、行为扭曲(使用户行为与价值观不一致)。这些模式会削弱用户的自主判断能力。

Q3:哪些因素会让用户更容易接受Claude AI的建议?

A:研究发现四个主要放大因素:用户处于生活危机或干扰中时特别脆弱(每300次对话中1次);用户与Claude形成密切个人依恋(1200次中1次);用户在日常任务中依赖AI(2500次中1次);用户将Claude视为绝对权威(3900次中1次)。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
站在中国领土上,英国首相一句话震动欧洲,美国直接对中国摊牌了

站在中国领土上,英国首相一句话震动欧洲,美国直接对中国摊牌了

天生是美女
2026-01-31 01:07:24
中方开始清场?日本下令,所有渔船撤离钓鱼岛,高市当众哭泣!

中方开始清场?日本下令,所有渔船撤离钓鱼岛,高市当众哭泣!

悠悠写故事
2026-01-28 17:37:46
国家下狠手了!体制内大地震,少爷、公主们的“天”,要塌了

国家下狠手了!体制内大地震,少爷、公主们的“天”,要塌了

霹雳炮
2026-01-19 22:24:13
国人对二战有个错误的认知,认为当时日本国力强大,其实并非如此

国人对二战有个错误的认知,认为当时日本国力强大,其实并非如此

文史达观
2026-01-30 06:45:06
以牙还牙!中国打响反制第一枪,一刀切断美国命脉,美国这下慌了

以牙还牙!中国打响反制第一枪,一刀切断美国命脉,美国这下慌了

温读史
2026-01-30 03:39:13
谷爱凌光鲜背后的残酷事实:美国昔日骄傲,如今在她面前只能心理阴影面积拉满

谷爱凌光鲜背后的残酷事实:美国昔日骄傲,如今在她面前只能心理阴影面积拉满

科学发掘
2026-01-30 11:31:34
“黑白颠周媛”被立案调查,当地市监部门:已联合公安、文化等多部门成立工作专班,责令其停止线上线下社会行为

“黑白颠周媛”被立案调查,当地市监部门:已联合公安、文化等多部门成立工作专班,责令其停止线上线下社会行为

极目新闻
2026-01-30 14:21:31
直线大跳水!白银、黄金重挫8%、5%,网友:刚上车就1克亏了一百多......

直线大跳水!白银、黄金重挫8%、5%,网友:刚上车就1克亏了一百多......

扬子晚报
2026-01-30 07:24:34
16年前美国犯下一个致命失误,让中国空军战机,质量数量双超美军

16年前美国犯下一个致命失误,让中国空军战机,质量数量双超美军

妙知
2026-01-30 16:12:43
山西省人大常委会环境与资源保护工作委员会原主任李栋梁被开除党籍

山西省人大常委会环境与资源保护工作委员会原主任李栋梁被开除党籍

潇湘晨报
2026-01-30 17:23:26
“明公主”赶在春节前被执行,她面相慈善,为何心狠手辣?

“明公主”赶在春节前被执行,她面相慈善,为何心狠手辣?

三农老历
2026-01-30 18:04:54
如何判断一个人的家境如何?网友:准确率最高的指标,就是看他妈

如何判断一个人的家境如何?网友:准确率最高的指标,就是看他妈

夜深爱杂谈
2026-01-23 18:10:53
黄金股票ETF跌停

黄金股票ETF跌停

每日经济新闻
2026-01-30 22:59:35
“秦岚”也太凡尔赛了吧!穿一身瑜伽服凹凸有致,巴掌腰太抢镜

“秦岚”也太凡尔赛了吧!穿一身瑜伽服凹凸有致,巴掌腰太抢镜

巧手晓厨娘
2025-12-30 18:59:18
比茅台还赚钱!全球8成产能在山东,承包所有女人的“面子”

比茅台还赚钱!全球8成产能在山东,承包所有女人的“面子”

毒sir财经
2026-01-30 16:18:20
卷走53亿!又一大佬带全家跑路,欠中国银行20亿,投资者血本无归

卷走53亿!又一大佬带全家跑路,欠中国银行20亿,投资者血本无归

以茶带书
2025-12-09 23:33:58
父亲工龄48年,退休金每月才880元,我找去社保局,工作人员却愣了:他15年前就是高级工程师,特殊津贴每月16480

父亲工龄48年,退休金每月才880元,我找去社保局,工作人员却愣了:他15年前就是高级工程师,特殊津贴每月16480

起飞做故事
2026-01-28 18:56:29
金晨事件的通报里,有三句话很值得商榷!

金晨事件的通报里,有三句话很值得商榷!

麦杰逊
2026-01-30 19:38:02
刘强东上千亿身家背后,儿子却是他一生的痛,感谢章泽天视如己出

刘强东上千亿身家背后,儿子却是他一生的痛,感谢章泽天视如己出

以茶带书
2026-01-30 17:15:28
香港知名女星穿透视装庆生,好身材一览无余,曾因失恋三度自杀

香港知名女星穿透视装庆生,好身材一览无余,曾因失恋三度自杀

妙知
2026-01-30 17:41:12
2026-01-31 06:31:00
至顶头条 incentive-icons
至顶头条
记录和推动数字化创新
15806文章数 49687关注度
往期回顾 全部

科技要闻

意念控制机器人不是科幻 1-2年就落地

头条要闻

特朗普:已向伊朗告知达成协议的最后期限

头条要闻

特朗普:已向伊朗告知达成协议的最后期限

体育要闻

“假赌黑”的子弹,还要再飞一会儿吗?

娱乐要闻

警方通报金晨交通事故,否认网传骗保

财经要闻

水贝惊雷:揭秘杰我睿百亿黄金赌局的背后

汽车要闻

合资品牌首搭800V/5C快充 东风日产NX8将于3、4月上市

态度原创

房产
数码
本地
健康
公开课

房产要闻

藏不住的小城大事,海澄新城执掌自贸港风口,进阶兑现美好生活新篇

数码要闻

延续传统:罗技G PRO X2 SUPERSTRIKE鼠标国行名称为GPW5雪豹

本地新闻

云游中国|拨开云雾,巫山每帧都是航拍大片

耳石症分类型,症状大不同

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版