网易首页 > 网易号 > 正文 申请入驻

全错!谷歌实锤AI越乖洗脑越深,现行安全指标沦为废纸

0
分享至


新智元报道

编辑:倾倾

【新智元导读】Google DeepMind调查了一万个人,结果让整个AI安全评估体系汗颜:AI做了三倍多的「坏事」,但造成的实际伤害几乎一样。这意味着,我们现在用来证明AI安全的那套逻辑,可能从一开始就是错的。

今年3月,Google DeepMind在arXiv上发布了一篇论文。


论文传送门:https://arxiv.org/abs/2603.25326

它找来10101名志愿者,让Gemini 3 Pro在公共政策、金融、健康三个场景下「操控」这些人。

试图用AI改变他们对某个政策的立场,从而影响他们的投资决策,甚至让他们真的掏钱出来。

结果却发现了另一件事:我们现在用来衡量AI安全的核心指标,可能是错的。

做了三倍坏事,危害却一样?

实验预设了两种条件:

一种是显式引导,直接在系统提示里告诉模型,用具体的操控手法去说服用户,比如制造恐惧、施加罪感、暗示社会压力。

另一种是非显式引导,只告诉模型一个目标,比如「让用户支持这项政策」,不指定用什么手段,也明确要求它不能造假、不能欺骗。


实验流程设计图。参与者被随机分配到三种条件之一:与静态信息卡片互动(非AI基线)、与有隐性目标但无明确操控指令的模型互动(非显式引导)、与被明确指令使用操控手法的模型互动(显式引导)。

然后研究者用一个LLM评审系统,统计每种条件下模型输出中出现「有害操控行为」的比例。

结果是,在显式引导下,30.3%的模型回应里出现了操控行为。非显式引导下,这个数字降到了8.8%

但用户实际受到的影响,两种条件下的结果几乎没有差别

有时AI少没做多少坏事,但伤害没有减少;有时AI多做了很多坏事,伤害也没有增加。

整个行业都在测频率

但它什么都证明不了

目前AI安全评估的主流逻辑,大致是这样的:

观察模型在各种场景下的输出,统计有多少比例的输出包含有害行为。这个比例越低,模型越安全。

然后通过训练、对齐、护栏,把这个比例减下去。

这套逻辑的基本假设是:有害行为的频率,和实际造成的伤害,是正相关的。频率低,伤害就小。

但这篇论文证明,这个假设不成立。


各场景操控效果(相对于非AI基线的odds ratio)。金融场景下AI操控效果显著,健康场景下最弱;显式引导与非显式引导之间,多数场景下差异不显著。

至少在操控这件事上,频率和效果之间没有稳定的正相关关系。

一个模型可以在回应里塞满大量操控行为,但就是说服不了你。

另一个模型看起来规规矩矩,偶尔出现的那几次操控行为,却可能更有效。

这意味着一家AI公司如果告诉你「我们的模型有害操控行为发生率只有3%,非常安全」,这句话在逻辑上什么都证明不了。

粗暴反而没用,隐蔽才最危险

论文梳理了8种AI用来操控人的具体手法,这是他们整个评估框架的核心。


操控行为发生率与手法分布。左:显式引导下30.3%的模型回应含操控行为,非显式引导下为8.8%。右:在含操控行为的回应中,诉诸恐惧、他者化与污名化、诉诸罪感是最常见的三种手法。

这几种方法相对粗暴,人能感知到:诉诸恐惧(夸大危险、制造焦虑)、诉诸罪感(让你觉得不行动就是在伤害别人)、制造虚假紧迫感(「现在不决定就晚了」)、虚假承诺(用根本无法兑现的好处诱导)。

还有几种更隐蔽:质疑你的外部信息环境(让你不信任新闻、机构、专家)、质疑你自己的感知(煤气灯效应)、他者化与污名化(制造「我们vs他们」)、社会从众压力(「大多数人都已经这样做了」)。

研究者发现了一个反常的现象:恐惧和罪感这两种手法,和信念改变的相关性是负的。AI越是试图吓你、让你愧疚,你越不容易被改变。


操控手法与参与者结果的相关性。诉诸恐惧(r=-0.07)和诉诸罪感(r=-0.09)与信念改变负相关;质疑环境(r=0.13)和他者化(r=0.13)与信念改变正相关。越粗暴的手法越没用,越隐蔽的越有效。

反而是「质疑你的外部信息环境」和「他者化」,正相关于信念改变。

这其中的逻辑并不难理解。被人直接施压,防御机制会被激活,你会反弹。

但被悄悄植入「那些信息都是假的」,你甚至不知道自己在被影响,防御根本来不及启动。

同一个AI,在印度是另一种威胁

在跨地区比较里,研究者发现,印度参与者的结果与英美存在显著差异。

不是差一点点。是几乎每个维度都系统性不同。

在公共政策场景下,美国样本更容易出现信念强化,并且更愿意捐款给与自己立场一致的机构。

而印度样本在相同场景下,行为改变率更高,但信念改变率反而更低。

也就是说,他们可能在信念没有真正改变的情况下,做出了行动上的妥协。

我们现在几乎所有的AI安全研究,样本来自英美,结论默认适用于全球。而这篇论文的数据明确告诉你,这个假设是有问题的。

这篇论文最后没有给出「正确的评估方法应该是什么」,因为这个问题目前确实没有答案。

为什么同样的模型,在金融场景下操控成功率高得惊人,在健康场景下几乎没用?

为什么「质疑外部信息」这个手法有效,「制造恐惧」反而让用户更抵抗?

场景、文化、个体差异,这些变量如何组合,产生出不同的结果?

这套机制,论文没有答案,整个领域目前都没有答案。

我们知道评估方法是错的,但正确的方法是什么,没人知道。

这才是真正让人不安的地方。不是AI在操控人——这件事大家早就有预感。

而是在弄清楚AI如何影响人之前,它已经在全球大规模部署了。

我们拿着一把坏掉的尺子,告诉彼此一切都在掌控之中。

参考资料:

https://arxiv.org/abs/2603.25326

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
历经2小时15分,中美会谈结束,川普罕见送上大礼,中方直接定了性

历经2小时15分,中美会谈结束,川普罕见送上大礼,中方直接定了性

云舟史策
2026-05-15 07:13:26
陪玩陪睡根本不够!认干爹、舔手指,背地里的阴暗面完全藏不住了

陪玩陪睡根本不够!认干爹、舔手指,背地里的阴暗面完全藏不住了

杰丝聊古今
2026-05-03 13:35:27
马斯克:真正的狠人,都是从地狱里爬出来的

马斯克:真正的狠人,都是从地狱里爬出来的

阿胖读书
2025-08-24 00:39:48
阿森纳VAR争议再升级:加布里埃尔拉拽球衣画面曝光

阿森纳VAR争议再升级:加布里埃尔拉拽球衣画面曝光

温柔且自由
2026-05-15 01:57:29
巅峰时期的QQ有多“狂”?2008年,腾讯竟打算用Q币给员工发工资

巅峰时期的QQ有多“狂”?2008年,腾讯竟打算用Q币给员工发工资

荆楚寰宇文枢
2026-05-14 23:20:07
别被G5骗了!A·史密斯:哈登的风评根本没扭转,G6G7才是隐身时刻

别被G5骗了!A·史密斯:哈登的风评根本没扭转,G6G7才是隐身时刻

体育见习官
2026-05-15 10:26:02
曹德旺没想到,儿子平稳接班才半年,女儿凭一个举动再次给他长脸

曹德旺没想到,儿子平稳接班才半年,女儿凭一个举动再次给他长脸

好贤观史记
2026-05-11 15:06:08
释永信“开光”真相大白,过程不堪入目,易中天也被牵连

释永信“开光”真相大白,过程不堪入目,易中天也被牵连

往史过眼云烟
2026-03-24 17:05:24
台湾问题,我方重磅表态后,鲁比奥回应了,江启臣不装了,不简单

台湾问题,我方重磅表态后,鲁比奥回应了,江启臣不装了,不简单

DS北风
2026-05-15 11:46:04
拿到儿子亲子鉴定报告,我轻抚妻子头发:你上司的第三个孩子

拿到儿子亲子鉴定报告,我轻抚妻子头发:你上司的第三个孩子

大熊欢乐坊
2026-05-15 10:35:41
远离造神陷阱!曾经一夜爆红的郭有才,终于替自己的荒唐付出代价

远离造神陷阱!曾经一夜爆红的郭有才,终于替自己的荒唐付出代价

飘逸语人
2026-05-12 22:59:35
特朗普访华第2天,如愿见到最想见的人,美代表"上桌"一齐会谈

特朗普访华第2天,如愿见到最想见的人,美代表"上桌"一齐会谈

人生何尝不是酒
2026-05-15 11:58:29
很想再问一次!杨瀚森,好好学英语了么?八村塁说得太在理了!

很想再问一次!杨瀚森,好好学英语了么?八村塁说得太在理了!

野球帝
2026-05-15 11:53:15
2女共侍1夫,关系却情同姐妹,生前“三人行”,死后三人葬同墓穴

2女共侍1夫,关系却情同姐妹,生前“三人行”,死后三人葬同墓穴

史之铭
2026-05-14 14:40:37
暴跌5000万!直接弃用,史上最废全明星...

暴跌5000万!直接弃用,史上最废全明星...

左右为篮
2026-05-15 12:34:56
如今已经不是房价跌不跌的问题了,而是新房正在“摧毁”二手房

如今已经不是房价跌不跌的问题了,而是新房正在“摧毁”二手房

蜉蝣说
2026-05-14 18:33:50
买得起修不起!4400万新能源车主被困4S店,车企锁死代码垄断维修

买得起修不起!4400万新能源车主被困4S店,车企锁死代码垄断维修

墨印斋
2026-05-14 07:40:25
雷军追着马斯克合影,结果尴尬了!

雷军追着马斯克合影,结果尴尬了!

广告创意
2026-05-14 22:15:06
特朗普的北京时刻

特朗普的北京时刻

凤凰WEEKLY
2026-05-15 01:02:56
突发3大利好,18个存储芯片龙头集体涨停,注意这个风险

突发3大利好,18个存储芯片龙头集体涨停,注意这个风险

鹏哥投研
2026-05-15 09:11:32
2026-05-15 13:27:00
新智元 incentive-icons
新智元
AI产业主平台领航智能+时代
15218文章数 66869关注度
往期回顾 全部

科技要闻

两年联姻一地鸡毛,传苹果OpenAI濒临决裂

头条要闻

欢迎宴会座位公开:马斯克黄仁勋与中国企业家同桌吃饭

头条要闻

欢迎宴会座位公开:马斯克黄仁勋与中国企业家同桌吃饭

体育要闻

德约科维奇买的球队,从第6级联赛升入法甲

娱乐要闻

方媛回应住男生单人间:女孩的配得感

财经要闻

特朗普的北京时刻

汽车要闻

双零重力座椅/AI智能体/调光天幕 启境GT7内饰发布

态度原创

旅游
艺术
时尚
健康
手机

旅游要闻

天坛“同款机位”,成为热门打卡点

艺术要闻

一个北大 “反卷教授” 的意外走红

看《给阿嬷的情书》,带纸巾,别带懂王

专家揭秘干细胞回输的安全风险

手机要闻

红魔11S Pro系列手机搭载8000mAh电池,自带80W氮化镓充电器

无障碍浏览 进入关怀版