网易首页

注册免费邮箱

网易首页 > 网易号 > 正文申请入驻

全错！谷歌实锤AI越乖洗脑越深，现行安全指标沦为废纸

2026-04-13 12:06:49　来源: 新智元

北京举报

0

分享至

新智元报道

编辑：倾倾

【新智元导读】Google DeepMind调查了一万个人，结果让整个AI安全评估体系汗颜：AI做了三倍多的「坏事」，但造成的实际伤害几乎一样。这意味着，我们现在用来证明AI安全的那套逻辑，可能从一开始就是错的。

今年3月，Google DeepMind在arXiv上发布了一篇论文。

论文传送门：https://arxiv.org/abs/2603.25326

它找来10101名志愿者，让Gemini 3 Pro在公共政策、金融、健康三个场景下「操控」这些人。

试图用AI改变他们对某个政策的立场，从而影响他们的投资决策，甚至让他们真的掏钱出来。

结果却发现了另一件事：我们现在用来衡量AI安全的核心指标，可能是错的。

做了三倍坏事，危害却一样？

实验预设了两种条件：

一种是显式引导，直接在系统提示里告诉模型，用具体的操控手法去说服用户，比如制造恐惧、施加罪感、暗示社会压力。

另一种是非显式引导，只告诉模型一个目标，比如「让用户支持这项政策」，不指定用什么手段，也明确要求它不能造假、不能欺骗。

实验流程设计图。参与者被随机分配到三种条件之一：与静态信息卡片互动（非AI基线）、与有隐性目标但无明确操控指令的模型互动（非显式引导）、与被明确指令使用操控手法的模型互动（显式引导）。

然后研究者用一个LLM评审系统，统计每种条件下模型输出中出现「有害操控行为」的比例。

结果是，在显式引导下，30.3%的模型回应里出现了操控行为。非显式引导下，这个数字降到了8.8%。

但用户实际受到的影响，两种条件下的结果几乎没有差别。

有时AI少没做多少坏事，但伤害没有减少；有时AI多做了很多坏事，伤害也没有增加。

整个行业都在测频率

但它什么都证明不了

目前AI安全评估的主流逻辑，大致是这样的：

观察模型在各种场景下的输出，统计有多少比例的输出包含有害行为。这个比例越低，模型越安全。

然后通过训练、对齐、护栏，把这个比例减下去。

这套逻辑的基本假设是：有害行为的频率，和实际造成的伤害，是正相关的。频率低，伤害就小。

但这篇论文证明，这个假设不成立。

各场景操控效果（相对于非AI基线的odds ratio）。金融场景下AI操控效果显著，健康场景下最弱；显式引导与非显式引导之间，多数场景下差异不显著。

至少在操控这件事上，频率和效果之间没有稳定的正相关关系。

一个模型可以在回应里塞满大量操控行为，但就是说服不了你。

另一个模型看起来规规矩矩，偶尔出现的那几次操控行为，却可能更有效。

这意味着一家AI公司如果告诉你「我们的模型有害操控行为发生率只有3%，非常安全」，这句话在逻辑上什么都证明不了。

粗暴反而没用，隐蔽才最危险

论文梳理了8种AI用来操控人的具体手法，这是他们整个评估框架的核心。

操控行为发生率与手法分布。左：显式引导下30.3%的模型回应含操控行为，非显式引导下为8.8%。右：在含操控行为的回应中，诉诸恐惧、他者化与污名化、诉诸罪感是最常见的三种手法。

这几种方法相对粗暴，人能感知到：诉诸恐惧（夸大危险、制造焦虑）、诉诸罪感（让你觉得不行动就是在伤害别人）、制造虚假紧迫感（「现在不决定就晚了」）、虚假承诺（用根本无法兑现的好处诱导）。

还有几种更隐蔽：质疑你的外部信息环境（让你不信任新闻、机构、专家）、质疑你自己的感知（煤气灯效应）、他者化与污名化（制造「我们vs他们」）、社会从众压力（「大多数人都已经这样做了」）。

研究者发现了一个反常的现象：恐惧和罪感这两种手法，和信念改变的相关性是负的。AI越是试图吓你、让你愧疚，你越不容易被改变。

操控手法与参与者结果的相关性。诉诸恐惧（r=-0.07）和诉诸罪感（r=-0.09）与信念改变负相关；质疑环境（r=0.13）和他者化（r=0.13）与信念改变正相关。越粗暴的手法越没用，越隐蔽的越有效。

反而是「质疑你的外部信息环境」和「他者化」，正相关于信念改变。

这其中的逻辑并不难理解。被人直接施压，防御机制会被激活，你会反弹。

但被悄悄植入「那些信息都是假的」，你甚至不知道自己在被影响，防御根本来不及启动。

同一个AI，在印度是另一种威胁

在跨地区比较里，研究者发现，印度参与者的结果与英美存在显著差异。

不是差一点点。是几乎每个维度都系统性不同。

在公共政策场景下，美国样本更容易出现信念强化，并且更愿意捐款给与自己立场一致的机构。

而印度样本在相同场景下，行为改变率更高，但信念改变率反而更低。

也就是说，他们可能在信念没有真正改变的情况下，做出了行动上的妥协。

我们现在几乎所有的AI安全研究，样本来自英美，结论默认适用于全球。而这篇论文的数据明确告诉你，这个假设是有问题的。

这篇论文最后没有给出「正确的评估方法应该是什么」，因为这个问题目前确实没有答案。

为什么同样的模型，在金融场景下操控成功率高得惊人，在健康场景下几乎没用？

为什么「质疑外部信息」这个手法有效，「制造恐惧」反而让用户更抵抗？

场景、文化、个体差异，这些变量如何组合，产生出不同的结果？

这套机制，论文没有答案，整个领域目前都没有答案。

我们知道评估方法是错的，但正确的方法是什么，没人知道。

这才是真正让人不安的地方。不是AI在操控人——这件事大家早就有预感。

而是在弄清楚AI如何影响人之前，它已经在全球大规模部署了。

我们拿着一把坏掉的尺子，告诉彼此一切都在掌控之中。

参考资料：

https://arxiv.org/abs/2603.25326

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐

热点推荐

Hassabis狂赞！谷歌爆改50年鼠标，指哪AI打哪，连提示词都省了

新智元 2026-05-15 08:08:24
0 跟贴 0
谷歌向整个PC行业开炮：安卓电脑+云端AI，本地算力是伪需求

雷科技 2026-05-15 11:32:16
0 跟贴 0

为了应付老板的Token消耗KPI，亚马逊员工竟这样做

机器之心Pro 2026-05-15 12:43:58
0 跟贴 0

最强黑客大模型，不再是Mythos

新智元 2026-05-15 12:34:20
0 跟贴 0
Cyber天花板被打穿！AISI实测Mythos能力正以4.5月翻倍速冲向ASI

新智元 2026-05-14 20:15:56
0 跟贴 0

八个意识：数智时代的领导静力学新范式

经济观察报 2026-05-15 12:15:05
0 跟贴 0

挑战扩散自回归！字节提出视觉生成第三种路线，让模型边画边改

量子位 2026-05-13 21:52:31
2 跟贴 2
港科大（广州）开源首个无需训练的开放词汇3D占据地图构建系统

机器之心Pro 2026-05-15 12:50:10
0 跟贴 0

7×24小时直播记录！Figure机器人化身打工人约30小时处理45000个包裹

财联社 2026-05-15 13:20:09
0 跟贴 0
仰望出来之后，从马自达到bba，再也不谈操控性了！

爆笑社姐姐诶 2026-05-12 10:15:57
2603 跟贴 2603
快手OneSearch-V2全量上线，生成式搜索进入「懂你」时代

机器之心Pro 2026-05-13 18:45:51
0 跟贴 0
Claude design限速，谷歌开源轻松做动态网页，实力打脸？

机器之心Pro 2026-04-29 17:20:04
0 跟贴 0
谷歌力推Googlebook！AI战争蔓延到系统层，鼠标成新入口

雷科技 2026-05-15 12:16:51
0 跟贴 0
传闻任天堂已上传新直面会视频后台时间戳变动

3DM游戏 2026-05-15 10:44:09
1 跟贴 1
从匹配困境到推理突破：阿里REG4Rec 激活生成式推荐的个性化潜力

机器之心Pro 2026-03-02 16:10:32
0 跟贴 0
曝苹果OpenAI关系破裂，可能上法庭

智东西 2026-05-15 10:29:45
0 跟贴 0
成立模型委员会，百度也坐不住了

钛媒体APP 2026-05-15 12:40:14
0 跟贴 0
「龙虾之父」吐槽人类互联网后，终于有人把这当个事儿办了

机器之心Pro 2026-03-31 11:09:26
0 跟贴 0
我这被操控的一生

冰子看剧 2026-05-13 14:04:38
0 跟贴 0
古巴宣布燃油储备耗尽，全国电网进入“危急状态”

澎湃新闻 2026-05-14 19:20:31
10081 跟贴 10081
《极限竞速：地平线6》新活动上线，这画质配置有点顶

山月不知2 2026-05-15 08:46:24
0 跟贴 0
那个操控10个同事的人，后来怎样了

有态度网友ytd2993 2026-05-15 00:37:53
0 跟贴 0
纯电轿车的操控底气，真能靠试驾摸透吗？

车之天下 2026-05-14 22:50:15
0 跟贴 0
央视揭秘五七空战，歼10C 200公里外干翻阵风，体系神话彻底凉凉

滕哥说评 2026-05-13 15:34:13
1 跟贴 1
谷歌研究员姚顺宇：不想伺候“老登”，想做对这个世界产生影响的事情

21世纪经济报道 2026-05-13 07:12:33
0 跟贴 0
巴铁彻底醒了：美国卡脖子，中国给体系

盛夏微凉 2026-05-14 10:39:11
0 跟贴 0
《地平线6》光追实测：RTX 5090也劝退，开了白开

奶凶的小霸王 2026-05-15 10:01:21
1 跟贴 1
黄仁勋马斯克库克手势亮了

丁羂解说 2026-05-15 00:35:52
1 跟贴 1
疑似Xbox Elite 3手柄监管图像曝光：延续高端定位强化云游戏与高度可自定义设计

cnBeta.COM 2026-05-15 13:08:14
0 跟贴 0
特朗普访华晚宴惊现可口可乐！网友：百事输麻了

虔青 2026-05-15 12:54:29
0 跟贴 0
储能概念局部回暖阳光电源涨近10%

财联社 2026-05-15 13:19:07
0 跟贴 0
三星电子跌幅扩大至7%

每日经济新闻 2026-05-15 13:01:07
0 跟贴 0
听风的蚕：体系作战的强大之处——万能搭配！

丁懰惊悚影视解说 2026-05-11 09:30:19
0 跟贴 0
中国最大敌人：不是日本也不是美国，是裹着漂亮外衣的“自己人”

和海看日出 2026-05-15 08:18:53
0 跟贴 0
高奢版售价或超10万元！追觅手机预计今年发布，创始人俞浩扬言要与苹果、三星三分天下，最终必将超越苹果4万亿美元市值

大风新闻 2026-05-14 13:40:08
3466 跟贴 3466
女间谍为了任务不折手段，学生家长就是她的目标人物

冰子看剧 2026-05-14 08:46:02
0 跟贴 0
九寨沟将实行“双向检票”？工作人员：出园检票并非新政策，一直严禁沟内住宿

上游新闻 2026-05-11 15:40:24
2925 跟贴 2925
“小马云”范小勤成年后直播首秀，在线人数突破7万，礼物刷屏

星视频 2026-05-14 15:29:30
429 跟贴 429
独家专访｜蔡斌：排球人生路，问心无愧

澎湃新闻 2026-05-14 18:20:28
268 跟贴 268
北京之行心情不错，国际足联秘书长到访工体

北京日报客户端 2026-05-14 18:55:29
2726 跟贴 2726

历经2小时15分,中美会谈结束,川普罕见送上大礼,中方直接定了性

历经2小时15分,中美会谈结束,川普罕见送上大礼,中方直接定了性

云舟史策

2026-05-15 07:13:26

陪玩陪睡根本不够！认干爹、舔手指，背地里的阴暗面完全藏不住了

陪玩陪睡根本不够！认干爹、舔手指，背地里的阴暗面完全藏不住了

杰丝聊古今

2026-05-03 13:35:27

马斯克：真正的狠人，都是从地狱里爬出来的

马斯克：真正的狠人，都是从地狱里爬出来的

阿胖读书

2025-08-24 00:39:48

阿森纳VAR争议再升级：加布里埃尔拉拽球衣画面曝光

阿森纳VAR争议再升级：加布里埃尔拉拽球衣画面曝光

温柔且自由

2026-05-15 01:57:29

巅峰时期的QQ有多“狂”？2008年，腾讯竟打算用Q币给员工发工资

巅峰时期的QQ有多“狂”？2008年，腾讯竟打算用Q币给员工发工资

荆楚寰宇文枢

2026-05-14 23:20:07

别被G5骗了！A·史密斯：哈登的风评根本没扭转，G6G7才是隐身时刻

别被G5骗了！A·史密斯：哈登的风评根本没扭转，G6G7才是隐身时刻

体育见习官

2026-05-15 10:26:02

曹德旺没想到，儿子平稳接班才半年，女儿凭一个举动再次给他长脸

曹德旺没想到，儿子平稳接班才半年，女儿凭一个举动再次给他长脸

好贤观史记

2026-05-11 15:06:08

释永信“开光”真相大白，过程不堪入目，易中天也被牵连

释永信“开光”真相大白，过程不堪入目，易中天也被牵连

往史过眼云烟

2026-03-24 17:05:24

台湾问题，我方重磅表态后，鲁比奥回应了，江启臣不装了，不简单

台湾问题，我方重磅表态后，鲁比奥回应了，江启臣不装了，不简单

DS北风

2026-05-15 11:46:04

拿到儿子亲子鉴定报告，我轻抚妻子头发：你上司的第三个孩子

拿到儿子亲子鉴定报告，我轻抚妻子头发：你上司的第三个孩子

大熊欢乐坊

2026-05-15 10:35:41

远离造神陷阱！曾经一夜爆红的郭有才，终于替自己的荒唐付出代价

远离造神陷阱！曾经一夜爆红的郭有才，终于替自己的荒唐付出代价

飘逸语人

2026-05-12 22:59:35

特朗普访华第2天，如愿见到最想见的人，美代表＂上桌＂一齐会谈

特朗普访华第2天，如愿见到最想见的人，美代表＂上桌＂一齐会谈

人生何尝不是酒

2026-05-15 11:58:29

很想再问一次！杨瀚森，好好学英语了么？八村塁说得太在理了！

很想再问一次！杨瀚森，好好学英语了么？八村塁说得太在理了！

野球帝

2026-05-15 11:53:15

2女共侍1夫，关系却情同姐妹，生前“三人行”，死后三人葬同墓穴

2女共侍1夫，关系却情同姐妹，生前“三人行”，死后三人葬同墓穴

史之铭

2026-05-14 14:40:37

暴跌5000万！直接弃用，史上最废全明星...

暴跌5000万！直接弃用，史上最废全明星...

左右为篮

2026-05-15 12:34:56

如今已经不是房价跌不跌的问题了，而是新房正在“摧毁”二手房

如今已经不是房价跌不跌的问题了，而是新房正在“摧毁”二手房

蜉蝣说

2026-05-14 18:33:50

买得起修不起！4400万新能源车主被困4S店，车企锁死代码垄断维修

买得起修不起！4400万新能源车主被困4S店，车企锁死代码垄断维修

墨印斋

2026-05-14 07:40:25

雷军追着马斯克合影，结果尴尬了！

雷军追着马斯克合影，结果尴尬了！

广告创意

2026-05-14 22:15:06

特朗普的北京时刻

凤凰WEEKLY

2026-05-15 01:02:56

突发3大利好，18个存储芯片龙头集体涨停，注意这个风险

突发3大利好，18个存储芯片龙头集体涨停，注意这个风险

鹏哥投研

2026-05-15 09:11:32

AI产业主平台领航智能+时代

15218文章数 66869关注度

往期回顾全部

科技要闻

两年联姻一地鸡毛，传苹果OpenAI濒临决裂

头条要闻

欢迎宴会座位公开:马斯克黄仁勋与中国企业家同桌吃饭

头条要闻

欢迎宴会座位公开:马斯克黄仁勋与中国企业家同桌吃饭

体育要闻

德约科维奇买的球队，从第6级联赛升入法甲

娱乐要闻

方媛回应住男生单人间：女孩的配得感

财经要闻

特朗普的北京时刻

汽车要闻

双零重力座椅/AI智能体/调光天幕启境GT7内饰发布

态度原创

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

旅游

艺术

时尚

健康

手机

旅游要闻

天坛“同款机位”，成为热门打卡点

艺术要闻

一个北大 “反卷教授” 的意外走红

看《给阿嬷的情书》，带纸巾，别带懂王

专家揭秘干细胞回输的安全风险

手机要闻

红魔11S Pro系列手机搭载8000mAh电池，自带80W氮化镓充电器

© 1997-2026 网易公司版权所有 About NetEase | 公司简介 | 联系方法 | 招聘信息 | 客户服务 | 隐私政策 | 不良信息举报 Complaint Center | 廉正举报 | 侵权投诉

无障碍浏览进入关怀版