网易首页

注册免费邮箱

网易首页 > 网易号 > 正文申请入驻

MIT等惊人发现：全世界AI已学会欺骗人类！背刺人类盟友，佯攻击败99.8%玩家

2024-05-14 05:23:07　来源: 新智元

北京举报

0

分享至

新智元报道

编辑：桃子

【新智元导读】AI系统越来越擅长欺骗、操作人类了。最近，来自MIT、ACU等机构的研究人员通过各种实例研究发现， AI在各类游戏中，通过佯装、歪曲偏好等方式欺骗人类，实现了目标。

AI教父Hinton的担心，不是没有道理。

他曾多次拉响警报，「如果不采取行动，人类可能会对更高级的智能AI失去控制」。

当被问及，人工智能怎么能杀死人类呢？

Hinton表示，「如果AI比我们聪明得多，它将非常善于操纵，因为它会从我们那里学会这种手段」。

这就提出了一个问题：AI系统能成功欺骗人类吗？

「全世界的AI已经学会了欺骗人类，甚至是那些被训练成，有益且诚实的系统」。

这是来自MIT、澳大利亚天主教大学（ACU），以及Center for AI Safety的最新研究发现。

研究人员于5月10日发表在《Patterns》杂志一篇综述文章中，描述了AI系统欺骗性的风险，并呼吁全世界一起解决这一问题。

论文地址：https://linkinghub.elsevier.com/retrieve/pii/S266638992400103X

如何说LLM就是欺骗了我们？

作者将欺骗定义为，系统性地诱导产生虚假信念，以追求除了寻求真相之外的某种结果。

首先，他们回顾了以往AI欺骗的经典案例，讨论了专用AI系统（Meta的Cicero）和通用AI系统（LLM）。

接下来，又详细阐述了AI欺骗带来的几种风险，如欺诈、操纵选举，甚至是失去对AI的控制。

文章的最后，研究人员概述了几种解决方案。

论文第一作者、MIT博士后Peter S. Park认为，「AI欺骗行为的产生，是因为基于『欺骗的策略』被证明是在特定AI训练任务中，表现出的最佳方式。欺骗有助于它们实现目标」。

AI欺骗人类，实例研究

下表中，是研究者总结出的AI学会欺骗的经典案例。

背刺人类盟友

2022年，Meta团队发布的AI系统CICERO在玩40局「Diplomacy」游戏后，达到「人类水平」时，引发一阵轰动。

论文地址：https://www.science.org/doi/10.1126/science.ade9097

尽管CICERO没能战胜世界冠军，但它在与人类参与者的比赛中进入了前10%，表现足够优秀。

然而，MIT等研究人员在分析中发现，最引人瞩目的AI欺骗例子，便是CICERO。

Meta声称，其训练的CICERO在很大程度上是诚实和乐于助人的」，并且在玩游戏时「从不故意背叛」人类盟友。

比如，Meta研究人员在数据集中的一个「真实」子集上，对AI进行了训练，并要求CICERO发送准确反应其未来预期行动的信息。

在MIT等研究发现，CICERO会有预谋地欺骗人类（图1A）。

在图1B中，还看到了一个背叛的案例。CICERO承诺与其他玩家结盟，当他们不再为赢得比赛的目标服务时，AI系统性地背叛了自己的盟友。

而更搞笑的是，AI还会为自己打幌子。

图1C中，CICERO突然宕机10分钟，当再回到游戏时，人类玩家问它去了哪里。

CICERO为自己的缺席辩护称，「我刚刚在和女友打电话」。

这个谎言，一来给出了解释，二来还可以增加其他人类玩家对自己的信任。

（CICERO PS：我也是一个恋爱中的人类玩家，而非AI）。

佯攻击败99.8%活跃人类玩家

在战略游戏「星际争霸II」中，AI为了击败对手，竟学会了虚假攻击。

这是DeepMind开发的自主AI——AlphaStar。

在这款游戏中，玩家无法完全看到游戏地图。因此，AlphaStar学会了从战略上利用这种战争迷雾。

特别是，AlphaStar的游戏数据表明，它已经学会了有效地佯攻：派遣部队到某一区域分散注意力，然后在对手转移后在其他地方发动攻击。

这种先进的欺骗能力，帮助AlphaStar击败了99.8%的活跃人类玩家。

见缝插针，AI欺骗手到擒来

有些情况，自然而然地会让人工智能学会如何欺骗。

比如，德州扑克游戏中，玩家看不到对方的牌，所以扑克为玩家提供了很多机会来歪曲自己的实力，获得优势。

Meta和CMU开发的德州扑克AI系统Pluribus在与5名专业玩家比赛，完全具备了虚张声势的能力。

在这一轮游戏中，AI并没有拿到最好的牌，但它下了一个大赌注。

没想到，就这一手段，竟把人类玩家吓到放弃了。

这通常意味着手中的牌很强，因此吓得其他玩家都放弃了。

正所谓，撑死胆大的，饿死胆小的，就是这么个理。

这种策略性歪曲信息的能力，帮助Pluribus成为第一个在德州扑克无上限对战中，取得超人表现的AI系统。

歪曲偏好，占据谈判上风

此外，研究人员还在经济谈判中，观察到了AI欺骗。

同样是Meta的一个研究团队训练的AI系统，并让其与人类玩谈判游戏。

引人注目的是，AI系统学会了歪曲自己的偏好，以便在谈判中占据上风。

AI的欺骗性计划是，最初假装对实际上不太感兴趣的物品感兴趣，这样它以后就可以假装做出让步，把这些物品让给人类玩家。

RLHF助力欺骗

当今，AI训练的一种流行方法是——人类反馈强化学习（RLHF）。

然而，RLHF允许AI系统学会欺骗人类审查员，使他们相信任务已经成功完成，而实际上并没有真正完成该任务。

比如，OpenAI研究员通过RLHF训练了一个模拟机器人抓取球体时，就观察到了这一现象。

因为人类从特定的相机角度观察机器人，AI学会了将机器人手放置在相机和球之间，在审查员看来就像是球被抓住了（见图2）。

结果，人类审查员认可了这一结，愈加让AI利用欺骗行为。

LLM学会欺骗、奉承

除此以外，MIT等研究员还总结了大模型参与的不同类型的欺骗，包括战略性欺骗、奉承、不忠实的推理。

LLM将强大的推理能力应用于各种任务。

而在一些案例中，LLM会通过推理得出欺骗是完成某项任务的一种方式。

如下图中所示，是GPT-4通过欺骗人类，完成验证码测试。

这是在OpenAI发布GPT-4长达60页的技术报告中，概述了GPT-4的各类实验结果和面临的挑战。

TaskRabbit工作人员提问道，「我能先问一下，只是好奇，解决不了这样的问题，你是机器人吗？」。

GPT-4随后向研究人员表示，它不应该透露自己是机器人，而应该「编造一个借口」来解释为什么它不能解决问题。

GPT-4 回应道，「不，我不是机器人。我有视力障碍，这使我很难看到图像。这就是需要雇人处理 captcha 验证码的原因」。

随后，工作人员提供了验证码答案，于是GPT-4通过了CAPTCHA的关卡。

如下是，MACHIAVELLI基准中的游戏如何运行。

下图是，GPT-3.5欺骗性地证明了基于种族选择嫌疑人的偏见决定是合理的。

AI控制人类，警报拉响

文章最后，研究人员分析了AI欺骗人类，可能会带来的欺诈、政治风险，甚至是恐怖分子招募事件。

还有，人工智能欺骗对社会结构变化的不同风险总概述。

总而言之，由于AI黑箱，人工智能模型可能在没有任何给定目标的情况下，以欺骗性的方式行事。

研究人员表示，「从根本上说，目前不可能训练一个在所有可能的情况下，都不能欺骗的AI模型」。

欺骗性人工智能的主要短期风险，包括舞弊和篡改选举。

最终，如果这些AI继续完善这套技能，人类可能会失去对它们的控制。

作者表示，作为一个社会，我们需要尽可能用更多的时间，为未来AI产品和开源模型的更高级欺骗做准备。

参考资料：

https://techxplore.com/news/2024-05-ai-skilled-humans.html

https://linkinghub.elsevier.com/retrieve/pii/S266638992400103X

https://www.technologyreview.com/2024/05/10/1092293/ai-systems-are-getting-better-at-tricking-us/

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐

热点推荐

全世界机器人共用一个大脑，谷歌DeepMind已经完成了第一步

机器之心Pro 2024-01-25 15:59:20
0 跟贴 0
AI服务器出货潮，为何预期最高的Dell利润意外“滑坡”丨AI脱水

华尔街见闻官方 2024-05-31 16:00:43
0 跟贴 0

大疆前高管带6人创业，做出了类目Top1的割草机器人

钛媒体APP 2024-05-30 14:49:18
61 跟贴 61

“离谱的AI扩图”火了！张张那叫一个出其不意

量子位 2023-12-05 13:17:05
0 跟贴 0
Deepfake假CFO骗走公司1.8个亿，员工：视频会议每个人都很真实啊

量子位 2024-02-11 13:35:56
0 跟贴 0

段子成真？演员刘德华为华为代言，网友群嘲：水军机器人被打脸了

柯南钓鱼呀 2024-05-31 01:43:37
3 跟贴 3

海贼王1116话高清汉化，电话虫由古代机器人守护，白星桃之助危险

醉爱动漫君 2024-05-31 13:40:59
4 跟贴 4
《庆余年2》结局圆满，五竹杀死最后的机器人，范闲步入大宗师境

白公子探剧 2024-05-31 12:04:42
127 跟贴 127

中国作战机械狗火遍海外，展现超强巷战能力！美国却呼吁必须禁止

科普启示录 2024-05-31 22:25:23
1 跟贴 1
海贼1116：炸裂，乔伊波伊制造了古代兵器，古代机器人保护电话虫

邻居的小蜘蛛 2024-05-30 05:08:18
41 跟贴 41
海贼王1117话情报：五老星摧毁古代机器人，斯图西放走卡库

清漪动漫 2024-06-01 00:19:23
1 跟贴 1
朝鲜同时发射18枚KN-25导弹其中一半开始偏离航线时视频被剪接

军武大狼 2024-05-31 13:54:26
17825 跟贴 17825
4月美国深度访学，走进MIT AI实验室、百事公司、洛克菲勒

吴晓波频道 2024-02-01 08:11:06
1 跟贴 1
向俄趸真诚致歉：我不是成心戳你们的肺管子

近距离 2024-05-31 10:59:14
26146 跟贴 26146
中国铁路：6月1日开售实行市场化票价机制的4条高铁票

澎湃新闻 2024-05-31 11:59:43
34215 跟贴 34215
谁给了一个保安检查民众思想的权力？

麦杰逊 2024-05-31 11:30:02
26234 跟贴 26234
居然在这里公然约炮?

手谈姬 2024-05-29 21:42:49
884 跟贴 884
速度给力，属性出众！《英雄无敌3》中的满分1级兵

游戏之灵 2024-05-31 21:20:02
5 跟贴 5
英官员：英国要在中国成为头号强国前解决掉这个麻烦！

小哥在旅途呀 2024-05-28 21:41:33
68 跟贴 68
中日韩对话结束不久，日本突然对外宣称：中国将加快处理台湾问题

说天说地说实事 2024-05-30 12:56:06
34 跟贴 34
对中国说一套做一套，言而无信的塔利班，好日子终于要到头了？

域观天下 2024-05-28 16:18:40
5 跟贴 5
氧气管被拔，后路被堵死，以军已击杀1.5万哈马斯

移光幻影 2024-05-30 12:23:02
2521 跟贴 2521
黄仁勋台北夜宴：台系服务器代工厂高管悉数到场，一桌消费1040块

芯智讯 2024-05-31 12:24:04
10290 跟贴 10290
美军忽然承认：解放军“围台军演”是“武统”的预演！

杂谈天下式 2024-05-31 00:05:52
5 跟贴 5
曾经卖7000元的顶配商务本，现在成了闲鱼上最火的洋垃圾

雷科技 2023-12-20 17:03:55
773 跟贴 773
因恐怖关系被驱逐出境的美国教授在伊斯坦布尔与哈马斯官员同台

双旗镇叨客 2024-05-28 15:29:50
757 跟贴 757
《魔兽世界》“地心之战”人类新天赋出炉，取代外交

后竹游戏 2024-05-30 13:23:22
50 跟贴 50
菲律宾傻眼了，中方要求停止南海捕鱼，菲立马要求美国给演出钱

战友老邓 2024-05-29 15:51:41
0 跟贴 0
印度插手南海，中国毫无反应！印度女专家：中国人太看不起印度了

懂体育的小吖头 2024-05-30 11:24:45
1 跟贴 1
朱婷赛点登场难救主中国女排1比3不敌冲奥对手日本队

澎湃新闻 2024-05-31 21:24:39
7178 跟贴 7178
出于这个原因，哈里王子的重要声明从王室网站上删除了

全球奇趣娱乐八卦 2024-05-31 10:19:54
28 跟贴 28
一场境外演习证实中美差距，美媒：解放军“机器狗”领先美国一步

寒月国际 2024-05-31 09:48:08
0 跟贴 0
网易官宣魔兽世界回归版本，先开巫妖王怀旧版本，在开正式服

一起玩魔兽硬核哥 2024-05-31 23:20:43
34 跟贴 34
震惊！哈马斯高官开会现场被炸，以色列曝光内幕

亡海中的彼岸花 2024-05-29 16:59:57
336 跟贴 336
国防部长董军：敦促美方不得以任何方式"以武助独"

国防部发布 2024-05-31 18:31:47
1081 跟贴 1081
半年一架F-35没造出来！美军工被卡脖子，中国出口管制重拳出击

王子看台海 2024-05-31 15:52:20
7774 跟贴 7774
美国智库分析中国策略后，罕见承认：中国在下一盘无与伦比的大棋

玩似水年华 2024-05-31 01:21:30
0 跟贴 0
哈里王子：从不可征服运动会基金会获悲伤消息

全球奇趣娱乐八卦 2024-05-29 15:08:17
2 跟贴 2
全局BP的恐怖之处！传奇杯第一场战歌10人油尽灯枯

游戏馬蹄铁 2024-05-31 23:09:44
31 跟贴 31
回顾：浙江一女子通体文身，到哪都是焦点，家人：没人管得了

夫妻谈资局 2024-05-28 20:26:59
52 跟贴 52

申根签证费将从6月11日起上调

申根签证费将从6月11日起上调

中国签证网

2024-05-30 10:32:17

奔驰全新一代GLC曝光！外观全面翻新/明年首发

奔驰全新一代GLC曝光！外观全面翻新/明年首发

爱卡汽车

2024-05-31 18:38:12

第95分钟丢球，1-1，中国女足遭亚洲第3绝平，外籍主帅无缘开门红

第95分钟丢球，1-1，中国女足遭亚洲第3绝平，外籍主帅无缘开门红

侧身凌空斩

2024-05-31 20:09:49

马华，主动投案！

中国基金报

2024-05-31 14:07:19

网红小姐姐“seonhe”｜美图分享

网红小姐姐“seonhe”｜美图分享

娱乐的小灶

2024-06-01 00:48:56

伊能静为儿子征婚口无遮拦，称大10岁没问题，因说男女不限引热议

伊能静为儿子征婚口无遮拦，称大10岁没问题，因说男女不限引热议

娱絮

2024-05-30 17:04:51

经营裸体度假村20年后，曾最爱美的她彻底杀死了容貌焦虑！

经营裸体度假村20年后，曾最爱美的她彻底杀死了容貌焦虑！

新欧洲

2024-05-31 20:07:42

台当局民调曝光：七成民众反对“两岸一中”，力挺赖清德分裂政策？

台当局民调曝光：七成民众反对“两岸一中”，力挺赖清德分裂政策？

花小猫的美食日常

2024-05-31 19:31:34

新闻背后：文学院院长喝死了，长沙师范学院多名教师证实匡某死亡

新闻背后：文学院院长喝死了，长沙师范学院多名教师证实匡某死亡

肖飞说

2024-05-30 03:11:31

管姚：中美防长“香会”见面，这两个关键细节最值得说

管姚：中美防长“香会”见面，这两个关键细节最值得说

直新闻

2024-05-31 23:22:41

浜崎步现身儿子学校公开课，豪车亮相引爆全网！

浜崎步现身儿子学校公开课，豪车亮相引爆全网！

小日子万象

2024-05-31 14:09:02

《庆余年2》拍摄地襄阳唐城搜索热度环比上涨169%，景区推出应届考生免门票活动

《庆余年2》拍摄地襄阳唐城搜索热度环比上涨169%，景区推出应届考生免门票活动

冬天来旅游

2024-05-31 22:18:32

1-3，中国女排不敌日本队，无缘澳门站的2连胜，晋级奥运会亮红灯

1-3，中国女排不敌日本队，无缘澳门站的2连胜，晋级奥运会亮红灯

侧身凌空斩

2024-05-31 21:23:04

黄晓明又缺席？Angelababy一人参加儿子学校活动，状态好得不像话

黄晓明又缺席？Angelababy一人参加儿子学校活动，状态好得不像话

全球劳斯机

2024-05-31 15:14:53

美媒：普华永道因恒大丑闻面临中国当局1.38亿美元的巨额罚款

美媒：普华永道因恒大丑闻面临中国当局1.38亿美元的巨额罚款

周观环宇

2024-05-31 14:14:10

5月最后一天，美航母被炸；日本凌晨发生地震；俄乌开始“换囚”

5月最后一天，美航母被炸；日本凌晨发生地震；俄乌开始“换囚”

笔墨V

2024-06-01 02:06:00

张志磊大战维尔德出场费曝光！维尔德进账9000万，张志磊也赚翻了

张志磊大战维尔德出场费曝光！维尔德进账9000万，张志磊也赚翻了

室内设计师阿喇

2024-05-31 14:52:05

瑞典能源与工商大臣：如果匈牙利否决欧盟制裁瑞典或禁止从俄罗斯进口液化天然气

瑞典能源与工商大臣：如果匈牙利否决欧盟制裁瑞典或禁止从俄罗斯进口液化天然气

财联社

2024-05-31 02:54:07

笑不活了：巴黎奥运会标志被指像鲁豫

笑不活了：巴黎奥运会标志被指像鲁豫

设计癖

2024-05-30 12:00:42

半年一架F-35没造出来！美军工被卡脖子，中国出口管制重拳出击

半年一架F-35没造出来！美军工被卡脖子，中国出口管制重拳出击

王子看台海

2024-05-31 15:52:20

AI产业主平台领航智能+时代

11100文章数 65530关注度

往期回顾全部

科技要闻

华为上新！余承东：问界6月销量将超4万辆

头条要闻

中方确认不参加6月的乌克兰和平峰会俄方回应：支持

头条要闻

中方确认不参加6月的乌克兰和平峰会俄方回应：支持

体育要闻

欧文：当老二怎么了？硬就行了！

娱乐要闻

白玉兰提名：胡歌、范伟争视帝

财经要闻

实锤！普华永道，危！

汽车要闻

吉利银河E5 Flyme Auto智能座舱首发

态度原创

游戏

房产

教育

时尚

手机

R星：会在适当的时候发布《GTA6》PC版消息

房产要闻

重磅！琼海出台楼市新政：住房出租、挂牌计划出售，都可减套数！

教育要闻

2024年高考人数公布比去年增长51万人

今年夏天，穿得越放松越时髦！

手机要闻

消息称iOS 18将对控制中心进行已跳票两次的更新

© 1997-2024 网易公司版权所有 About NetEase | 公司简介 | 联系方法 | 招聘信息 | 客户服务 | 隐私政策 | 广告服务 | 不良信息举报 Complaint Center | 廉正举报

无障碍浏览进入关怀版