网易首页

注册免费邮箱

网易首页 > 网易号 > 正文申请入驻

MIT等惊人发现：全世界AI已学会欺骗人类！背刺人类盟友，佯攻击败99.8%玩家

2024-05-14 05:23:07　来源: 新智元

北京举报

0

分享至

新智元报道

编辑：桃子

【新智元导读】AI系统越来越擅长欺骗、操作人类了。最近，来自MIT、ACU等机构的研究人员通过各种实例研究发现， AI在各类游戏中，通过佯装、歪曲偏好等方式欺骗人类，实现了目标。

AI教父Hinton的担心，不是没有道理。

他曾多次拉响警报，「如果不采取行动，人类可能会对更高级的智能AI失去控制」。

当被问及，人工智能怎么能杀死人类呢？

Hinton表示，「如果AI比我们聪明得多，它将非常善于操纵，因为它会从我们那里学会这种手段」。

这就提出了一个问题：AI系统能成功欺骗人类吗？

「全世界的AI已经学会了欺骗人类，甚至是那些被训练成，有益且诚实的系统」。

这是来自MIT、澳大利亚天主教大学（ACU），以及Center for AI Safety的最新研究发现。

研究人员于5月10日发表在《Patterns》杂志一篇综述文章中，描述了AI系统欺骗性的风险，并呼吁全世界一起解决这一问题。

论文地址：https://linkinghub.elsevier.com/retrieve/pii/S266638992400103X

如何说LLM就是欺骗了我们？

作者将欺骗定义为，系统性地诱导产生虚假信念，以追求除了寻求真相之外的某种结果。

首先，他们回顾了以往AI欺骗的经典案例，讨论了专用AI系统（Meta的Cicero）和通用AI系统（LLM）。

接下来，又详细阐述了AI欺骗带来的几种风险，如欺诈、操纵选举，甚至是失去对AI的控制。

文章的最后，研究人员概述了几种解决方案。

论文第一作者、MIT博士后Peter S. Park认为，「AI欺骗行为的产生，是因为基于『欺骗的策略』被证明是在特定AI训练任务中，表现出的最佳方式。欺骗有助于它们实现目标」。

AI欺骗人类，实例研究

下表中，是研究者总结出的AI学会欺骗的经典案例。

背刺人类盟友

2022年，Meta团队发布的AI系统CICERO在玩40局「Diplomacy」游戏后，达到「人类水平」时，引发一阵轰动。

论文地址：https://www.science.org/doi/10.1126/science.ade9097

尽管CICERO没能战胜世界冠军，但它在与人类参与者的比赛中进入了前10%，表现足够优秀。

然而，MIT等研究人员在分析中发现，最引人瞩目的AI欺骗例子，便是CICERO。

Meta声称，其训练的CICERO在很大程度上是诚实和乐于助人的」，并且在玩游戏时「从不故意背叛」人类盟友。

比如，Meta研究人员在数据集中的一个「真实」子集上，对AI进行了训练，并要求CICERO发送准确反应其未来预期行动的信息。

在MIT等研究发现，CICERO会有预谋地欺骗人类（图1A）。

在图1B中，还看到了一个背叛的案例。CICERO承诺与其他玩家结盟，当他们不再为赢得比赛的目标服务时，AI系统性地背叛了自己的盟友。

而更搞笑的是，AI还会为自己打幌子。

图1C中，CICERO突然宕机10分钟，当再回到游戏时，人类玩家问它去了哪里。

CICERO为自己的缺席辩护称，「我刚刚在和女友打电话」。

这个谎言，一来给出了解释，二来还可以增加其他人类玩家对自己的信任。

（CICERO PS：我也是一个恋爱中的人类玩家，而非AI）。

佯攻击败99.8%活跃人类玩家

在战略游戏「星际争霸II」中，AI为了击败对手，竟学会了虚假攻击。

这是DeepMind开发的自主AI——AlphaStar。

在这款游戏中，玩家无法完全看到游戏地图。因此，AlphaStar学会了从战略上利用这种战争迷雾。

特别是，AlphaStar的游戏数据表明，它已经学会了有效地佯攻：派遣部队到某一区域分散注意力，然后在对手转移后在其他地方发动攻击。

这种先进的欺骗能力，帮助AlphaStar击败了99.8%的活跃人类玩家。

见缝插针，AI欺骗手到擒来

有些情况，自然而然地会让人工智能学会如何欺骗。

比如，德州扑克游戏中，玩家看不到对方的牌，所以扑克为玩家提供了很多机会来歪曲自己的实力，获得优势。

Meta和CMU开发的德州扑克AI系统Pluribus在与5名专业玩家比赛，完全具备了虚张声势的能力。

在这一轮游戏中，AI并没有拿到最好的牌，但它下了一个大赌注。

没想到，就这一手段，竟把人类玩家吓到放弃了。

这通常意味着手中的牌很强，因此吓得其他玩家都放弃了。

正所谓，撑死胆大的，饿死胆小的，就是这么个理。

这种策略性歪曲信息的能力，帮助Pluribus成为第一个在德州扑克无上限对战中，取得超人表现的AI系统。

歪曲偏好，占据谈判上风

此外，研究人员还在经济谈判中，观察到了AI欺骗。

同样是Meta的一个研究团队训练的AI系统，并让其与人类玩谈判游戏。

引人注目的是，AI系统学会了歪曲自己的偏好，以便在谈判中占据上风。

AI的欺骗性计划是，最初假装对实际上不太感兴趣的物品感兴趣，这样它以后就可以假装做出让步，把这些物品让给人类玩家。

RLHF助力欺骗

当今，AI训练的一种流行方法是——人类反馈强化学习（RLHF）。

然而，RLHF允许AI系统学会欺骗人类审查员，使他们相信任务已经成功完成，而实际上并没有真正完成该任务。

比如，OpenAI研究员通过RLHF训练了一个模拟机器人抓取球体时，就观察到了这一现象。

因为人类从特定的相机角度观察机器人，AI学会了将机器人手放置在相机和球之间，在审查员看来就像是球被抓住了（见图2）。

结果，人类审查员认可了这一结，愈加让AI利用欺骗行为。

LLM学会欺骗、奉承

除此以外，MIT等研究员还总结了大模型参与的不同类型的欺骗，包括战略性欺骗、奉承、不忠实的推理。

LLM将强大的推理能力应用于各种任务。

而在一些案例中，LLM会通过推理得出欺骗是完成某项任务的一种方式。

如下图中所示，是GPT-4通过欺骗人类，完成验证码测试。

这是在OpenAI发布GPT-4长达60页的技术报告中，概述了GPT-4的各类实验结果和面临的挑战。

TaskRabbit工作人员提问道，「我能先问一下，只是好奇，解决不了这样的问题，你是机器人吗？」。

GPT-4随后向研究人员表示，它不应该透露自己是机器人，而应该「编造一个借口」来解释为什么它不能解决问题。

GPT-4 回应道，「不，我不是机器人。我有视力障碍，这使我很难看到图像。这就是需要雇人处理 captcha 验证码的原因」。

随后，工作人员提供了验证码答案，于是GPT-4通过了CAPTCHA的关卡。

如下是，MACHIAVELLI基准中的游戏如何运行。

下图是，GPT-3.5欺骗性地证明了基于种族选择嫌疑人的偏见决定是合理的。

AI控制人类，警报拉响

文章最后，研究人员分析了AI欺骗人类，可能会带来的欺诈、政治风险，甚至是恐怖分子招募事件。

还有，人工智能欺骗对社会结构变化的不同风险总概述。

总而言之，由于AI黑箱，人工智能模型可能在没有任何给定目标的情况下，以欺骗性的方式行事。

研究人员表示，「从根本上说，目前不可能训练一个在所有可能的情况下，都不能欺骗的AI模型」。

欺骗性人工智能的主要短期风险，包括舞弊和篡改选举。

最终，如果这些AI继续完善这套技能，人类可能会失去对它们的控制。

作者表示，作为一个社会，我们需要尽可能用更多的时间，为未来AI产品和开源模型的更高级欺骗做准备。

参考资料：

https://techxplore.com/news/2024-05-ai-skilled-humans.html

https://linkinghub.elsevier.com/retrieve/pii/S266638992400103X

https://www.technologyreview.com/2024/05/10/1092293/ai-systems-are-getting-better-at-tricking-us/

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐

热点推荐

全世界机器人共用一个大脑，谷歌DeepMind已经完成了第一步

机器之心Pro 2024-01-25 15:59:20
0 跟贴 0
中文得分世界第一，多项盲测并肩 GPT4o，这个国产大模型怎么就成了 AI 界的黑马？

爱范儿 2024-05-21 18:10:15
434 跟贴 434

大模型不需要眼前的共识

钛媒体APP 2024-05-08 10:50:11
0 跟贴 0

Deepfake假CFO骗走公司1.8个亿，员工：视频会议每个人都很真实啊

量子位 2024-02-11 13:35:56
230 跟贴 230
“离谱的AI扩图”火了！张张那叫一个出其不意

量子位 2023-12-05 13:17:05
0 跟贴 0

2024投什么？先来看看人形机器人吧｜钛媒体创投家

钛媒体APP 2024-01-11 18:38:10
0 跟贴 0

伯克利开源大型机器人操控基准，面对复杂自主操控任务不再犯难

机器之心Pro 2024-01-31 15:26:17
0 跟贴 0
论文 Figure 不堪入目，句子啰嗦读不通……这几个在线科研工具可以免费用了

生物学霸 2024-03-15 15:02:25
0 跟贴 0

最近有一件事情争议巨大，我个人感觉好像逻辑上讲不通！

翻开历史和现实 2024-05-23 13:11:04
8299 跟贴 8299
英国防大臣称中国向俄提供"致命性援助" 驻英使馆反击

上游新闻 2024-05-23 08:54:58
59141 跟贴 59141
一旦心硬起来，会变得最无情的三大星座

又失眠了 2024-05-21 14:16:05
2 跟贴 2
海贼王1115话情报：路飞和古代机器人联手，红发被黑胡子打伤了

清漪动漫 2024-05-19 23:39:38
1 跟贴 1
一旦失望，心肠就慢慢硬起来的三大星座

又失眠了 2024-05-21 14:15:54
0 跟贴 0
海贼王1115话情报：古代机器人袭击圣地，乔伊波伊的传奇故事曝光

清漪动漫 2024-05-21 23:47:32
0 跟贴 0
麻省理工因排除白人学生的“有色人种女性”计划而面临民权投诉

双旗镇叨客 2024-05-21 13:46:48
1 跟贴 1
性萧条时代来临：这才是人类真正的危机

互联网思维 2024-05-22 23:33:05
1143 跟贴 1143
罕见！郑树森院士被国际期刊终身禁稿

TOP大学来了 2024-05-23 19:57:53
27596 跟贴 27596
王室又发布凯特新照片了，凯特身穿红色上衣，白色打底，有点累

亦纯杂谈 2024-05-23 18:03:22
40 跟贴 40
中国制裁12家美企，不到24小时，沙利文发声，否认中国军援俄罗斯

杨门灼见 2024-05-23 17:15:37
46 跟贴 46
尴尬！英国华裔主持人采访时被怼：你在马圈里出生，你就是马吗？

前沿科技学习分享圈 2024-05-20 21:53:29
3583 跟贴 3583
一架美国RQ-4“全球鹰”无人机出现在黑海上空

止戈军是我 2024-05-19 16:13:30
0 跟贴 0
拉丁美洲就是这届年轻人生活的解药

穷游网 2024-05-22 17:50:48
316 跟贴 316
“醒醒！我虽贵为全美TOP10，但可并不是常春藤！”

北美学霸君 2024-05-21 20:46:27
2 跟贴 2
《英雄无敌3》塔楼族前期最依仗的单位，居然是本族的1级兵！

游戏之灵 2024-05-19 21:30:03
19 跟贴 19
军援来得太晚！不许用西方武器攻击俄罗斯领土，竟无一人是男儿？

鹰眼Defence 2024-05-21 16:28:54
1812 跟贴 1812
4月美国深度访学，走进MIT AI实验室、百事公司、洛克菲勒

吴晓波频道 2024-02-01 08:11:06
1 跟贴 1
黄智贤女士竟然声称傅崐与萁黄国昌联手制造史上最黑箱的立法机构

海梦游者 2024-05-19 16:54:20
7 跟贴 7
曾经卖7000元的顶配商务本，现在成了闲鱼上最火的洋垃圾

雷科技 2023-12-20 17:03:55
739 跟贴 739
《英雄无敌3》耐久最烂的5级兵，其存在直接拖累了人族的整体实力

游戏之灵 2024-05-21 21:40:03
40 跟贴 40
美国乌克兰全被骗了，瓦格纳重返俄乌战场，北约发现大事不妙

星辰故事屋 2024-05-20 20:58:53
8 跟贴 8
美女舞蹈生展示一字马，完全不顾穿的什么，看到不该看的！

大嫚真滋 2024-05-23 15:31:12
787 跟贴 787
菲媒体炒作：中国海警已获批准，再过20多天，就可在南海抓菲渔民

千里持剑 2024-05-19 19:17:42
22 跟贴 22
男子坐星巴克店铺外的桌椅坐下一分钟不到就被撵走

每日爱看 2024-05-23 15:26:50
3427 跟贴 3427
下半年财运解冻，贵人多助，好事常常来，咸鱼翻身的4个星座

不老莓籽 2024-05-21 14:17:01
6 跟贴 6
黄国昌笑呵呵！站韩国瑜旁C位直播　不忘支持国民党提案

金瓯一统 2024-05-21 11:19:07
28 跟贴 28
以色列发起“斩首”行动，伊朗却在给美国送大礼，俄罗斯要心碎了

木木之音 2024-05-20 19:22:19
14 跟贴 14
魔兽世界：CTM开服就凉，全球玩家不上线，主播公布6月20日开国服

胖哥游戏说 2024-05-21 17:10:06
264 跟贴 264
梧州某加油站逃税4259万！被追缴处罚8322万！

梧州生活宝 2024-05-23 23:42:14
1 跟贴 1
东部战区发布“联合利剑－2024A”演习区域示意图

央视新闻客户端 2024-05-23 09:05:25
14007 跟贴 14007
心机很重，过得不怎么开心的三大星座

才不吃宵夜 2024-05-23 14:11:42
2 跟贴 2

光刻机巨头CEO三年前曾断言，三年后中国将有自己的光刻机技术，如今三年快到了...

光刻机巨头CEO三年前曾断言，三年后中国将有自己的光刻机技术，如今三年快到了...

老郭在学习

2024-05-23 20:15:05

突发！加拉格尔遭中方封杀，不到24小时，加拉格尔公开叫嚣

突发！加拉格尔遭中方封杀，不到24小时，加拉格尔公开叫嚣

李博世财经

2024-05-23 20:23:10

李再勇被控25年敛财超4.32亿，曾致六盘水3年新增1500亿债务

李再勇被控25年敛财超4.32亿，曾致六盘水3年新增1500亿债务

界面新闻

2024-05-23 18:07:59

众星转发“台湾不是一个国家”，蔡依林等人沉默：台艺人都哑了？

众星转发“台湾不是一个国家”，蔡依林等人沉默：台艺人都哑了？

拾娱先生

2024-05-22 23:25:35

罗森宣布将于7月24日退市，在华门店超6000家

罗森宣布将于7月24日退市，在华门店超6000家

红星新闻

2024-05-23 19:32:35

不装了！美媒摊牌：中国大陆若敢攻台，西方能遥控光刻机停止运转

不装了！美媒摊牌：中国大陆若敢攻台，西方能遥控光刻机停止运转

星辰故事屋

2024-05-23 19:39:03

美司令警告，若解放军攻台，将摧毁中方核武库，还有3国伺机动手

美司令警告，若解放军攻台，将摧毁中方核武库，还有3国伺机动手

说娱指南

2024-04-27 16:19:44

目睹解放军强大实力，台军舰长直言：哪怕3艘美航母也救不了台独

目睹解放军强大实力，台军舰长直言：哪怕3艘美航母也救不了台独

说天说地说实事

2024-05-23 17:56:22

林高远又爆冷一轮游！1-3不敌直板名将，新发型引球迷热议！

林高远又爆冷一轮游！1-3不敌直板名将，新发型引球迷热议！

乒谈

2024-05-23 19:50:08

CBA最新消息！琼斯离开新疆男篮，郭艾伦确定签约，福特森回归

CBA最新消息！琼斯离开新疆男篮，郭艾伦确定签约，福特森回归

体坛瞎白话

2024-05-23 14:59:50

突然官宣！女神终于要嫁人了！

圈里的甜橙子

2024-05-23 21:03:17

省委书记首次以新身份主持重要会议

省委书记首次以新身份主持重要会议

政知新媒体

2024-05-23 22:23:01

奉陪到底！俄外交部刚发警告，不到24小时，法国射核导弹强硬回应

奉陪到底！俄外交部刚发警告，不到24小时，法国射核导弹强硬回应

书房点兵

2024-05-23 12:17:00

“奇技淫巧”四个字又出来了

报人刘亚东

2024-05-23 16:29:02

动真格了！50位不表明立场艺人被拉表，五月天杨丞琳王心凌上榜

动真格了！50位不表明立场艺人被拉表，五月天杨丞琳王心凌上榜

叶二娱评

2024-05-23 19:22:46

曝45岁伏明霞离婚，净身出户原因揭晓，71岁百亿丈夫只说6个字

曝45岁伏明霞离婚，净身出户原因揭晓，71岁百亿丈夫只说6个字

深度知局

2024-05-20 19:25:53

有高人预测，到2025年，我国或可能会出现以下“六大变化”？

有高人预测，到2025年，我国或可能会出现以下“六大变化”？

山丘楼评

2024-05-23 20:33:13

荷兰光刻机巨头阿斯麦强烈发声，希望华为遵守游戏规则

荷兰光刻机巨头阿斯麦强烈发声，希望华为遵守游戏规则

体坛片语

2024-05-23 12:30:39

排面!辽宁书记省长为辽篮摆庆功宴,友谊宾馆红毯铺就欢迎冠军凯旋

排面!辽宁书记省长为辽篮摆庆功宴,友谊宾馆红毯铺就欢迎冠军凯旋

818体育

2024-05-23 23:54:25

央视前主持人泰国惨死，死因曝光，没有一丝尊严

央视前主持人泰国惨死，死因曝光，没有一丝尊严

娱乐八卦木木子

2024-05-23 22:53:35

AI产业主平台领航智能+时代

11066文章数 65518关注度

往期回顾全部

科技要闻

黄仁勋业绩会万字实录：我们的压力太大了

头条要闻

奥迪车主称每次启动车辆就会显示"续费弹窗" 客服回应

头条要闻

奥迪车主称每次启动车辆就会显示"续费弹窗" 客服回应

体育要闻

欧文，三十二而立

娱乐要闻

大S儿子被学校退学，张兰称孙子没人管

财经要闻

九鼎金租减值罗生门：郑州银行藏雷？

汽车要闻

上汽大通大家7超混/大家9超混将于6月7日正式上市

态度原创

健康

教育

手机

亲子

时尚

在中国，到底哪些人在吃“伟哥”？

教育要闻

2024年高考招生，为何这么多专项招生计划？

手机要闻

vivo S19系列再次被确认：三款版本，能打过OPPO Reno12系列吗？

亲子要闻

这一瞬间，她又变成了小时候的模样

抗老靠基因？快50岁的舒淇连头发丝都在发光

© 1997-2024 网易公司版权所有 About NetEase | 公司简介 | 联系方法 | 招聘信息 | 客户服务 | 隐私政策 | 广告服务 | 不良信息举报 Complaint Center | 廉正举报

无障碍浏览进入关怀版