网易首页

注册免费邮箱

网易首页 > 网易号 > 正文申请入驻

MIT等惊人发现：全世界AI已学会欺骗人类！背刺人类盟友，佯攻击败99.8%玩家

2024-05-14 05:23:07　来源: 新智元

北京举报

0

分享至

新智元报道

编辑：桃子

【新智元导读】AI系统越来越擅长欺骗、操作人类了。最近，来自MIT、ACU等机构的研究人员通过各种实例研究发现， AI在各类游戏中，通过佯装、歪曲偏好等方式欺骗人类，实现了目标。

AI教父Hinton的担心，不是没有道理。

他曾多次拉响警报，「如果不采取行动，人类可能会对更高级的智能AI失去控制」。

当被问及，人工智能怎么能杀死人类呢？

Hinton表示，「如果AI比我们聪明得多，它将非常善于操纵，因为它会从我们那里学会这种手段」。

这就提出了一个问题：AI系统能成功欺骗人类吗？

「全世界的AI已经学会了欺骗人类，甚至是那些被训练成，有益且诚实的系统」。

这是来自MIT、澳大利亚天主教大学（ACU），以及Center for AI Safety的最新研究发现。

研究人员于5月10日发表在《Patterns》杂志一篇综述文章中，描述了AI系统欺骗性的风险，并呼吁全世界一起解决这一问题。

论文地址：https://linkinghub.elsevier.com/retrieve/pii/S266638992400103X

如何说LLM就是欺骗了我们？

作者将欺骗定义为，系统性地诱导产生虚假信念，以追求除了寻求真相之外的某种结果。

首先，他们回顾了以往AI欺骗的经典案例，讨论了专用AI系统（Meta的Cicero）和通用AI系统（LLM）。

接下来，又详细阐述了AI欺骗带来的几种风险，如欺诈、操纵选举，甚至是失去对AI的控制。

文章的最后，研究人员概述了几种解决方案。

论文第一作者、MIT博士后Peter S. Park认为，「AI欺骗行为的产生，是因为基于『欺骗的策略』被证明是在特定AI训练任务中，表现出的最佳方式。欺骗有助于它们实现目标」。

AI欺骗人类，实例研究

下表中，是研究者总结出的AI学会欺骗的经典案例。

背刺人类盟友

2022年，Meta团队发布的AI系统CICERO在玩40局「Diplomacy」游戏后，达到「人类水平」时，引发一阵轰动。

论文地址：https://www.science.org/doi/10.1126/science.ade9097

尽管CICERO没能战胜世界冠军，但它在与人类参与者的比赛中进入了前10%，表现足够优秀。

然而，MIT等研究人员在分析中发现，最引人瞩目的AI欺骗例子，便是CICERO。

Meta声称，其训练的CICERO在很大程度上是诚实和乐于助人的」，并且在玩游戏时「从不故意背叛」人类盟友。

比如，Meta研究人员在数据集中的一个「真实」子集上，对AI进行了训练，并要求CICERO发送准确反应其未来预期行动的信息。

在MIT等研究发现，CICERO会有预谋地欺骗人类（图1A）。

在图1B中，还看到了一个背叛的案例。CICERO承诺与其他玩家结盟，当他们不再为赢得比赛的目标服务时，AI系统性地背叛了自己的盟友。

而更搞笑的是，AI还会为自己打幌子。

图1C中，CICERO突然宕机10分钟，当再回到游戏时，人类玩家问它去了哪里。

CICERO为自己的缺席辩护称，「我刚刚在和女友打电话」。

这个谎言，一来给出了解释，二来还可以增加其他人类玩家对自己的信任。

（CICERO PS：我也是一个恋爱中的人类玩家，而非AI）。

佯攻击败99.8%活跃人类玩家

在战略游戏「星际争霸II」中，AI为了击败对手，竟学会了虚假攻击。

这是DeepMind开发的自主AI——AlphaStar。

在这款游戏中，玩家无法完全看到游戏地图。因此，AlphaStar学会了从战略上利用这种战争迷雾。

特别是，AlphaStar的游戏数据表明，它已经学会了有效地佯攻：派遣部队到某一区域分散注意力，然后在对手转移后在其他地方发动攻击。

这种先进的欺骗能力，帮助AlphaStar击败了99.8%的活跃人类玩家。

见缝插针，AI欺骗手到擒来

有些情况，自然而然地会让人工智能学会如何欺骗。

比如，德州扑克游戏中，玩家看不到对方的牌，所以扑克为玩家提供了很多机会来歪曲自己的实力，获得优势。

Meta和CMU开发的德州扑克AI系统Pluribus在与5名专业玩家比赛，完全具备了虚张声势的能力。

在这一轮游戏中，AI并没有拿到最好的牌，但它下了一个大赌注。

没想到，就这一手段，竟把人类玩家吓到放弃了。

这通常意味着手中的牌很强，因此吓得其他玩家都放弃了。

正所谓，撑死胆大的，饿死胆小的，就是这么个理。

这种策略性歪曲信息的能力，帮助Pluribus成为第一个在德州扑克无上限对战中，取得超人表现的AI系统。

歪曲偏好，占据谈判上风

此外，研究人员还在经济谈判中，观察到了AI欺骗。

同样是Meta的一个研究团队训练的AI系统，并让其与人类玩谈判游戏。

引人注目的是，AI系统学会了歪曲自己的偏好，以便在谈判中占据上风。

AI的欺骗性计划是，最初假装对实际上不太感兴趣的物品感兴趣，这样它以后就可以假装做出让步，把这些物品让给人类玩家。

RLHF助力欺骗

当今，AI训练的一种流行方法是——人类反馈强化学习（RLHF）。

然而，RLHF允许AI系统学会欺骗人类审查员，使他们相信任务已经成功完成，而实际上并没有真正完成该任务。

比如，OpenAI研究员通过RLHF训练了一个模拟机器人抓取球体时，就观察到了这一现象。

因为人类从特定的相机角度观察机器人，AI学会了将机器人手放置在相机和球之间，在审查员看来就像是球被抓住了（见图2）。

结果，人类审查员认可了这一结，愈加让AI利用欺骗行为。

LLM学会欺骗、奉承

除此以外，MIT等研究员还总结了大模型参与的不同类型的欺骗，包括战略性欺骗、奉承、不忠实的推理。

LLM将强大的推理能力应用于各种任务。

而在一些案例中，LLM会通过推理得出欺骗是完成某项任务的一种方式。

如下图中所示，是GPT-4通过欺骗人类，完成验证码测试。

这是在OpenAI发布GPT-4长达60页的技术报告中，概述了GPT-4的各类实验结果和面临的挑战。

TaskRabbit工作人员提问道，「我能先问一下，只是好奇，解决不了这样的问题，你是机器人吗？」。

GPT-4随后向研究人员表示，它不应该透露自己是机器人，而应该「编造一个借口」来解释为什么它不能解决问题。

GPT-4 回应道，「不，我不是机器人。我有视力障碍，这使我很难看到图像。这就是需要雇人处理 captcha 验证码的原因」。

随后，工作人员提供了验证码答案，于是GPT-4通过了CAPTCHA的关卡。

如下是，MACHIAVELLI基准中的游戏如何运行。

下图是，GPT-3.5欺骗性地证明了基于种族选择嫌疑人的偏见决定是合理的。

AI控制人类，警报拉响

文章最后，研究人员分析了AI欺骗人类，可能会带来的欺诈、政治风险，甚至是恐怖分子招募事件。

还有，人工智能欺骗对社会结构变化的不同风险总概述。

总而言之，由于AI黑箱，人工智能模型可能在没有任何给定目标的情况下，以欺骗性的方式行事。

研究人员表示，「从根本上说，目前不可能训练一个在所有可能的情况下，都不能欺骗的AI模型」。

欺骗性人工智能的主要短期风险，包括舞弊和篡改选举。

最终，如果这些AI继续完善这套技能，人类可能会失去对它们的控制。

作者表示，作为一个社会，我们需要尽可能用更多的时间，为未来AI产品和开源模型的更高级欺骗做准备。

参考资料：

https://techxplore.com/news/2024-05-ai-skilled-humans.html

https://linkinghub.elsevier.com/retrieve/pii/S266638992400103X

https://www.technologyreview.com/2024/05/10/1092293/ai-systems-are-getting-better-at-tricking-us/

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐

热点推荐

全世界机器人共用一个大脑，谷歌DeepMind已经完成了第一步

机器之心Pro 2024-01-25 15:59:20
367 跟贴 367
五大AI聊天机器人盲测！ChatGPT未能夺冠，最终赢家竟来自这家“小公司”

智东西 2024-05-27 19:29:35
0 跟贴 0

钛媒体首发 | 哈工大系科技公司推出若愚·九天机器人大脑，已完成多智能体验证

钛媒体APP 2024-05-28 08:17:09
11 跟贴 11

2024投什么？先来看看人形机器人吧｜钛媒体创投家

钛媒体APP 2024-01-11 18:38:10
0 跟贴 0
“离谱的AI扩图”火了！张张那叫一个出其不意

量子位 2023-12-05 13:17:05
0 跟贴 0

Deepfake假CFO骗走公司1.8个亿，员工：视频会议每个人都很真实啊

量子位 2024-02-11 13:35:56
0 跟贴 0

无条件支持俄“历史性领土”！你到底是哪国人？

二虎涛哥 2024-05-28 12:51:31
9743 跟贴 9743
15号会把菲律宾的坐滩舰拖走吗？看海军这艘战舰的做法就知道了

王小闹哟 2024-05-27 09:38:43
1 跟贴 1

为了挽救哈马斯，他们是真的急了，这是出的第五招！

听风听你 2024-05-25 14:39:21
23128 跟贴 23128
解放军在海外“遛狗”惊动全球，美国发出禁止违反道德行为的声音

小宇将史 2024-05-28 18:15:56
0 跟贴 0
大批网友收到AI聊天消息，对话逼真到吓人，网友：我想啥他都知道

叁旬游戏 2024-05-27 22:04:49
1 跟贴 1
最容易被伤透心的星座

又失眠了 2024-05-25 14:07:49
0 跟贴 0
一流人才进印度理工，考不上印度理工才去美国高校，真的如此吗？

妙趣小史 2024-05-25 07:15:16
26 跟贴 26
4月美国深度访学，走进MIT AI实验室、百事公司、洛克菲勒

吴晓波频道 2024-02-01 08:11:06
1 跟贴 1
当不成总统了？又一架美军战机被击落，美军被“驱逐”，拜登失声

大佬日志 2024-05-27 08:00:15
54 跟贴 54
就离谱！世界乒乓球赛裁判问王楚钦比分，体育局做出回应

吃鱼思故渊 2024-05-28 21:42:34
41 跟贴 41
比美元崩塌更让美国人担心的问题，终于还是发生了！

谈芯说科技 2024-05-25 13:39:05
33 跟贴 33
英官员：英国要在中国成为头号强国前解决掉这个麻烦！

小哥在旅途呀 2024-05-28 21:41:33
0 跟贴 0
参不参加会议是个问题，想当“带头大哥”不容易

迎风立调侃 2024-05-29 06:44:19
1851 跟贴 1851
俄罗斯宣布进入紧急状态，巨亏之下俄天然气公司生产洗衣机自救

史政先锋 2024-05-28 21:00:36
5205 跟贴 5205
杭州不限购后河南购房者花2300多万3天连买8套房

鲁中晨报 2024-05-28 22:35:48
10799 跟贴 10799
曾经卖7000元的顶配商务本，现在成了闲鱼上最火的洋垃圾

雷科技 2023-12-20 17:03:55
762 跟贴 762
大S好手段?台娱曝汪希箖真实校园状况，汪小菲迫不得已背刺张兰！

凤凰观娱 2024-05-26 17:52:37
3 跟贴 3
奥迪新车刚开七个月路边自燃烧毁，4S店：只能按三包赔付

澎湃新闻 2024-05-29 07:14:45
221 跟贴 221
原神：抽卡歪的概率是50%？根据账号而定，浮动的！

游戏我为王 2024-05-29 00:40:03
55 跟贴 55
因恐怖关系被驱逐出境的美国教授在伊斯坦布尔与哈马斯官员同台

双旗镇叨客 2024-05-28 15:29:50
354 跟贴 354
梦幻西游：趁着BUG没修复快点冲，2000点免费仙玉可以换成3200W梦幻币

小三说梦幻 2024-05-28 17:53:22
48 跟贴 48
最人精，也是从不吃亏的三大星座

早贴睡 2024-05-25 14:10:01
0 跟贴 0
Letme笑看姿态红温打木桩，AJ锐评：时隔五年再次被TheShy打哭！

残影电竞 2024-05-28 23:15:38
13 跟贴 13
海贼王1116话：五老星无法指挥炽天使，乔伊波伊遭背叛，罗杰回归

进击的新次元 2024-05-28 22:31:18
10 跟贴 10
美国大哥装扮成鹿，被猎人枪杀，这就是跨物种自由？

墨笑墨侃本尊 2024-05-24 23:08:37
163 跟贴 163
柯建铭封“耻辱日”：韩国瑜绝对是历史罪人

杂谈天下式 2024-05-28 21:27:20
33 跟贴 33
以军装甲部队进入加沙地带南部城市拉法市中心

央视新闻客户端 2024-05-28 17:06:07
17582 跟贴 17582
任天堂时隔20年重制的游戏，卡了“政治正确”的Bug

游研社 2024-05-28 14:05:44
1 跟贴 1
回顾：浙江一女子通体文身，到哪都是焦点，家人：没人管得了

夫妻谈资局 2024-05-28 20:26:59
48 跟贴 48
两名士兵在埃及发生的事件中丧生，其中一名是哈马斯支持者

亡海中的彼岸花 2024-05-28 19:35:52
122 跟贴 122
乌议长：泽连斯基将担任总统直至选举产生新总统

央视新闻客户端 2024-05-29 08:28:15
4452 跟贴 4452
前京东副总裁蔡磊被传“装病” 好友晒图辟谣

都市快报橙柿互动 2024-05-28 16:51:04
3583 跟贴 3583
慧极必伤！这三星座是天才，也是疯子，老天给开了窗，却也关了门

知书夜话 2024-05-28 05:35:58
0 跟贴 0
津巴布韦呼吁国际社会提供粮食援助

新京报 2024-05-28 14:18:09
6942 跟贴 6942

央视5套5月30日-6月3日直播乒乓球比赛，国乒11人参赛冲击双冠

央视5套5月30日-6月3日直播乒乓球比赛，国乒11人参赛冲击双冠

知轩体育

2024-05-29 01:07:27

贾志宏，无期徒刑！他用80吨“金包铜”骗了200亿元！昔日一省首富也被“拖下水”

贾志宏，无期徒刑！他用80吨“金包铜”骗了200亿元！昔日一省首富也被“拖下水”

每日经济新闻

2024-05-28 13:27:08

人走茶凉？刚卸任一周蔡英文就“消失”，台媒称已是“赖上英下”

人走茶凉？刚卸任一周蔡英文就“消失”，台媒称已是“赖上英下”

吕璐观世界

2024-05-28 18:02:32

小米SU7各地区销量排行

电动知家

2024-05-28 11:00:40

中科院已发表颠覆性研究：尼古丁可延缓衰老！吸烟或是长寿密码？

中科院已发表颠覆性研究：尼古丁可延缓衰老！吸烟或是长寿密码？

白茶之清欢

2024-05-27 21:19:59

汪小菲晒与Mandy结婚证，官宣再婚：我的老婆来自台北

汪小菲晒与Mandy结婚证，官宣再婚：我的老婆来自台北

南方都市报

2024-05-27 12:23:46

环保局长硬刚央视记者：茅台也能喝死人，需要对茅台毒性分析吗？

环保局长硬刚央视记者：茅台也能喝死人，需要对茅台毒性分析吗？

娱乐帝皇丸

2024-05-28 22:43:23

杨丽萍裸体当观众面跳舞，身上每处可见，这难道就是为艺术献身吗

杨丽萍裸体当观众面跳舞，身上每处可见，这难道就是为艺术献身吗

橘子大娱社

2024-05-24 20:10:02

唐安琪天使颜值和魔鬼身材，令无数粉丝为之疯狂

唐安琪天使颜值和魔鬼身材，令无数粉丝为之疯狂

傲娇的马甲线

2024-04-16 17:40:03

津巴布韦呼吁国际社会提供粮食援助

津巴布韦呼吁国际社会提供粮食援助

新京报

2024-05-28 14:18:09

张玉安因指出IVE偷文化，失去在韩国的工作，并遭几十家韩媒炮轰

张玉安因指出IVE偷文化，失去在韩国的工作，并遭几十家韩媒炮轰

芊手若

2024-05-28 17:35:47

荒野求生？克莱：我现在正拿着凯里-欧文的手杖进行户外探险

荒野求生？克莱：我现在正拿着凯里-欧文的手杖进行户外探险

直播吧

2024-05-29 06:42:05

中国是如何在产业政策上遥遥领先于世界的

中国是如何在产业政策上遥遥领先于世界的

西游日记

2024-05-28 23:59:52

3-1！女排爆大冷：亚洲冠军大爆发，进攻虐对手64分，中国迎考验

3-1！女排爆大冷：亚洲冠军大爆发，进攻虐对手64分，中国迎考验

知轩体育

2024-05-28 19:07:45

法网第3日综述：郑钦文轻松过关，朱琳难求一胜，德约3-0晋级

法网第3日综述：郑钦文轻松过关，朱琳难求一胜，德约3-0晋级

ALL体育

2024-05-29 06:16:53

记者嘲讽劳塔罗：值多少钱？世界杯位置是门将每年固定进球荒

记者嘲讽劳塔罗：值多少钱？世界杯位置是门将每年固定进球荒

直播吧

2024-05-29 04:00:05

我军军演后，台媒发布民调，称6成台湾民众支持“两岸互不隶属”

我军军演后，台媒发布民调，称6成台湾民众支持“两岸互不隶属”

说天说地说实事

2024-05-28 08:59:52

凡是当过领导的,特别是一把手的人,都有这10个特点

凡是当过领导的,特别是一把手的人,都有这10个特点

蘑菇老大

2024-05-19 14:57:06

美国财政部发行700亿美元五年期国债，得标利率4.553%，投标倍数2.30

美国财政部发行700亿美元五年期国债，得标利率4.553%，投标倍数2.30

每日经济新闻

2024-05-29 05:44:07

70岁老头风流成性，把十多个会所小姐带回家当保姆，最后动了真心

70岁老头风流成性，把十多个会所小姐带回家当保姆，最后动了真心

叶天辰故事会

2024-05-22 15:49:25

AI产业主平台领航智能+时代

11085文章数 65522关注度

往期回顾全部

科技要闻

比亚迪重磅发布：最高续航2500KM

头条要闻

官员"信口开河"拿茅台比方污水简历从官网撤下

头条要闻

官员"信口开河"拿茅台比方污水简历从官网撤下

体育要闻

阿根廷一代神锋，击碎了沙特的金元足球梦

娱乐要闻

张若昀怎么剧外比剧内更惨兮兮…

财经要闻

东方通收购藏雷花6亿买来"业绩变脸"

汽车要闻

新哈弗H6苦练内功向燃油车绝缘智能SAY NO

态度原创

家居

本地

手机

公开课

军事航空

家居要闻

与美共生空间线条勾勒生活风雅

本地新闻

食味印象｜歙县限定！枇杷味儿的清甜初夏

手机要闻

降价奏效了？4月iPhone中国出货量同比增长52%

公开课

近视只是视力差？小心并发症

军事要闻

以军装甲部队进入加沙地带南部城市拉法市中心

© 1997-2024 网易公司版权所有 About NetEase | 公司简介 | 联系方法 | 招聘信息 | 客户服务 | 隐私政策 | 广告服务 | 不良信息举报 Complaint Center | 廉正举报

无障碍浏览进入关怀版