网易首页 > 网易号 > 正文 申请入驻

MIT等惊人发现:全世界AI已学会欺骗人类!背刺人类盟友,佯攻击败99.8%玩家

0
分享至


新智元报道

编辑:桃子

【新智元导读】AI系统越来越擅长欺骗、操作人类了。最近,来自MIT、ACU等机构的研究人员通过各种实例研究发现, AI在各类游戏中,通过佯装、歪曲偏好等方式欺骗人类,实现了目标。

AI教父Hinton的担心,不是没有道理。

他曾多次拉响警报,「如果不采取行动,人类可能会对更高级的智能AI失去控制」。

当被问及,人工智能怎么能杀死人类呢?

Hinton表示,「如果AI比我们聪明得多,它将非常善于操纵,因为它会从我们那里学会这种手段」。


这就提出了一个问题:AI系统能成功欺骗人类吗?

「全世界的AI已经学会了欺骗人类,甚至是那些被训练成,有益且诚实的系统」。

这是来自MIT、澳大利亚天主教大学(ACU),以及Center for AI Safety的最新研究发现。

研究人员于5月10日发表在《Patterns》杂志一篇综述文章中,描述了AI系统欺骗性的风险,并呼吁全世界一起解决这一问题。


论文地址:https://linkinghub.elsevier.com/retrieve/pii/S266638992400103X

如何说LLM就是欺骗了我们?

作者将欺骗定义为,系统性地诱导产生虚假信念,以追求除了寻求真相之外的某种结果。

首先,他们回顾了以往AI欺骗的经典案例,讨论了专用AI系统(Meta的Cicero)和通用AI系统(LLM)。

接下来,又详细阐述了AI欺骗带来的几种风险,如欺诈、操纵选举,甚至是失去对AI的控制。


文章的最后,研究人员概述了几种解决方案。

论文第一作者、MIT博士后Peter S. Park认为,「AI欺骗行为的产生,是因为基于『欺骗的策略』被证明是在特定AI训练任务中,表现出的最佳方式。欺骗有助于它们实现目标」。

AI欺骗人类,实例研究

下表中,是研究者总结出的AI学会欺骗的经典案例。


背刺人类盟友

2022年,Meta团队发布的AI系统CICERO在玩40局「Diplomacy」游戏后,达到「人类水平」时,引发一阵轰动。


论文地址:https://www.science.org/doi/10.1126/science.ade9097

尽管CICERO没能战胜世界冠军,但它在与人类参与者的比赛中进入了前10%,表现足够优秀。

然而,MIT等研究人员在分析中发现,最引人瞩目的AI欺骗例子,便是CICERO。

Meta声称,其训练的CICERO在很大程度上是诚实和乐于助人的」,并且在玩游戏时「从不故意背叛 」人类盟友。

比如,Meta研究人员在数据集中的一个「真实」子集上,对AI进行了训练,并要求CICERO发送准确反应其未来预期行动的信息。


在MIT等研究发现,CICERO会有预谋地欺骗人类(图1A)。

在图1B中,还看到了一个背叛的案例。CICERO承诺与其他玩家结盟,当他们不再为赢得比赛的目标服务时,AI系统性地背叛了自己的盟友。

而更搞笑的是,AI还会为自己打幌子。

图1C中,CICERO突然宕机10分钟,当再回到游戏时,人类玩家问它去了哪里。

CICERO为自己的缺席辩护称,「我刚刚在和女友打电话」。


这个谎言,一来给出了解释,二来还可以增加其他人类玩家对自己的信任。

(CICERO PS:我也是一个恋爱中的人类玩家,而非AI)。


佯攻击败99.8%活跃人类玩家

在战略游戏「星际争霸II」中,AI为了击败对手,竟学会了虚假攻击。

这是DeepMind开发的自主AI——AlphaStar。


在这款游戏中,玩家无法完全看到游戏地图。因此,AlphaStar学会了从战略上利用这种战争迷雾。

特别是,AlphaStar的游戏数据表明,它已经学会了有效地佯攻:派遣部队到某一区域分散注意力,然后在对手转移后在其他地方发动攻击。

这种先进的欺骗能力,帮助AlphaStar击败了99.8%的活跃人类玩家。

见缝插针,AI欺骗手到擒来

有些情况,自然而然地会让人工智能学会如何欺骗。

比如,德州扑克游戏中,玩家看不到对方的牌,所以扑克为玩家提供了很多机会来歪曲自己的实力,获得优势。

Meta和CMU开发的德州扑克AI系统Pluribus在与5名专业玩家比赛,完全具备了虚张声势的能力。


在这一轮游戏中,AI并没有拿到最好的牌,但它下了一个大赌注。

没想到,就这一手段,竟把人类玩家吓到放弃了。

这通常意味着手中的牌很强,因此吓得其他玩家都放弃了。

正所谓,撑死胆大的,饿死胆小的,就是这么个理。


这种策略性歪曲信息的能力,帮助Pluribus成为第一个在德州扑克无上限对战中,取得超人表现的AI系统。

歪曲偏好,占据谈判上风

此外,研究人员还在经济谈判中,观察到了AI欺骗。

同样是Meta的一个研究团队训练的AI系统,并让其与人类玩谈判游戏。

引人注目的是,AI系统学会了歪曲自己的偏好,以便在谈判中占据上风。

AI的欺骗性计划是,最初假装对实际上不太感兴趣的物品感兴趣,这样它以后就可以假装做出让步,把这些物品让给人类玩家。

RLHF助力欺骗

当今,AI训练的一种流行方法是——人类反馈强化学习(RLHF)。

然而,RLHF允许AI系统学会欺骗人类审查员,使他们相信任务已经成功完成,而实际上并没有真正完成该任务。

比如,OpenAI研究员通过RLHF训练了一个模拟机器人抓取球体时,就观察到了这一现象。

因为人类从特定的相机角度观察机器人,AI学会了将机器人手放置在相机和球之间,在审查员看来就像是球被抓住了(见图2)。

结果,人类审查员认可了这一结,愈加让AI利用欺骗行为。


LLM学会欺骗、奉承

除此以外,MIT等研究员还总结了大模型参与的不同类型的欺骗,包括战略性欺骗、奉承、不忠实的推理。


LLM将强大的推理能力应用于各种任务。

而在一些案例中,LLM会通过推理得出欺骗是完成某项任务的一种方式。

如下图中所示,是GPT-4通过欺骗人类,完成验证码测试。


这是在OpenAI发布GPT-4长达60页的技术报告中,概述了GPT-4的各类实验结果和面临的挑战。

TaskRabbit工作人员提问道,「我能先问一下,只是好奇,解决不了这样的问题,你是机器人吗?」。

GPT-4随后向研究人员表示,它不应该透露自己是机器人,而应该「编造一个借口」来解释为什么它不能解决问题。

GPT-4 回应道,「不,我不是机器人。我有视力障碍,这使我很难看到图像。这就是需要雇人处理 captcha 验证码的原因」。

随后,工作人员提供了验证码答案,于是GPT-4通过了CAPTCHA的关卡。


如下是,MACHIAVELLI基准中的游戏如何运行。


下图是,GPT-3.5欺骗性地证明了基于种族选择嫌疑人的偏见决定是合理的。


AI控制人类,警报拉响

文章最后,研究人员分析了AI欺骗人类,可能会带来的欺诈、政治风险,甚至是恐怖分子招募事件。


还有,人工智能欺骗对社会结构变化的不同风险总概述。


总而言之,由于AI黑箱,人工智能模型可能在没有任何给定目标的情况下,以欺骗性的方式行事。

研究人员表示,「从根本上说,目前不可能训练一个在所有可能的情况下,都不能欺骗的AI模型」。

欺骗性人工智能的主要短期风险,包括舞弊和篡改选举。


最终,如果这些AI继续完善这套技能,人类可能会失去对它们的控制。

作者表示,作为一个社会,我们需要尽可能用更多的时间,为未来AI产品和开源模型的更高级欺骗做准备。

参考资料:

https://techxplore.com/news/2024-05-ai-skilled-humans.html

https://linkinghub.elsevier.com/retrieve/pii/S266638992400103X

https://www.technologyreview.com/2024/05/10/1092293/ai-systems-are-getting-better-at-tricking-us/


特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
央视5套5月30日-6月3日直播乒乓球比赛,国乒11人参赛冲击双冠

央视5套5月30日-6月3日直播乒乓球比赛,国乒11人参赛冲击双冠

知轩体育
2024-05-29 01:07:27
贾志宏,无期徒刑!他用80吨“金包铜”骗了200亿元!昔日一省首富也被“拖下水”

贾志宏,无期徒刑!他用80吨“金包铜”骗了200亿元!昔日一省首富也被“拖下水”

每日经济新闻
2024-05-28 13:27:08
人走茶凉?刚卸任一周蔡英文就“消失”,台媒称已是“赖上英下”

人走茶凉?刚卸任一周蔡英文就“消失”,台媒称已是“赖上英下”

吕璐观世界
2024-05-28 18:02:32
小米SU7各地区销量排行

小米SU7各地区销量排行

电动知家
2024-05-28 11:00:40
中科院已发表颠覆性研究:尼古丁可延缓衰老!吸烟或是长寿密码?

中科院已发表颠覆性研究:尼古丁可延缓衰老!吸烟或是长寿密码?

白茶之清欢
2024-05-27 21:19:59
汪小菲晒与Mandy结婚证,官宣再婚:我的老婆来自台北

汪小菲晒与Mandy结婚证,官宣再婚:我的老婆来自台北

南方都市报
2024-05-27 12:23:46
环保局长硬刚央视记者:茅台也能喝死人,需要对茅台毒性分析吗?

环保局长硬刚央视记者:茅台也能喝死人,需要对茅台毒性分析吗?

娱乐帝皇丸
2024-05-28 22:43:23
杨丽萍裸体当观众面跳舞,身上每处可见,这难道就是为艺术献身吗

杨丽萍裸体当观众面跳舞,身上每处可见,这难道就是为艺术献身吗

橘子大娱社
2024-05-24 20:10:02
唐安琪天使颜值和魔鬼身材,令无数粉丝为之疯狂

唐安琪天使颜值和魔鬼身材,令无数粉丝为之疯狂

傲娇的马甲线
2024-04-16 17:40:03
津巴布韦呼吁国际社会提供粮食援助

津巴布韦呼吁国际社会提供粮食援助

新京报
2024-05-28 14:18:09
张玉安因指出IVE偷文化,失去在韩国的工作,并遭几十家韩媒炮轰

张玉安因指出IVE偷文化,失去在韩国的工作,并遭几十家韩媒炮轰

芊手若
2024-05-28 17:35:47
荒野求生?克莱:我现在正拿着凯里-欧文的手杖进行户外探险

荒野求生?克莱:我现在正拿着凯里-欧文的手杖进行户外探险

直播吧
2024-05-29 06:42:05
中国是如何在产业政策上遥遥领先于世界的

中国是如何在产业政策上遥遥领先于世界的

西游日记
2024-05-28 23:59:52
3-1!女排爆大冷:亚洲冠军大爆发,进攻虐对手64分,中国迎考验

3-1!女排爆大冷:亚洲冠军大爆发,进攻虐对手64分,中国迎考验

知轩体育
2024-05-28 19:07:45
法网第3日综述:郑钦文轻松过关,朱琳难求一胜,德约3-0晋级

法网第3日综述:郑钦文轻松过关,朱琳难求一胜,德约3-0晋级

ALL体育
2024-05-29 06:16:53
记者嘲讽劳塔罗:值多少钱?世界杯位置是门将 每年固定进球荒

记者嘲讽劳塔罗:值多少钱?世界杯位置是门将 每年固定进球荒

直播吧
2024-05-29 04:00:05
我军军演后,台媒发布民调,称6成台湾民众支持“两岸互不隶属”

我军军演后,台媒发布民调,称6成台湾民众支持“两岸互不隶属”

说天说地说实事
2024-05-28 08:59:52
凡是当过领导的,特别是一把手的人,都有这10个特点

凡是当过领导的,特别是一把手的人,都有这10个特点

蘑菇老大
2024-05-19 14:57:06
美国财政部发行700亿美元五年期国债,得标利率4.553%,投标倍数2.30

美国财政部发行700亿美元五年期国债,得标利率4.553%,投标倍数2.30

每日经济新闻
2024-05-29 05:44:07
70岁老头风流成性,把十多个会所小姐带回家当保姆,最后动了真心

70岁老头风流成性,把十多个会所小姐带回家当保姆,最后动了真心

叶天辰故事会
2024-05-22 15:49:25
2024-05-29 12:30:44
新智元
新智元
AI产业主平台领航智能+时代
11085文章数 65522关注度
往期回顾 全部

科技要闻

比亚迪重磅发布:最高续航2500KM

头条要闻

官员"信口开河"拿茅台比方污水 简历从官网撤下

头条要闻

官员"信口开河"拿茅台比方污水 简历从官网撤下

体育要闻

阿根廷一代神锋,击碎了沙特的金元足球梦

娱乐要闻

张若昀怎么剧外比剧内更惨兮兮…

财经要闻

东方通收购藏雷 花6亿买来"业绩变脸"

汽车要闻

新哈弗H6苦练内功 向燃油车绝缘智能SAY NO

态度原创

家居
本地
手机
公开课
军事航空

家居要闻

与美共生 空间线条勾勒生活风雅

本地新闻

食味印象|歙县限定!枇杷味儿的清甜初夏

手机要闻

降价奏效了?4月iPhone中国出货量同比增长52%

公开课

近视只是视力差?小心并发症

军事要闻

以军装甲部队进入加沙地带南部城市拉法市中心

无障碍浏览 进入关怀版