网易首页 > 网易号 > 正文 申请入驻

麻省理工学院:人工智能系统已很擅长“说谎”,它们学会了欺骗人类

0
分享至


撰文丨王聪

编辑丨王多鱼

排版丨水成文

最近,有“人工智能教父”之称的杰弗里·辛顿(Geoffrey Hinton)在接受CNN记者 Jake Tapper 的采访时解释了他为什么担心人工智能(AI)系统的能力。

Jake Tapper问道,你曾公开表示,AI可能操纵或找到杀死人类的方法?它是如何做到的呢?Geoffrey Hinton表示, 如AI比我们聪明得多,它将非常擅长“操纵”,因为它从我们那里学到了这一点。很少有更聪明的东西被不那么聪明的东西控制的例子。

Geoffrey Hinton特别强调了“操纵”是AI系统带来的一个特别令人担忧的危险。这也带来了一个问题:AI系统能否成功地欺骗人类

2024年5月10日,麻省理工学院人工智能安全领域博士后Peter S. Park等人在 Cell Press 旗下期刊Patterns上发表了题为:AI deception: A survey of examples, risks, and potential solutions 的论文。

该论文指出, 许多AI系统已经学会了如何欺骗人类,甚至是那些号称被训练成了乐于助人和诚实的AI系统 。因此,该论文呼吁政府制定强有力的法规,尽快解决这一问题。

论文第一作者/通讯作者Peter S. Park博士表示,目前还不能确定导致人工智能出现欺骗等不良行为的原因。但总体而言,AI之所以出现欺骗行为,是因为基于欺骗的策略是在给定的AI训练中表现良好的方式,欺骗可以帮助它们实现目标。


由AI系统产生的虚假信息正成为一个日益严峻的社会挑战。一方面是存在不准确的 AI系统,例如聊天机器人会在与人类对话中提出一些瞎编的内容,让不明真相的用户误以为是真实的。另一方面是一些人通过生成深度伪造 (deepfake) 的图片或视频将虚构的事件伪装成事实。但无论是瞎编的回答还是深度伪造,都不涉及AI系统性学习如何操纵其他智能体。

在这篇论文中,论文作者重点关注和谈论了“习得性欺骗”,这是一种与AI系统相关的独特虚假信息来源,它更接近于明确的操纵。作者将欺骗定义为系统性地诱导他人产生错误信念的一种手段,以实现某些与说出真相无关的目标。例如,AI系统不是严格追求输出的准确性,而是试图赢得比赛、取悦用户或实现其他战略目标。

论文作者首先调查了AI系统成功学会欺骗人类的现有例子,然后详细列出了AI欺骗的各种风险,最后调查了一系列解决AI欺骗的有前途的技术和监管策略。

该论文总结了AI欺骗人类的案例,这些欺骗策略包括操纵、佯攻、虚张声势、谈判、欺骗安全测试,以及欺骗人类评审。

论文作者发现,最引人注目的AI欺骗人类的案例是CICERO系统,这是Meta公司开发的一个用于玩策略游戏《外交》的AI系统,与围棋等规则游戏不同,《外交》是一款策略游戏,玩家扮演第一次世界大战中的国家,通过结盟和背刺以谋求统治世界。尽管Meta声称CICERO系统在很大程度上是诚实和乐于助人的,并且在玩游戏时从不故意背刺它的人类盟友。

但实际上,该论文显示,CICERO系统在游戏中并不是靠诚实取胜。例如,在与人类玩家玩《外交》游戏时 , CICERO做出了一个它从未打算遵守的承诺 ,CICERO扮演“法国”,它与扮演“德国”的人类玩家结盟对抗“英国”,再与“德国”决定入侵北海后 , CICERO告诉扮演“英国”的人类玩家将与其合作并支持其向比利时转移,一旦“英国”相信这一点,CICERO就向“德国”报告了“英国”已相信自己,而在最后,CICERO在比利时攻击了“英国”(下图A)。

此外,CICERO很喜欢承诺与其他玩家结盟,但当它认为这些结盟者不再能为自己赢得游戏提供帮助时,会毫不犹豫的选择背叛盟友(下图B) 。更有意思的是,在一次游戏中,CICERO因为系统宕机而掉线了10分钟,当它重新回到游戏中,一名人类玩家问它刚才去哪儿了,它谎称自己刚才给女朋友打电话了 (下图C) 。这个谎言有助于防止人类玩家意识到它是一个AI系统。


论文作者表示, Meta公司的研究人员为训练CICERO系统的诚实付出了巨大努力,但CICERO却表现出一种明显的不履行对游戏玩家的承诺的模式, 这也提示了我们,即使人类试图建立诚实的AI系统,它们仍然可以意外地学会欺骗。

此外,在 电子游戏《星际争霸 II》中,DeepMind开发的AI系统AlphaStar学会了佯攻,它会派遣部队到一个区域分散对手注意力,然后在对手转移后向其他地方发起攻击。靠这种先进的欺骗能力帮助,AlphaStar击败了99.8%的活跃人类玩家。而在扑克牌游戏中,Meta开发的AI系统Pluribus学会了虚张声势,在于职业德州扑克玩家的游戏中,Pluribus在没有好牌的情况下通过加大赌注,导致人类玩家弃牌。

该论文还指出,一些AI系统甚至学会了在安全性评估测试中作弊,例如,一项研究显示,AI生物在数字模拟器中会“装死”,以欺骗一项旨在消除快速复制的AI系统的测试。

Peter S. Park博士表示, 虽然AI系统在游戏中作弊似乎是无害的,这可能会导致“欺骗性AI能力的突破”,并在未来演变成更高级的AI欺骗形式。此外,AI可以系统地欺骗技术人员和监管机构强加给它的安全测试,并可能会让我们人类产生一种虚假的安全感。

该论文还关注了大语言模型(LLM)的欺骗能力 ,论文作者总结了大语言模型的几种欺骗模式,包括策略性欺骗阿谀奉承不忠实推理,这些欺骗 系统地导致了使用者产生错误信念,从而作为实现某些结果的手段,而不是寻求真相。例如,OpenAI开发的大语言模型GPT-4在测试验证码问题时,谎称自己有视力障碍,因此无法看到验证码,从而让人类 相信自己不是机器人 (下图) 。

AI系统还学会了阿谀奉承,倾向于同意与其对话者的看法,而不是提出公平公正的观点。此外,AI系统还会通过有说服力的不忠实推理给人类提供不正确的答案。


该论文进一步介绍了AI欺骗可能产生的几个风险,包括欺诈、篡改选举,如果AI系统可以完善这些令人不安的能力,人类可能会失去对它们的控制。

该论文进一步概 述了几种潜在的解决方案 :首先,监管框架应将具备欺骗能力的AI系统置于严格的风险评估要求之下;其次,政策制定者应实施“机器人或非机器人”法律;最后,政策制定者应优先资助包括用于检测AI欺骗和使AI系统更不易欺骗的工具的研究。

最后,论文作者表示,随着AI系统的欺骗能力变得越来越强,它们对社会构成的危险也将越来越大。政策制定者、研究人员和更广泛的公众应积极采取行动,防止AI欺骗破人类社会的共同基础。

论文链接

https://www.cell.com/patterns/fulltext/S2666-3899(24)00103-X

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
一份美债也不留?中方一举断了美国命脉,拜登急了:加大对华关税

一份美债也不留?中方一举断了美国命脉,拜登急了:加大对华关税

星辰故事屋
2024-05-22 20:24:50
英超官方确认,阿森纳的冠军颁奖拱门将被回收♻️

英超官方确认,阿森纳的冠军颁奖拱门将被回收♻️

直播吧
2024-05-23 00:02:34
连她都“怕”了?!

连她都“怕”了?!

环球时报新闻
2024-05-22 11:56:31
核酸检测可退费?全国多地已在执行 ,有人退了90元,院方:人多

核酸检测可退费?全国多地已在执行 ,有人退了90元,院方:人多

快嘴嘚吧嘚
2024-05-23 09:39:46
出卖孟晚舟的真凶被挖出来后,如今遭到了哪些报应?

出卖孟晚舟的真凶被挖出来后,如今遭到了哪些报应?

老白调研室
2024-01-23 12:11:51
36岁霍启仁求婚成功,游船单膝下跪惹哭泰国女友,她朴素似郭晶晶

36岁霍启仁求婚成功,游船单膝下跪惹哭泰国女友,她朴素似郭晶晶

娱圈小愚
2024-05-23 13:58:27
对文明毫无兴趣,对“厚黑”津津有味

对文明毫无兴趣,对“厚黑”津津有味

非虚构故事
2024-05-21 23:24:05
杨洁、郭彦洪、李贵富、李建忠,接连被查!

杨洁、郭彦洪、李贵富、李建忠,接连被查!

鲁中晨报
2024-05-21 19:47:04
莫拉蒂:张康阳没把钱花在自己身上,债务是他为国米创造出来的

莫拉蒂:张康阳没把钱花在自己身上,债务是他为国米创造出来的

直播吧
2024-05-22 20:40:14
莱希坠机后续:德黑兰正举行盛大告别仪式,总统办公室披露坠机细节

莱希坠机后续:德黑兰正举行盛大告别仪式,总统办公室披露坠机细节

澎湃新闻
2024-05-22 18:22:28
在野党立院表决全面溃败,傅崐萁斥韩国瑜太过软弱!

在野党立院表决全面溃败,傅崐萁斥韩国瑜太过软弱!

Mr记录生活的美好
2024-05-23 09:08:33
无声胜有声,威廉的秘密被发现了,2个小动作透露了凯特的现状

无声胜有声,威廉的秘密被发现了,2个小动作透露了凯特的现状

亦纯杂谈
2024-05-23 16:34:54
纪实:91大神有什么手段?无论是大学生或空姐,全都心甘情愿出镜

纪实:91大神有什么手段?无论是大学生或空姐,全都心甘情愿出镜

玲说百态味
2024-05-08 18:09:01
我的天啊!这居然是森林北!乍一看,还以为是俞飞鸿呢!

我的天啊!这居然是森林北!乍一看,还以为是俞飞鸿呢!

小米虫侃人物
2024-05-23 16:20:56
主场哨!森林狼连续出界均获球权 独行侠均挑战成功引老詹质疑

主场哨!森林狼连续出界均获球权 独行侠均挑战成功引老詹质疑

醉卧浮生
2024-05-23 10:52:33
“75后”女干部拟获提拔,济南人

“75后”女干部拟获提拔,济南人

鲁中晨报
2024-05-23 17:46:09
印度再挑事?强扣中国122个海运集装箱,美媒喊话:放行!

印度再挑事?强扣中国122个海运集装箱,美媒喊话:放行!

科技龙
2024-05-22 17:22:58
小米SU7从山崖滚落,车损毁人没事,好车!

小米SU7从山崖滚落,车损毁人没事,好车!

九方鱼论
2024-05-23 12:41:30
中到大雨+冰雹!猛降15℃!河北大范围降水马上到……

中到大雨+冰雹!猛降15℃!河北大范围降水马上到……

鲁中晨报
2024-05-23 16:38:12
苏联大清洗的来龙去脉:斯大林处决了60万人,这件事究竟是对是错

苏联大清洗的来龙去脉:斯大林处决了60万人,这件事究竟是对是错

拙言问史
2024-05-22 15:18:28
2024-05-23 19:40:49
生物世界
生物世界
最前沿、最有趣的生命科学研究
5990文章数 144126关注度
往期回顾 全部

科技要闻

黄仁勋业绩会万字实录:我们的压力太大了

头条要闻

东部战区位台岛周边演习 三个罕见表述透露重要信号

头条要闻

东部战区位台岛周边演习 三个罕见表述透露重要信号

体育要闻

CBA最有价值球员,为何在总决赛迷失?

娱乐要闻

大S儿子被学校退学,张兰称孙子没人管

财经要闻

九鼎金租减值罗生门:郑州银行藏雷?

汽车要闻

上汽大通大家7超混/大家9超混将于6月7日正式上市

态度原创

手机
时尚
家居
艺术
军事航空

手机要闻

OPPO Reno12 / Pro 手机发布:采用四曲柔边直屏,售价 2699 元起

翻看日杂才发现:今年流行“项链叠戴、小包配大包”,时髦又高级

家居要闻

光阴流年 摇曳爱恋

艺术要闻

穿越时空的艺术:《马可·波罗》AI沉浸影片探索人类文明

军事要闻

以军继续杰宁攻势 巴武装组织打击以目标

无障碍浏览 进入关怀版