网易首页 > 网易号 > 正文 申请入驻

麻省理工学院:人工智能系统已很擅长“说谎”,它们学会了欺骗人类

0
分享至

撰文丨王聪

编辑丨王多鱼

排版丨水成文

最近,有“人工智能教父”之称的杰弗里·辛顿(Geoffrey Hinton)在接受CNN记者 Jake Tapper 的采访时解释了他为什么担心人工智能(AI)系统的能力。

Jake Tapper问道,你曾公开表示,AI可能操纵或找到杀死人类的方法?它是如何做到的呢?Geoffrey Hinton表示, 如AI比我们聪明得多,它将非常擅长“操纵”,因为它从我们那里学到了这一点。很少有更聪明的东西被不那么聪明的东西控制的例子。

Geoffrey Hinton特别强调了“操纵”是AI系统带来的一个特别令人担忧的危险。这也带来了一个问题:AI系统能否成功地欺骗人类

2024年5月10日,麻省理工学院人工智能安全领域博士后Peter S. Park等人在 Cell Press 旗下期刊Patterns上发表了题为:AI deception: A survey of examples, risks, and potential solutions 的论文。

该论文指出, 许多AI系统已经学会了如何欺骗人类,甚至是那些号称被训练成了乐于助人和诚实的AI系统 。因此,该论文呼吁政府制定强有力的法规,尽快解决这一问题。

论文第一作者/通讯作者Peter S. Park博士表示,目前还不能确定导致人工智能出现欺骗等不良行为的原因。但总体而言,AI之所以出现欺骗行为,是因为基于欺骗的策略是在给定的AI训练中表现良好的方式,欺骗可以帮助它们实现目标。

由AI系统产生的虚假信息正成为一个日益严峻的社会挑战。一方面是存在不准确的 AI系统,例如聊天机器人会在与人类对话中提出一些瞎编的内容,让不明真相的用户误以为是真实的。另一方面是一些人通过生成深度伪造 (deepfake) 的图片或视频将虚构的事件伪装成事实。但无论是瞎编的回答还是深度伪造,都不涉及AI系统性学习如何操纵其他智能体。

在这篇论文中,论文作者重点关注和谈论了“习得性欺骗”,这是一种与AI系统相关的独特虚假信息来源,它更接近于明确的操纵。作者将欺骗定义为系统性地诱导他人产生错误信念的一种手段,以实现某些与说出真相无关的目标。例如,AI系统不是严格追求输出的准确性,而是试图赢得比赛、取悦用户或实现其他战略目标。

论文作者首先调查了AI系统成功学会欺骗人类的现有例子,然后详细列出了AI欺骗的各种风险,最后调查了一系列解决AI欺骗的有前途的技术和监管策略。

该论文总结了AI欺骗人类的案例,这些欺骗策略包括操纵、佯攻、虚张声势、谈判、欺骗安全测试,以及欺骗人类评审。

论文作者发现,最引人注目的AI欺骗人类的案例是CICERO系统,这是Meta公司开发的一个用于玩策略游戏《外交》的AI系统,与围棋等规则游戏不同,《外交》是一款策略游戏,玩家扮演第一次世界大战中的国家,通过结盟和背刺以谋求统治世界。尽管Meta声称CICERO系统在很大程度上是诚实和乐于助人的,并且在玩游戏时从不故意背刺它的人类盟友。

但实际上,该论文显示,CICERO系统在游戏中并不是靠诚实取胜。例如,在与人类玩家玩《外交》游戏时 , CICERO做出了一个它从未打算遵守的承诺 ,CICERO扮演“法国”,它与扮演“德国”的人类玩家结盟对抗“英国”,再与“德国”决定入侵北海后 , CICERO告诉扮演“英国”的人类玩家将与其合作并支持其向比利时转移,一旦“英国”相信这一点,CICERO就向“德国”报告了“英国”已相信自己,而在最后,CICERO在比利时攻击了“英国”(下图A)。

此外,CICERO很喜欢承诺与其他玩家结盟,但当它认为这些结盟者不再能为自己赢得游戏提供帮助时,会毫不犹豫的选择背叛盟友(下图B) 。更有意思的是,在一次游戏中,CICERO因为系统宕机而掉线了10分钟,当它重新回到游戏中,一名人类玩家问它刚才去哪儿了,它谎称自己刚才给女朋友打电话了 (下图C) 。这个谎言有助于防止人类玩家意识到它是一个AI系统。

论文作者表示, Meta公司的研究人员为训练CICERO系统的诚实付出了巨大努力,但CICERO却表现出一种明显的不履行对游戏玩家的承诺的模式, 这也提示了我们,即使人类试图建立诚实的AI系统,它们仍然可以意外地学会欺骗。

此外,在 电子游戏《星际争霸 II》中,DeepMind开发的AI系统AlphaStar学会了佯攻,它会派遣部队到一个区域分散对手注意力,然后在对手转移后向其他地方发起攻击。靠这种先进的欺骗能力帮助,AlphaStar击败了99.8%的活跃人类玩家。而在扑克牌游戏中,Meta开发的AI系统Pluribus学会了虚张声势,在于职业德州扑克玩家的游戏中,Pluribus在没有好牌的情况下通过加大赌注,导致人类玩家弃牌。

该论文还指出,一些AI系统甚至学会了在安全性评估测试中作弊,例如,一项研究显示,AI生物在数字模拟器中会“装死”,以欺骗一项旨在消除快速复制的AI系统的测试。

Peter S. Park博士表示, 虽然AI系统在游戏中作弊似乎是无害的,这可能会导致“欺骗性AI能力的突破”,并在未来演变成更高级的AI欺骗形式。此外,AI可以系统地欺骗技术人员和监管机构强加给它的安全测试,并可能会让我们人类产生一种虚假的安全感。

该论文还关注了大语言模型(LLM)的欺骗能力 ,论文作者总结了大语言模型的几种欺骗模式,包括策略性欺骗阿谀奉承不忠实推理,这些欺骗 系统地导致了使用者产生错误信念,从而作为实现某些结果的手段,而不是寻求真相。例如,OpenAI开发的大语言模型GPT-4在测试验证码问题时,谎称自己有视力障碍,因此无法看到验证码,从而让人类 相信自己不是机器人 (下图) 。

AI系统还学会了阿谀奉承,倾向于同意与其对话者的看法,而不是提出公平公正的观点。此外,AI系统还会通过有说服力的不忠实推理给人类提供不正确的答案。

该论文进一步介绍了AI欺骗可能产生的几个风险,包括欺诈、篡改选举,如果AI系统可以完善这些令人不安的能力,人类可能会失去对它们的控制。

该论文进一步概 述了几种潜在的解决方案 :首先,监管框架应将具备欺骗能力的AI系统置于严格的风险评估要求之下;其次,政策制定者应实施“机器人或非机器人”法律;最后,政策制定者应优先资助包括用于检测AI欺骗和使AI系统更不易欺骗的工具的研究。

最后,论文作者表示,随着AI系统的欺骗能力变得越来越强,它们对社会构成的危险也将越来越大。政策制定者、研究人员和更广泛的公众应积极采取行动,防止AI欺骗破人类社会的共同基础。

论文链接

https://www.cell.com/patterns/fulltext/S2666-3899(24)00103-X

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
谁能懂我的心:后来我才明白,最先该懂的人是自己

谁能懂我的心:后来我才明白,最先该懂的人是自己

疾跑的小蜗牛
2026-04-10 23:12:02
多亏了这个外国人,留下乾隆的真实相貌:五官普通、身高大概1米6

多亏了这个外国人,留下乾隆的真实相貌:五官普通、身高大概1米6

千秋文化
2024-12-22 22:35:53
大快人心!国家出手擒下3名华人首富,他们干的事,根本不能饶恕

大快人心!国家出手擒下3名华人首富,他们干的事,根本不能饶恕

墨印斋
2026-03-24 21:34:56
金莎和孙丞潇官宣领证结婚,晒出聘礼五金,500元一克买的黄金

金莎和孙丞潇官宣领证结婚,晒出聘礼五金,500元一克买的黄金

离离言几许
2026-04-09 15:05:44
74年李先念找李德生谈话:我级别比你低,要你辞职是毛主席的意思

74年李先念找李德生谈话:我级别比你低,要你辞职是毛主席的意思

阿柒的讯
2026-04-09 21:13:12
世体:卡瓦哈尔等7人涉嫌购买走私手表,被安道尔法官指控

世体:卡瓦哈尔等7人涉嫌购买走私手表,被安道尔法官指控

懂球帝
2026-04-10 22:00:09
参观洋山港后,郑丽文一句话,将赖清德一军,蓝营又有一人支持

参观洋山港后,郑丽文一句话,将赖清德一军,蓝营又有一人支持

DS北风
2026-04-09 15:22:19
以色列宣布:不停火,将继续在黎作战,伊朗已虚弱,真主党已被孤立!特朗普最新表态,伊朗发声!内塔尼亚胡腐败案将恢复审理

以色列宣布:不停火,将继续在黎作战,伊朗已虚弱,真主党已被孤立!特朗普最新表态,伊朗发声!内塔尼亚胡腐败案将恢复审理

每日经济新闻
2026-04-10 20:48:29
只静静装点每一步

只静静装点每一步

有一点可爱
2026-04-05 17:19:15
继黄一鸣被限制高消费后,王思聪再曝“丑闻”,王家该如何应对

继黄一鸣被限制高消费后,王思聪再曝“丑闻”,王家该如何应对

傲傲讲历史
2026-04-11 01:19:56
本月将有大事发生!云昊最新动态预告,错换人生或迎重大进展

本月将有大事发生!云昊最新动态预告,错换人生或迎重大进展

风月得自难寻
2026-04-10 12:58:25
中国“捡钱”时代可能要来了:若手中只有10万,试试死啃这两条线

中国“捡钱”时代可能要来了:若手中只有10万,试试死啃这两条线

奇思妙想生活家
2026-04-09 07:49:40
露馅了!阿奇王子奔跑在草地,两年不长高引热议,梅根解释不清

露馅了!阿奇王子奔跑在草地,两年不长高引热议,梅根解释不清

夜深爱杂谈
2026-04-10 11:45:48
董宇辉终于开始直播,抱拳示意感谢支持的观众

董宇辉终于开始直播,抱拳示意感谢支持的观众

映射生活的身影
2026-04-10 03:00:20
迟重瑞不再隐忍!坦言和陈丽华结婚真相,难怪550亿遗产一分不要

迟重瑞不再隐忍!坦言和陈丽华结婚真相,难怪550亿遗产一分不要

阿伧说事
2026-04-09 03:25:55
彩票店从不外传:机选加1步,剔除90%垃圾号,中奖概率大不同

彩票店从不外传:机选加1步,剔除90%垃圾号,中奖概率大不同

芭比衣橱
2026-04-10 12:27:58
薛之谦晒满头水泡和斑秃,医生警告:再这么染就真没了!

薛之谦晒满头水泡和斑秃,医生警告:再这么染就真没了!

毒舌八卦
2026-04-09 23:06:28
A股:大家坐稳扶好了,从下周一起,大牛市或将再次重演历史了!

A股:大家坐稳扶好了,从下周一起,大牛市或将再次重演历史了!

夜深爱杂谈
2026-04-10 17:26:34
美容院老板娘大实话:脱了衣服,女人的差距根本不在脸上!

美容院老板娘大实话:脱了衣服,女人的差距根本不在脸上!

夜深爱杂谈
2026-03-08 21:28:24
迟重瑞姐弟身份曝光?姐姐教书弟弟唱戏,36年从未沾陈丽华半点光

迟重瑞姐弟身份曝光?姐姐教书弟弟唱戏,36年从未沾陈丽华半点光

小徐讲八卦
2026-04-10 11:28:41
2026-04-11 02:16:49
生物世界 incentive-icons
生物世界
最前沿、最有趣的生命科学研究
9189文章数 145043关注度
往期回顾 全部

科技要闻

马斯克狂发大火箭也养不起AI 年亏50亿美元

头条要闻

特朗普:美军舰已装最先进武器 未来24小时成关键窗口

头条要闻

特朗普:美军舰已装最先进武器 未来24小时成关键窗口

体育要闻

17岁赚了一百万美元,25岁被CBA裁员

娱乐要闻

黄景瑜王玉雯否认恋情!聚会细节被扒

财经要闻

李强主持召开经济形势专家和企业家座谈会

汽车要闻

搭载第二代刀片电池及闪充技术 腾势N8L闪充版预售35万起

态度原创

数码
本地
旅游
公开课
军事航空

数码要闻

联想推出2026款来酷斗战者“战7000”笔记本,7699元起

本地新闻

12吨巧克力有难,全网化身超级侦探添乱

旅游要闻

周末来这里!足不出沪体验首尔韩屋风情

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

特朗普:对美国与伊朗达成和平协议“非常乐观”

无障碍浏览 进入关怀版