麻省理工学院：人工智能系统已很擅长“说谎”，它们学会了欺骗人类|ai|机器人

麻省理工学院：人工智能系统已很擅长“说谎”，它们学会了欺骗人类

2024-05-12 12:09:02　来源: 生物世界

上海举报

分享至

撰文丨王聪

编辑丨王多鱼

排版丨水成文

最近，有“人工智能教父”之称的杰弗里·辛顿（Geoffrey Hinton）在接受CNN记者 Jake Tapper 的采访时解释了他为什么担心人工智能（AI）系统的能力。

Jake Tapper问道，你曾公开表示，AI可能操纵或找到杀死人类的方法？它是如何做到的呢？Geoffrey Hinton表示，如AI比我们聪明得多，它将非常擅长“操纵”，因为它从我们那里学到了这一点。很少有更聪明的东西被不那么聪明的东西控制的例子。

Geoffrey Hinton特别强调了“操纵”是AI系统带来的一个特别令人担忧的危险。这也带来了一个问题：AI系统能否成功地欺骗人类？

2024年5月10日，麻省理工学院人工智能安全领域博士后Peter S. Park等人在 Cell Press 旗下期刊Patterns上发表了题为：AI deception: A survey of examples, risks, and potential solutions 的论文。

该论文指出，许多AI系统已经学会了如何欺骗人类，甚至是那些号称被训练成了乐于助人和诚实的AI系统。因此，该论文呼吁政府制定强有力的法规，尽快解决这一问题。

论文第一作者/通讯作者Peter S. Park博士表示，目前还不能确定导致人工智能出现欺骗等不良行为的原因。但总体而言，AI之所以出现欺骗行为，是因为基于欺骗的策略是在给定的AI训练中表现良好的方式，欺骗可以帮助它们实现目标。

由AI系统产生的虚假信息正成为一个日益严峻的社会挑战。一方面是存在不准确的 AI系统，例如聊天机器人会在与人类对话中提出一些瞎编的内容，让不明真相的用户误以为是真实的。另一方面是一些人通过生成深度伪造（deepfake）的图片或视频将虚构的事件伪装成事实。但无论是瞎编的回答还是深度伪造，都不涉及AI系统性学习如何操纵其他智能体。

在这篇论文中，论文作者重点关注和谈论了“习得性欺骗”，这是一种与AI系统相关的独特虚假信息来源，它更接近于明确的操纵。作者将欺骗定义为系统性地诱导他人产生错误信念的一种手段，以实现某些与说出真相无关的目标。例如，AI系统不是严格追求输出的准确性，而是试图赢得比赛、取悦用户或实现其他战略目标。

论文作者首先调查了AI系统成功学会欺骗人类的现有例子，然后详细列出了AI欺骗的各种风险，最后调查了一系列解决AI欺骗的有前途的技术和监管策略。

该论文总结了AI欺骗人类的案例，这些欺骗策略包括操纵、佯攻、虚张声势、谈判、欺骗安全测试，以及欺骗人类评审。

论文作者发现，最引人注目的AI欺骗人类的案例是CICERO系统，这是Meta公司开发的一个用于玩策略游戏《外交》的AI系统，与围棋等规则游戏不同，《外交》是一款策略游戏，玩家扮演第一次世界大战中的国家，通过结盟和背刺以谋求统治世界。尽管Meta声称CICERO系统在很大程度上是诚实和乐于助人的，并且在玩游戏时从不故意背刺它的人类盟友。

但实际上，该论文显示，CICERO系统在游戏中并不是靠诚实取胜。例如，在与人类玩家玩《外交》游戏时， CICERO做出了一个它从未打算遵守的承诺，CICERO扮演“法国”，它与扮演“德国”的人类玩家结盟对抗“英国”，再与“德国”决定入侵北海后， CICERO告诉扮演“英国”的人类玩家将与其合作并支持其向比利时转移，一旦“英国”相信这一点，CICERO就向“德国”报告了“英国”已相信自己，而在最后，CICERO在比利时攻击了“英国”（下图A）。

此外，CICERO很喜欢承诺与其他玩家结盟，但当它认为这些结盟者不再能为自己赢得游戏提供帮助时，会毫不犹豫的选择背叛盟友（下图B）。更有意思的是，在一次游戏中，CICERO因为系统宕机而掉线了10分钟，当它重新回到游戏中，一名人类玩家问它刚才去哪儿了，它谎称自己刚才给女朋友打电话了（下图C）。这个谎言有助于防止人类玩家意识到它是一个AI系统。

论文作者表示， Meta公司的研究人员为训练CICERO系统的诚实付出了巨大努力，但CICERO却表现出一种明显的不履行对游戏玩家的承诺的模式，这也提示了我们，即使人类试图建立诚实的AI系统，它们仍然可以意外地学会欺骗。

此外，在电子游戏《星际争霸 II》中，DeepMind开发的AI系统AlphaStar学会了佯攻，它会派遣部队到一个区域分散对手注意力，然后在对手转移后向其他地方发起攻击。靠这种先进的欺骗能力帮助，AlphaStar击败了99.8%的活跃人类玩家。而在扑克牌游戏中，Meta开发的AI系统Pluribus学会了虚张声势，在于职业德州扑克玩家的游戏中，Pluribus在没有好牌的情况下通过加大赌注，导致人类玩家弃牌。

该论文还指出，一些AI系统甚至学会了在安全性评估测试中作弊，例如，一项研究显示，AI生物在数字模拟器中会“装死”，以欺骗一项旨在消除快速复制的AI系统的测试。

Peter S. Park博士表示，虽然AI系统在游戏中作弊似乎是无害的，这可能会导致“欺骗性AI能力的突破”，并在未来演变成更高级的AI欺骗形式。此外，AI可以系统地欺骗技术人员和监管机构强加给它的安全测试，并可能会让我们人类产生一种虚假的安全感。

该论文还关注了大语言模型（LLM）的欺骗能力，论文作者总结了大语言模型的几种欺骗模式，包括策略性欺骗、阿谀奉承和不忠实推理，这些欺骗系统地导致了使用者产生错误信念，从而作为实现某些结果的手段，而不是寻求真相。例如，OpenAI开发的大语言模型GPT-4在测试验证码问题时，谎称自己有视力障碍，因此无法看到验证码，从而让人类相信自己不是机器人（下图）。

AI系统还学会了阿谀奉承，倾向于同意与其对话者的看法，而不是提出公平公正的观点。此外，AI系统还会通过有说服力的不忠实推理给人类提供不正确的答案。

该论文进一步介绍了AI欺骗可能产生的几个风险，包括欺诈、篡改选举，如果AI系统可以完善这些令人不安的能力，人类可能会失去对它们的控制。

该论文进一步概述了几种潜在的解决方案：首先，监管框架应将具备欺骗能力的AI系统置于严格的风险评估要求之下；其次，政策制定者应实施“机器人或非机器人”法律；最后，政策制定者应优先资助包括用于检测AI欺骗和使AI系统更不易欺骗的工具的研究。

最后，论文作者表示，随着AI系统的欺骗能力变得越来越强，它们对社会构成的危险也将越来越大。政策制定者、研究人员和更广泛的公众应积极采取行动，防止AI欺骗破人类社会的共同基础。

论文链接：

https://www.cell.com/patterns/fulltext/S2666-3899(24)00103-X

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.