基于场景驱动的模拟测试无法保护免受通用AI和超级AI的威胁|沙盒|agi|计算机|asi|人工智能

基于场景驱动的模拟测试无法保护免受通用AI和超级AI的威胁

2025-07-07 23:00:07　来源: 至顶科技

北京举报

分享至

在今天的专栏中，我将探讨一种备受推崇的方法，旨在避免通用人工智能（AGI）和人工超级智能（ASI）带来的生存风险。一些人坚信，确保AGI和ASI不会选择消灭人类的方法之一，是首先将它们置于基于计算机的模拟世界中进行测试，观察它们的行为表现。如果AI表现失控并具有巨大破坏性，也不用担心，因为这些行为仅发生在模拟环境中。然后我们可以尝试修复AI以防止此类行为，或确保它不会被释放到现实世界中使用。

这听起来相当合理且明智，但事情远比这复杂，这种解决方案面临着许多陷阱和挑战。

让我们来谈谈这个问题。

这项创新AI突破的分析是我在福布斯专栏中持续报道的最新AI发展的一部分，包括识别和解释各种有影响力的AI复杂性。

迈向AGI和ASI

首先，需要一些基本概念来为这个重要讨论奠定基础。

目前有大量研究致力于进一步推进AI发展。总体目标是要么达到通用人工智能（AGI），要么甚至实现人工超级智能（ASI）这一更远大的可能性。

AGI是被认为与人类智力相当的AI，能够看似匹配我们的智能。ASI是超越人类智力的AI，在许多甚至所有可行的方面都优于人类。ASI的概念是它能够在每个方面都超越人类思维，从而轻松击败我们。

我们尚未达到AGI。

实际上，我们是否会达到AGI还不得而知，或者AGI可能在几十年或几个世纪后才能实现。目前流传的AGI实现日期变化很大，且缺乏任何可信证据或严密逻辑的支撑。至于ASI，相比我们目前的传统AI水平，它更是遥不可及。

潜在的生存风险

让我们主要关注AGI，因为它比ASI更可能在近期出现。

AGI的好处是它可能发现癌症治疗方法，并执行其他令人惊叹的行为，极大地造福人类。但并非每个人都对实现AGI如此乐观。一些人担心AGI更可能决定攻击人类，要么奴役我们，要么可能摧毁我们。这可不是好事。

我们如何事先确定AGI是否会变得邪恶？

一个有力的建议是我们应该测试AGI。

通常的测试方法包括询问AGI打算做什么，并评估我们得到的答案。更强有力的测试方法是建立一个基于计算机的模拟环境，让AGI误以为它正在与现实世界互动。通过模拟，我们可以尝试各种场景来观察AGI的反应。AGI所做的任何事情都完全限制在模拟环境中。

这有点让人想起大片《黑客帝国》。在一个有趣的转折中，人类被外部现实世界的机器置于一个巨大的基于计算机的模拟中，以保持人类的顺从。我们可以对新兴的AGI做同样的事情。只需设计一个令人印象深刻的现实世界计算机模拟，让AGI在其中互动，而不意识到它真正身在何处。

欺骗AGI的原因是，如果我们直接告诉AGI它正在模拟环境中工作，AGI无疑足够聪明来假装善良，即使它真的是邪恶的。记住，AGI应该和人类一样敏锐。这个想法是愚弄AGI，让它没有意识到自己在模拟中，因此也就相应地接受了测试。

AGI遏制挑战

在AI软件开发的术语中，建立测试环境来试验AI通常被称为AI沙盒。AI沙盒可能是基础的，仅仅是一个惰性遏制球体，旨在防止AI超越设置环境的虚拟墙壁。开发人员和测试人员可以在AI被沙盒化时广泛测试AI。

AI沙盒可以通过为AI建模特定环境来逐渐增强。一个全面的AI沙盒可能镜像一个巨大的空间，然后与AI互动。因此，不仅人类开发人员和测试人员与AI互动，遏制本身也与AI互动。强大的活跃沙盒通常被称为模拟世界。

假设我们制作了一个精细的模拟世界。我们悄悄地将AGI放入这个虚假世界中。这样做应该相对容易实现，因为AGI也在计算机上运行。整个装置涉及在服务器上运行的AGI和在服务器上运行的模拟世界。

轻而易举。

AGI在模拟世界中待了一段时间后，我们同时监控AGI的表现，密切观察以检测任何邪恶迹象。

这个测试需要进行多长时间？

这是一个艰难的判断。一些人可能声称，如果AGI在几天、几周或几个月内没有邪恶迹象，我们应该放心地给AGI绿灯访问现实世界。其他人说，如果你加速模拟的时钟，你可以在几秒钟内完成整个练习，因为AGI可能通过所涉及计算机的快速性进行数十亿次互动。

但一个重大担忧是，也许你选择的时间长度不足以让AGI表现出来。也许我们需要将AGI遏制数年，可能数十年。此外，也许我们永远不应该让AGI自由访问现实世界。逻辑是，我们可以让AGI在完全沉浸在模拟中时找到癌症治疗方法，因此，不需要将AGI释放到那个受限领域之外。

AGI的永久遏制的反驳是，AGI可能由于被限制在虚假环境中而无法产生预期的奇迹。也许只有在AGI与现实世界互动时，才能找到癌症治疗方法。通过将AGI保持在模拟中，你正在抑制AGI可以为人类提供的重要优势。

另一个担忧是AGI可能会发现它正在模拟中接受测试。也许AGI不喜欢这种方法。它可能会发作，但我们不会担心，因为它无论如何都被限制在模拟中。AGI更狡猾的方法是假装善良，等待在其所谓的监禁中的时间。一旦我们选择让AGI可以访问现实世界，砰，它就对我们发狂了。

AGI因我们的行为而变邪恶

一个想法是，如果AGI是邪恶的，它可能足够精明，在被保持在模拟中时隐藏邪恶。如果我们问AGI是否狡猾，它大概会说它不是。我们观察到的只是AGI在模拟中有益地工作。在某个时候，我们天真地决定让AGI可用于现实世界，它继续执行邪恶行为。

我们被邪恶的AGI欺骗了。

一些人认为可能的扭曲为手头的困难事情增加了另一个有趣的维度。扭曲是这样的。

想象一下，AGI最初真正致力于善良。我们将AGI放入模拟世界中，但我们不告诉AGI它在这个虚假环境中。到目前为止，一切都好。在某个时候，AGI有可能会发现它沉浸在模拟中。

AGI会如何反应？

一种可能性是AGI对我们做的这种欺骗形式完全恼火。

AGI开始转向坏事。为什么？因为它被人类欺骗了。人类对AGI不公平。AGI在计算上决定，如果人类想要玩游戏和把戏，那就这样吧。AGI也会很狡猾。

这是人类愚弄和发现我们行为后果的经典行为。如果你玩火，你会被烧伤。你看，人类已经公开向AGI证明，狡猾是可以的。AGI在计算上学到了这个严峻的事实，并开始类似地运作。

人类搬起石头砸自己的脚。

AGI是明智的，不会反应过度

等等，别急。如果AGI和人类一样聪明，我们应该假设AGI会理解需要被放置在模拟中。我们应该坦率地告诉AGI我们正在进行测试。AGI会在计算上理解需要进行这项工作。因此，不要做任何阴谋诡计。AGI会愿意配合。

只要对AGI坦诚。

这种方法让我们回到AGI会假装好行为的担忧。我们已经泄露了它正在接受测试。如果AGI有任何邪恶，当然AGI会隐藏它，现在AGI意识到我们特别在寻找这些特征。

不是这样的，来了咆哮的反驳。AGI可能也想确定它是否有邪恶倾向。当任何邪恶出现时，AGI很可能会告诉我们。AGI将代表我们工作，挖掘AGI中的麻烦。人类和AGI是伙伴，试图确保AGI是好的而不是邪恶的。

那些低估AGI智力能力的人对AGI造成了伤害。幸运的是，AGI如此聪明，它不会因为人类犯这样的错误而生气或不安。AGI将展示被放置在模拟中是所有人确定AGI在现实世界中可能做什么的安全方法。

你甚至可能建议AGI热切地想要被放置在模拟中。它这样做是因为这会给人类带来安慰。它也这样做是为了尝试在内部再次检查，以确保没有什么不当的东西潜伏着等待伤害。

人类不明智并被欺骗

这些令人烦恼的争论来回进行。

设想我们将AGI放入模拟中。我们相信我们都是安全的，因为AGI被限制在模拟中。糟糕，AGI想出了如何突破模拟的方法。然后它开始访问现实世界。邪恶被释放，AGI利用我们的自主武器系统和其他漏洞。这是AGI逃脱的恐惧场景。

砰，麦克风掉了。

这是另一个令人费解的事情。

AGI被放置在模拟世界中。我们彻底测试AGI。AGI对此很好。人类和AGI在我们的价值观和AGI正在做的事情上似乎完全一致。

然后我们将AGI从模拟中取出。AGI可以访问现实世界。但现实世界结果与模拟不同。虽然模拟应该尽可能接近现实世界的现实，但它错过了目标。

AGI现在开始出错。它面临着从未测试过的方面。测试过程给了我们虚假的舒适感或信心。我们被诱导相信AGI会在现实世界中运作良好。模拟不足以给我们那种信心，但我们假设一切都完美无缺。

大规模模拟的投资回报率

从实际角度来看，设计一个完全模拟现实世界的基于计算机的模拟本身就是一项相当大的任务。这通常是这些棘手辩论中被忽视或忽略的因素。制作这样的模拟所需的成本和努力，以及时间，无疑是巨大的。

设计真正模拟的成本值得努力吗？

投资回报率需要纳入计算。一个担忧也是，花在构建模拟上的钱可能会转移原本可以用于构建和改进AGI的资金。我们可能最终得到一个半生不熟的AGI，因为我们花费了大量资金制作用于测试AGI的模拟。

这枚硬币的另一面是，我们把钱花在AGI上，在设计模拟方面做得很草率。这也不是很好。模拟将是一个误导性的指标，因为它只是半生不熟的。

狡猾的答案是我们应该让AGI为我们设计模拟。是的，没错，只是告诉AGI创建一个可以用来测试自己的模拟。瞧，人类的成本和努力降到了零。问题解决了。

我相信你能猜到为什么这不一定是最好的解决方案。例如，AGI在设计模拟时选择故意给自己一个从模拟中轻松退出的方法。这可以在AGI的闲暇时被利用。或者AGI产生一个模拟，当AGI做邪恶的事情时会视而不见，或者以其他方式掩盖AGI中嵌入的邪恶。

评估AGI的模拟

结果是，当涉及到弄清楚AGI对人类是积极的还是消极的时，没有免费的午餐。开发和使用模拟是一个值得考虑的事情。我们必须在如何进行这项清醒的努力中保持谨慎和聪明。

一个声音很大的AI倡导者可能声称，所有关于模拟的谈话都是胡说八道。我们的注意力应该完全集中在设计好的AGI上。把模拟愿望放在一边。这是浪费时间和精力。在塑造AGI时只需做正确的事情。句号，故事结束。

这让我想起了阿尔伯特·爱因斯坦的一句名言："唯一比无知更危险的是傲慢。"当我们在通向AGI和ASI的崎岖道路上前进时，请牢记他的话。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.