论文推荐 | 自我完善的AI：AI与人类以更安全的共同超级智能（Co-Superintelligence）为目标的共同自我完善|科学|人工智能

分享至

*机器翻译最新论文，Meta团队关于超级AI的最新讨论，作者JasonWeston和Jakob Foerster。感谢邱德钧教授推荐

自我完善是当前人工智能领域令人振奋的目标，但充满风险且可能需要时间才能完全实现。我们主张，对人类而言更可实现且更优的目标是最大化协同完善：即人类研究者与人工智能协作，共同达成超智能。具体而言，这意味着着力提升人工智能系统与人类研究者协同开展人工智能研究的能力——从构思到实验全程合作，既能加速人工智能研究进程，又能通过人机共生关系为双方赋予更安全的超级智能。将人类研究改进纳入闭环系统，既能加速目标达成，又能确保过程安全。

1.自我完善AI的目标

自诞生以来，能够自我改进的人工智能始终是该领域的主要目标[1]。历史上，实际应用主要聚焦于通过权重参数化模型，并寻找最佳权重组合——从线性模型到神经网络，整个过程均无需人工干预。2010年代开启了模型规模持续扩大的时代[2]，虽然性能显著提升，但自我改进仍仅限于权重优化，而架构、数据、目标函数、更新规则及实现（代码）基本固定不变。当前时代将自我优化探索扩展至全方位学习改进：模型能自主生成训练数据[3]、通过自我挑战提升性能[4,5]，并学会根据任务表现自我评估与奖励[6,7,8]；详见表2。其中部分维度已显著提升性能，合成数据生成与大型语言模型作为评判者等方法已成为前沿模型的标准构建模块。而追求能够自我优化架构、重写自身代码的人工智能仍处于萌芽阶段[9,10]，但早期迹象显示其潜力巨大，当前自主人工智能研究代理的推进便是明证[11,12,13,14]。

如今显然，我们正朝着日益智能的人工智能系统迈进，从长远来看，这些系统将在所有任务指标上大幅超越人类。完全实现自我改进无疑是终极标志。然而，若在系统中未嵌入适当的引导机制就赋予人工智能这种自主能力，将给人类带来巨大风险——从滥用到目标错位[15]。尽管如此，在人工智能全面超越人类之前，我们仍有时间，尤其是在人工智能研究领域。因此我们建议，更应聚焦于人类与人工智能协同解决这些问题。

2.人类更好的目标：共同自我完善AI（co-improving AI）

我们的核心观点是：“解决人工智能”的进程可通过构建与人类协作解决人工智能问题的人工智能来加速。这有别于自我改进型人工智能的目标——后者旨在尽快将人类排除在决策循环之外，让人工智能自主开展研究与学习。相反，我们倡导“协同改进”模式：构建协作型人工智能代理，使其与人类共同开展研究。由此，我们通过研究本身来加速研究进程。关键在于，人类参与决策链使我们能够引导研究走向正确方向——即“解决人工智能”意味着为人类创造积极解决方案。我们尤其认为，这种积极解决方案应体现在人工智能在社会各领域增强人类能力、赋能人类，而非追求彻底自动化以取代人类决策。

尽管当前大部分人工智能研究仍由人类主导，但我们预期随着时间推移，这种负担将逐渐分担——随着人工智能的进步，它能与我们协同工作，承担更多提供解决方案的工作量。这种协作能充分发挥人类与人工智能互补的技能优势，二者目前在不同领域各具专长，而我们预计人工智能将在更多维度持续超越人类。然而，由于人工智能尚未成熟到能够完全自我改进，且容易出现目标错位，我们认为协同改进能让我们更快、更安全地实现目标。也就是说，在人工智能的帮助下，我们更有可能解决人工智能的能力和安全问题——但前提是人类始终参与其中，共同开展研究。因此，协同改进有助于为人类带来积极成果。

难道我们不是已经在这么做了吗？通往超级智能的道路存在多种可能性，当前的人工智能系统已在某种程度上协助我们探索这些研究方向，例如通过代码辅助和写作辅助功能。总体而言，提升前沿模型的整体能力确实能使其具备部分适合科研协作的技能——这属于附带效果。然而我们通常发现，当技能得到针对性训练时会进一步提升。例如大量投入提升AI编程能力后，其编程水平确实有所提高。但编程问题同样尚未解决[16]，而“解决”AI问题远不止于此。我们的核心观点是：若投入更多开发资源赋予AI进行AI研究协作的能力，这些能力同样会得到提升。

我们能获得什么？人工智能的进步源于训练数据与方法变革的双重驱动——从架构到训练目标的变革，这些进步往往协同作用，引发显著的范式转变。例如：创建ImageNet并引入AlexNet[33, 34]、整理网络数据并扩展变换器模型[35, 34, 37]、标注指令遵循数据并构建RLHF训练[38, 39, 40]、收集可验证推理任务并运用RLVR训练思维链模型 [41, 42, 43, 25]。每项突破都凝聚了人类研究者巨大的付出，伴随着无数细微的中间成果、错误方向与探索死胡同。任何提升研究效率的手段都将加速这一进程。因此，与强大的人工智能系统开展协同研究，必将加速发现当前尚未显现的未知范式变革。

总体而言，我们预期协同改进能带来以下优势：(i) 加速发现重要范式转变的进程；(ii) 相较于直接自我改进，在推进过程中提供更高透明度与可控性；(iii) 更聚焦于以人为本的安全人工智能。例如，我们或许能开发出在机器学习理论领域超越人类的系统，从而实现可验证安全的人工智能。相比之下，完全自主的人工智能自我改进系统可能存在目标误设问题（例如其对“解决人工智能问题”的定义未考虑人类需求）。

我们如何实现？为构建能与我们协同开展研究的人工智能，我们应将部分精力聚焦于培养具备这些技能的AI。这意味着需要通过新基准测试来衡量AI的研究协作能力，并构建能提升这些基准的训练数据与方法——正如我们培养其他技能时所做的那样。这些技能应覆盖端到端研究流程中的所有核心AI研究活动。我们在表1中定义了若干核心技能，包括：协同识别研究问题、创建训练数据与基准测试、创新方法论、设计并执行实验、开展评估与错误分析（并将结果反馈至整个流程优化）。同样重要的目标还包括：安全与对齐机制的协同设计与开发、系统改进、创新成果向实际应用场景的转化，以及科学传播。关键区别在于：与近期提出的端到端人工智能科学家方法[11, 14]不同，本研究旨在提升研究质量，而非通过全自动化加速产出研究成果（如论文）。

从协同改进到协同超智能我们设想协同改进的首要目标是提升我们研究改进人工智能的能力。我们预期成功时的最终结果——如同自我改进范式那样——将是一个具备自我改进能力的超智能系统。然而不同之处在于：当人类在每个循环步骤中协同AI系统推进时，我们拥有更多机会引导该进程产生积极的人类效益。尤其可关注安全与社会危害（详见后文），并在每个阶段提升人类集体知识储备。

展望未来，我们进一步设想协同进化的目标将从构建参与AI研究的协作AI，转向在各类研究或关乎人类的重要议题上实现协同进化。随着AI能力不断提升，这些新技能有望变得更易掌握。从人类社会角度看，构建AI能帮助人类提升自身能力、知识储备及生存境遇。因此我们可聚焦于实现这些目标的人工智能建设。我们将超越人类现有能力的AI赋能称为协同智能，强调人工智能能为人类创造的价值。

协同改进与社会危害及效益随着能力提升，潜在危害亦可能增加。当前存在诸多危害源于模型能力不足，例如越狱现象[44]的发生，正是因为模型未能“理解”自身已被越狱。与人工智能协作可助力寻找研究解决方案——解决它们自身的问题！——即发现并实施新能力，从而打造更安全的模型、建立新安全流程，并共同制定价值观、约束机制和治理框架。这种乐观观点认为，若操作得当，人工智能增强的能力反而能减少危害。

随着人工智能能力提升，还存在乐观机遇可协助解决其自身影响之外的诸多社会问题。相较于自我进化的超级智能反乌托邦范式——即人工智能统治者向人类强加最佳实践——协同进化范式主张通过合作达成共识，寻找可操作的解决方案。人类与人工智能的多方协作有助于整合观点、结构化辩论，并推动人类达成积极结论与成果。

协同改进与开放性若人类欲提升科学认知，最明晰的途径便是运用科学方法。这意味着开展可复现的科学研究，公开传播研究成果，使他人得以验证或在此基础上推进，从而促进集体知识进步。协同改进能加速这一进程，无论在人工智能领域还是其他科学领域皆然。我们注意到当前多家工业实验室正逐渐远离开放式人工智能研究。正如[45]所述，我们认同“不应以滥用担忧为借口过度限制开放性——尤其当真实动机涉及企业竞争优势时”。然而在人工智能领域，正如其他科学领域，我们认为应考虑实施管控式开放机制，以在必要时防范社会危害[45]。随着技术能力的提升，这应成为持续探讨的议题。

3.与其他现状的关系

相关立场我们的立场与关于以人为本的人工智能的论述相关[46, 47, 48, 49]，但更具体地指向通过协作研究实现（协同）超智能的目标。类似地，[50]的研究倡导合作型人工智能，主张与机器建立共同基础，其中研究将成为特殊案例。尽管如此，我们认同在超人类AI出现后，探索各类人机协作模式仍是未来人类社会的关键目标。另有研究强调目标错位是重大挑战，主张AI目标必须以人类为导向[51]。关键在于，我们主张这一艰巨课题能够且应当通过协作解决。例如，与人工智能的协作可能更易于发现其自身设计缺陷；但我们认为此类研究应当立即展开——而非等到系统全面部署后才仓促补救，届时为时已晚。

对立观点诸多研究探讨了自主自我改进及其实现途径，例如[9, 52, 53, 54, 55]。相应地，大量研究也开发了具有不同技术贡献的实际实例，详见表2所示案例。

[54]的作者们倡导进入“体验时代”，其中自我完善通过人工智能自主学习自身经验实现。这意味着与人类的协作将大幅减少——例如他们指出人工智能将“在材料科学、医学或硬件设计等领域自主设计并开展实验”。他们同时承认这“减少了人类干预和调解智能体行动的机会，因此需要极高的信任与责任门槛”。另有观点认为当自我进化目标达成后人类将无足轻重，例如[56]指出："……人工智能将殖民银河系。人类虽不会扮演重要角色，但这无妨。我们应当为参与这场超越人类的宏大进程而自豪。"

与此相对，我们构想的世界是：人类始终作为不可或缺的组成部分——虽经最大程度增强——参与经济、科学乃至所有决策流程。我们坚信人工智能界应在追求长期目标的过程中，全面拥抱并践行这一愿景。

4.结论

我们认为现有自主自我改进人工智能的目标存在误导性，原因有二：这既非实现超级智能的最快途径，亦非最安全的途径。我们主张采取协同改进模式：由人类研究者专注构建协作型人工智能，尤其要使其协助我们开展研究——借助其力量，推动人工智能持续提升协作能力、增强效能并保障安全性。实现这一目标后，未来便能创造出极具能力的AI，它们将与人类携手解决关乎全人类的重要目标与社会难题。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.