为什么说终身学习是AGI的最终形态？|模态|推理|智能体|agi

为什么说终身学习是AGI的最终形态？

2025-04-22 18:37:07　来源: 至顶AI实验室

北京举报

分享至

不知道你小时候脑海中是否冒出过这样的想法：怀疑自己是外星人，与周围人相比只有自己是独一无二的存在。但问题是你又怎么证明自己存在呢？

法国哲学家笛卡尔的观点是：“我思故我在”。

思考确实是人最擅长的事情，但是近年来AI也展现出惊人的智能，那么现在的AI已经是和人一样的存在了吗？这个问题困扰了我很久，最近看到这篇叫《Lifelong Learning of Large Language Model based Agents: A Roadmap》的论文，发现AI可能需要终身学习才能更像人，或者说成为通用人工智能AGI。

为何要让AI终身学习？

如果智能助手每次遇到新情况都需要重新学习所有知识，而不能保留之前的经验，那么它永远无法进化变强。在现实生活中，人类能够自然地吸收新知识而不忘记旧知识，但人工智能系统在这方面却面临巨大挑战。

目前AI模型（如GPT-4）在文本生成、机器翻译和问答等任务上表现出色，但是在训练后就变成了静态系统，无法适应新任务或环境，就像一本写好的书，内容一旦确定就无法改变。大语言模型智能体则是一种更高级的形式，能够感知文本、图像、传感器数据这些多模态数据，然后将这些信息存储在记忆中，并采取行动影响或响应周围环境。

从20世纪80年代开始至今，终身学习的研究已经经历了四个关键阶段。

AI系统终身学习发展的四个关键阶段

终身学习的三大支柱：感知、记忆和行动

论文将大语言模型智能体的终身学习能力分解为三个核心模块：感知模块、记忆模块和行动模块。就像人类的学习过程一样，这三个模块紧密协作，形成一个动态反馈循环。

感知模块：负责获取和整合环境信息，就像人类的感官系统，不断接收外界的刺激。在大语言模型智能体中，感知可以是单模态的纯文本信息或多模态的文本、图像、音频的组合。随着时间推移，智能体需要学会处理越来越复杂的输入信息，就像婴儿从识别简单形状逐渐发展到理解复杂场景一样。

记忆模块：是智能体学习的核心，它包含四种类型的记忆：工作记忆、情景记忆、语义记忆和参数记忆。工作记忆或者叫短期记忆，包括提示词和用户输入等；情景记忆负责存储长期经验和事件；语义记忆负责存储世界知识；参数记忆是嵌入在模型参数中的知识。这些记忆类型协同工作，帮助智能体保存关键信息并避免"灾难性遗忘"——即学习新知识时忘记旧知识的现象。

行动模块：使智能体能够与环境互动。行动模块包括操作物体或生成文本的接地行动、从记忆中获取相关信息的检索行动和进行复杂的规划和决策的推理行动。随着时间推移，这些行动能力会不断优化，使智能体能够处理越来越复杂的任务。

感知：从单模态到多模态的进化之路

智能体就像一个不断成长的孩子，最初只能理解简单的词语，随着时间推移，逐渐学会理解图像、声音甚至复杂的情境。

在单模态感知方面，研究人员已经开发出方法使智能体能够从网页、图表和游戏环境中提取结构化文本。比如说，Synapse和AgentOccam可以简化网页的HTML元素，并将它们有选择地整合到提示中；WebAgent能总结HTML文档并将指令分解为多个子指令。另一方面，一些研究将截图转换为文本格式以适应大语言模型处理。在游戏环境中，JARVIS-1和VillagerAgent等智能体通过文本媒介感知周围环境，识别角色、时间、位置等元素。

多模态感知更加复杂，因为现实世界包含多种数据类型。研究者们将这一领域分为两类挑战：新知识感知和旧知识感知。对于新知识感知，智能体需要学习如何处理所有数据具有相同模态的完整模态数据或某些模态信息缺失的不完整模态数据。相关研究有PathWeave的适配器架构，让智能体能够无缝整合单模态和跨模态信息；还有SMIL提出自适应模态加权机制，增强对严重缺失模态的鲁棒性。

对于旧知识感知，研究人员开发了TIR和Model Tailor等基于正则化的方法和Vqacl和SAMM等基于重放的方法来防止灾难性遗忘。这些方法就像复习旧课程一样，确保智能体在学习新知识时不会忘记之前学到的内容。

记忆：平衡稳定性与可塑性的艺术

记忆系统是终身学习智能体的核心，它需要在保持稳定性不忘记旧知识和保持可塑性学习新知识之间取得平衡。

工作记忆：类似于人类的短期记忆，处理即时上下文，如提示词和用户输入。研究人员已经开发出多种技术来增强工作记忆，包括提示压缩、长文本理解、角色扮演、自我纠正和提示优化。

情景记忆：存储长期经验和事件，帮助智能体记住过去的互动。这一领域的技术包括数据重放和特征重放、持续强化学习以及自我经验。RET-LLM提出一种泛化的读写记忆模块，以三元组形式存储知识；MemoChat允许智能体在长对话中动态检索和利用过去的对话信息。

语义记忆：作为外部知识存储机制，帮助智能体获取和更新世界知识。主要技术包括持续知识图谱学习和持续文档学习。这些方法使智能体能够有效地整合新知识而不影响现有知识。

参数记忆：是模型内部参数中编码的知识。通过持续指令调优（提升特定或通用能力）、持续知识编辑（更新错误或过时信息）和持续对齐（吸收人类反馈和偏好），智能体能不断更新其内部知识。

行动：从简单反应到复杂规划的发展

智能体的行动能力是其与环境互动的关键，包括接地行动、检索行动和推理行动三大类。

接地行动：涉及通过文本描述感知环境并生成文本来确定后续行动。不同环境对接地行动有不同要求：在工具环境中，ToolLLM和EASYTOOL等方法帮助智能体理解工具文档并正确调用工具；在网页环境中，AgentOccam和Synapse简化网页内容以提高输入接地行动的准确性；在游戏环境中，如Minecraft，DEPS和JARVIS-1等智能体通过可执行程序控制行为。

检索行动：使智能体能从外部信息中获取知识。从语义记忆检索涉及获取背景知识和示范；从情景记忆检索则利用过去经验提高未来行动。比如说，GITM从Minecraft Wiki检索相关文本提供游戏世界知识，Voyager将任务解决步骤表示为可执行程序。

推理行动：涉及复杂的推理和决策。研究分为情景内推理和情景间推理。情景内推理是指在同一情景中提高推理能力，情景间推理是使用不同情景的经验。具体来说，Reflexion通过自我反思优化推理，而Tree of Thoughts采用树结构管理推理过程。ICAL和GITM等方法则从过去成功任务中提取经验以提高新任务的推理能力。

未来展望：挑战与机遇并存

终身学习大模型智能体取得了显著进展，但仍面临诸多挑战。感知模块需要增强对新模态的适应能力；记忆模块需要平衡稳定性、可塑性和可扩展性；行动模块则需要处理复杂推理和高效适应。未来研究方向包括开发自适应感知架构、优化检索机制、实现神经灵感记忆巩固等。

AI系统终身学习的发展目的在于创造能像人类一样真正终身学习的智能体——它们不仅在初始领域表现出色，还能优雅地适应新任务。通过专注于强大的感知设计、高效的记忆架构和不断完善的行动模块，未来研究将推动智能体在日益复杂的动态世界中实现持续学习和适应。

基于大语言模型的智能体终身学习

至顶AI实验室洞见

感知、记忆、行动这些在动物身上才有的特征正逐渐融入AI中。

人类一生从牙牙学语到蹒跚学步到骑自行车到学游泳的几十上百年间，都是类似于强化学习的终身学习过程，中间有家庭教育，有学校引导，有公司培养。

然而对于AI模型的成长，AI大厂们往往是搜刮整个互联网的信息然后粗暴地喂给AI模型，规定在几个月甚至几周内必须学完，仿佛少了点耐心。耐心或许正是AI模型成长为通用人工智能AGI最需要的，让它有自我成长、判断、纠错的权利。

论文地址：https://arxiv.org/abs/2501.07278

本文来自至顶AI实验室，一个专注于探索生成式AI前沿技术及其应用的实验室。致力于推动生成式AI在各个领域的创新与突破，挖掘其潜在的应用场景，为企业和个人提供切实可行的解决方案。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.