网易首页 > 网易号 > 正文 申请入驻

为什么说终身学习是AGI的最终形态?

0
分享至

不知道你小时候脑海中是否冒出过这样的想法:怀疑自己是外星人,与周围人相比只有自己是独一无二的存在。但问题是你又怎么证明自己存在呢?

法国哲学家笛卡尔的观点是:“我思故我在”。

思考确实是人最擅长的事情,但是近年来AI也展现出惊人的智能,那么现在的AI已经是和人一样的存在了吗?这个问题困扰了我很久,最近看到这篇叫《Lifelong Learning of Large Language Model based Agents: A Roadmap》的论文,发现AI可能需要终身学习才能更像人,或者说成为通用人工智能AGI。

为何要让AI终身学习?

如果智能助手每次遇到新情况都需要重新学习所有知识,而不能保留之前的经验,那么它永远无法进化变强。在现实生活中,人类能够自然地吸收新知识而不忘记旧知识,但人工智能系统在这方面却面临巨大挑战。

目前AI模型(如GPT-4)在文本生成、机器翻译和问答等任务上表现出色,但是在训练后就变成了静态系统,无法适应新任务或环境,就像一本写好的书,内容一旦确定就无法改变。大语言模型智能体则是一种更高级的形式,能够感知文本、图像、传感器数据这些多模态数据,然后将这些信息存储在记忆中,并采取行动影响或响应周围环境。

从20世纪80年代开始至今,终身学习的研究已经经历了四个关键阶段。

AI系统终身学习发展的四个关键阶段

终身学习的三大支柱:感知、记忆和行动

论文将大语言模型智能体的终身学习能力分解为三个核心模块:感知模块、记忆模块和行动模块。就像人类的学习过程一样,这三个模块紧密协作,形成一个动态反馈循环。

感知模块:负责获取和整合环境信息,就像人类的感官系统,不断接收外界的刺激。在大语言模型智能体中,感知可以是单模态的纯文本信息或多模态的文本、图像、音频的组合。随着时间推移,智能体需要学会处理越来越复杂的输入信息,就像婴儿从识别简单形状逐渐发展到理解复杂场景一样。

记忆模块:是智能体学习的核心,它包含四种类型的记忆:工作记忆、情景记忆、语义记忆和参数记忆。工作记忆或者叫短期记忆,包括提示词和用户输入等;情景记忆负责存储长期经验和事件;语义记忆负责存储世界知识;参数记忆是嵌入在模型参数中的知识。这些记忆类型协同工作,帮助智能体保存关键信息并避免"灾难性遗忘"——即学习新知识时忘记旧知识的现象。

行动模块:使智能体能够与环境互动。行动模块包括操作物体或生成文本的接地行动、从记忆中获取相关信息的检索行动和进行复杂的规划和决策的推理行动。随着时间推移,这些行动能力会不断优化,使智能体能够处理越来越复杂的任务。

感知:从单模态到多模态的进化之路

智能体就像一个不断成长的孩子,最初只能理解简单的词语,随着时间推移,逐渐学会理解图像、声音甚至复杂的情境。

在单模态感知方面,研究人员已经开发出方法使智能体能够从网页、图表和游戏环境中提取结构化文本。比如说,Synapse和AgentOccam可以简化网页的HTML元素,并将它们有选择地整合到提示中;WebAgent能总结HTML文档并将指令分解为多个子指令。另一方面,一些研究将截图转换为文本格式以适应大语言模型处理。在游戏环境中,JARVIS-1和VillagerAgent等智能体通过文本媒介感知周围环境,识别角色、时间、位置等元素。

多模态感知更加复杂,因为现实世界包含多种数据类型。研究者们将这一领域分为两类挑战:新知识感知和旧知识感知。对于新知识感知,智能体需要学习如何处理所有数据具有相同模态的完整模态数据或某些模态信息缺失的不完整模态数据。相关研究有PathWeave的适配器架构,让智能体能够无缝整合单模态和跨模态信息;还有SMIL提出自适应模态加权机制,增强对严重缺失模态的鲁棒性。

对于旧知识感知,研究人员开发了TIR和Model Tailor等基于正则化的方法和Vqacl和SAMM等基于重放的方法来防止灾难性遗忘。这些方法就像复习旧课程一样,确保智能体在学习新知识时不会忘记之前学到的内容。

记忆:平衡稳定性与可塑性的艺术

记忆系统是终身学习智能体的核心,它需要在保持稳定性不忘记旧知识和保持可塑性学习新知识之间取得平衡。

工作记忆:类似于人类的短期记忆,处理即时上下文,如提示词和用户输入。研究人员已经开发出多种技术来增强工作记忆,包括提示压缩、长文本理解、角色扮演、自我纠正和提示优化。

情景记忆:存储长期经验和事件,帮助智能体记住过去的互动。这一领域的技术包括数据重放和特征重放、持续强化学习以及自我经验。RET-LLM提出一种泛化的读写记忆模块,以三元组形式存储知识;MemoChat允许智能体在长对话中动态检索和利用过去的对话信息。

语义记忆:作为外部知识存储机制,帮助智能体获取和更新世界知识。主要技术包括持续知识图谱学习和持续文档学习。这些方法使智能体能够有效地整合新知识而不影响现有知识。

参数记忆:是模型内部参数中编码的知识。通过持续指令调优(提升特定或通用能力)、持续知识编辑(更新错误或过时信息)和持续对齐(吸收人类反馈和偏好),智能体能不断更新其内部知识。

行动:从简单反应到复杂规划的发展

智能体的行动能力是其与环境互动的关键,包括接地行动、检索行动和推理行动三大类。

接地行动:涉及通过文本描述感知环境并生成文本来确定后续行动。不同环境对接地行动有不同要求:在工具环境中,ToolLLM和EASYTOOL等方法帮助智能体理解工具文档并正确调用工具;在网页环境中,AgentOccam和Synapse简化网页内容以提高输入接地行动的准确性;在游戏环境中,如Minecraft,DEPS和JARVIS-1等智能体通过可执行程序控制行为。

检索行动:使智能体能从外部信息中获取知识。从语义记忆检索涉及获取背景知识和示范;从情景记忆检索则利用过去经验提高未来行动。比如说,GITM从Minecraft Wiki检索相关文本提供游戏世界知识,Voyager将任务解决步骤表示为可执行程序。

推理行动:涉及复杂的推理和决策。研究分为情景内推理和情景间推理。情景内推理是指在同一情景中提高推理能力,情景间推理是使用不同情景的经验。具体来说,Reflexion通过自我反思优化推理,而Tree of Thoughts采用树结构管理推理过程。ICAL和GITM等方法则从过去成功任务中提取经验以提高新任务的推理能力。

未来展望:挑战与机遇并存

终身学习大模型智能体取得了显著进展,但仍面临诸多挑战。感知模块需要增强对新模态的适应能力;记忆模块需要平衡稳定性、可塑性和可扩展性;行动模块则需要处理复杂推理和高效适应。未来研究方向包括开发自适应感知架构、优化检索机制、实现神经灵感记忆巩固等。

AI系统终身学习的发展目的在于创造能像人类一样真正终身学习的智能体——它们不仅在初始领域表现出色,还能优雅地适应新任务。通过专注于强大的感知设计、高效的记忆架构和不断完善的行动模块,未来研究将推动智能体在日益复杂的动态世界中实现持续学习和适应。

基于大语言模型的智能体终身学习

至顶AI实验室洞见

感知、记忆、行动这些在动物身上才有的特征正逐渐融入AI中。

人类一生从牙牙学语到蹒跚学步到骑自行车到学游泳的几十上百年间,都是类似于强化学习的终身学习过程,中间有家庭教育,有学校引导,有公司培养。

然而对于AI模型的成长,AI大厂们往往是搜刮整个互联网的信息然后粗暴地喂给AI模型,规定在几个月甚至几周内必须学完,仿佛少了点耐心。耐心或许正是AI模型成长为通用人工智能AGI最需要的,让它有自我成长、判断、纠错的权利。

论文地址:https://arxiv.org/abs/2501.07278

本文来自至顶AI实验室,一个专注于探索生成式AI前沿技术及其应用的实验室。致力于推动生成式AI在各个领域的创新与突破,挖掘其潜在的应用场景,为企业和个人提供切实可行的解决方案。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
黄一鸣丑闻升级!前男友再出手:怀孕时周旋三男,更多细节流出

黄一鸣丑闻升级!前男友再出手:怀孕时周旋三男,更多细节流出

未曾青梅
2026-04-27 23:01:25
巳蛇注意:5月1号那天,会有5个人来找你,是福是喜自己看!

巳蛇注意:5月1号那天,会有5个人来找你,是福是喜自己看!

叮当当科技
2026-04-30 01:12:21
改了 8 元保号套餐后,移动竟每月白送我几十G流量

改了 8 元保号套餐后,移动竟每月白送我几十G流量

Thurman在昆明
2026-04-28 18:33:16
老杜面临终生监禁,莎拉为求自保远走他乡,中国拒绝马科斯求援

老杜面临终生监禁,莎拉为求自保远走他乡,中国拒绝马科斯求援

泪满过眼
2026-04-30 00:58:16
黄晓明双喜临门!考博复试过了,转头就带新女友高调晒照

黄晓明双喜临门!考博复试过了,转头就带新女友高调晒照

橙星文娱
2026-04-28 08:57:20
港媒曝阿sa泰国办婚礼,容祖儿、关智斌各自带着同性密友到场祝贺

港媒曝阿sa泰国办婚礼,容祖儿、关智斌各自带着同性密友到场祝贺

一盅情怀
2026-04-29 16:35:42
新奔驰S级亮相北京车展!超 50% 部件焕新,三叉星徽立标“亮”了

新奔驰S级亮相北京车展!超 50% 部件焕新,三叉星徽立标“亮”了

聊聊车生活
2026-04-29 12:16:16
摩尔线程上市后首份财报解读:四年累亏近60亿元,创始人张建中年薪720万元

摩尔线程上市后首份财报解读:四年累亏近60亿元,创始人张建中年薪720万元

搜狐科技
2026-04-29 19:51:40
兄弟俩联手创办苏宁,如今弟弟千亿资产清零,哥哥却走上另一条路

兄弟俩联手创办苏宁,如今弟弟千亿资产清零,哥哥却走上另一条路

鲸探所长
2026-03-24 14:38:04
最大的铁饭碗要碎了吗:转岗、超编、过剩......

最大的铁饭碗要碎了吗:转岗、超编、过剩......

灯锦年
2026-04-26 20:25:53
7亿美元押注西班牙夺冠,但法国正在逼近

7亿美元押注西班牙夺冠,但法国正在逼近

薛定谔的BUG
2026-04-29 18:07:27
是巧合吗?苏林是兴安春桥人,春桥的董事长叫苏勇,被传是亲兄弟

是巧合吗?苏林是兴安春桥人,春桥的董事长叫苏勇,被传是亲兄弟

纵拥千千晚星
2026-04-16 12:47:27
苏州,率先进入牛市

苏州,率先进入牛市

正解局
2026-04-29 16:06:10
什么暴雨不花妆,纯属营销噱头,看看玲花就知道多假!

什么暴雨不花妆,纯属营销噱头,看看玲花就知道多假!

小光侃娱乐
2026-04-04 11:50:07
商灭之后,中国便进入了无神期?帝辛发现神的秘密,被周朝掩盖?

商灭之后,中国便进入了无神期?帝辛发现神的秘密,被周朝掩盖?

铭记历史呀
2026-04-16 00:51:48
奥体均价37000/平,油坊桥均价12000/平,南京建邺房价谁在接盘

奥体均价37000/平,油坊桥均价12000/平,南京建邺房价谁在接盘

说故事的阿袭
2026-04-29 19:49:36
车市奇怪现象,整体销量下降,电车销量下降,但订单纷纷超2万辆

车市奇怪现象,整体销量下降,电车销量下降,但订单纷纷超2万辆

柏铭锐谈
2026-04-28 19:06:11
美司令狂言:中国武统将遭500倍打击!殊不知中国手握王牌

美司令狂言:中国武统将遭500倍打击!殊不知中国手握王牌

隔壁董小姐
2026-04-28 18:10:53
调查发现:每天吃一根香蕉,就等于给血脂添负担?真相来了

调查发现:每天吃一根香蕉,就等于给血脂添负担?真相来了

今日养生之道
2026-04-17 12:48:36
京东某员工:房贷月供2万+,媳妇全职在家带娃,绩效B-,怕被裁员

京东某员工:房贷月供2万+,媳妇全职在家带娃,绩效B-,怕被裁员

蚂蚁大喇叭
2026-04-29 12:54:07
2026-04-30 02:52:49
至顶AI实验室 incentive-icons
至顶AI实验室
一个专注于探索生成式AI前沿技术及其应用的实验室。
3467文章数 171关注度
往期回顾 全部

科技要闻

今晨庭审纪实|马斯克当庭讲述OpenAI被偷走

头条要闻

伊朗提出先解除封锁 特朗普回应

头条要闻

伊朗提出先解除封锁 特朗普回应

体育要闻

一场九球狂欢,各路神仙批量下凡

娱乐要闻

马頔一句话,孙杨妈妈怒骂节目组2小时

财经要闻

苏州,率先进入牛市

汽车要闻

技术天花板再摸高 全能型的奕境X9首秀

态度原创

数码
家居
艺术
公开课
军事航空

数码要闻

极米RS30系列投影仪发布,8822-13499元

家居要闻

寂然无界 简洁风格

艺术要闻

揭秘!梦露在镜头下的绝美瞬间,你绝对不想错过!

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

美国参议院否决限制特朗普对古巴动武的决议

无障碍浏览 进入关怀版