网易首页 > 网易号 > 正文 申请入驻

为什么说终身学习是AGI的最终形态?

0
分享至

不知道你小时候脑海中是否冒出过这样的想法:怀疑自己是外星人,与周围人相比只有自己是独一无二的存在。但问题是你又怎么证明自己存在呢?

法国哲学家笛卡尔的观点是:“我思故我在”。

思考确实是人最擅长的事情,但是近年来AI也展现出惊人的智能,那么现在的AI已经是和人一样的存在了吗?这个问题困扰了我很久,最近看到这篇叫《Lifelong Learning of Large Language Model based Agents: A Roadmap》的论文,发现AI可能需要终身学习才能更像人,或者说成为通用人工智能AGI。

为何要让AI终身学习?

如果智能助手每次遇到新情况都需要重新学习所有知识,而不能保留之前的经验,那么它永远无法进化变强。在现实生活中,人类能够自然地吸收新知识而不忘记旧知识,但人工智能系统在这方面却面临巨大挑战。

目前AI模型(如GPT-4)在文本生成、机器翻译和问答等任务上表现出色,但是在训练后就变成了静态系统,无法适应新任务或环境,就像一本写好的书,内容一旦确定就无法改变。大语言模型智能体则是一种更高级的形式,能够感知文本、图像、传感器数据这些多模态数据,然后将这些信息存储在记忆中,并采取行动影响或响应周围环境。

从20世纪80年代开始至今,终身学习的研究已经经历了四个关键阶段。



AI系统终身学习发展的四个关键阶段

终身学习的三大支柱:感知、记忆和行动

论文将大语言模型智能体的终身学习能力分解为三个核心模块:感知模块、记忆模块和行动模块。就像人类的学习过程一样,这三个模块紧密协作,形成一个动态反馈循环。

感知模块:负责获取和整合环境信息,就像人类的感官系统,不断接收外界的刺激。在大语言模型智能体中,感知可以是单模态的纯文本信息或多模态的文本、图像、音频的组合。随着时间推移,智能体需要学会处理越来越复杂的输入信息,就像婴儿从识别简单形状逐渐发展到理解复杂场景一样。

记忆模块:是智能体学习的核心,它包含四种类型的记忆:工作记忆、情景记忆、语义记忆和参数记忆。工作记忆或者叫短期记忆,包括提示词和用户输入等;情景记忆负责存储长期经验和事件;语义记忆负责存储世界知识;参数记忆是嵌入在模型参数中的知识。这些记忆类型协同工作,帮助智能体保存关键信息并避免"灾难性遗忘"——即学习新知识时忘记旧知识的现象。

行动模块:使智能体能够与环境互动。行动模块包括操作物体或生成文本的接地行动、从记忆中获取相关信息的检索行动和进行复杂的规划和决策的推理行动。随着时间推移,这些行动能力会不断优化,使智能体能够处理越来越复杂的任务。

感知:从单模态到多模态的进化之路

智能体就像一个不断成长的孩子,最初只能理解简单的词语,随着时间推移,逐渐学会理解图像、声音甚至复杂的情境。

在单模态感知方面,研究人员已经开发出方法使智能体能够从网页、图表和游戏环境中提取结构化文本。比如说,Synapse和AgentOccam可以简化网页的HTML元素,并将它们有选择地整合到提示中;WebAgent能总结HTML文档并将指令分解为多个子指令。另一方面,一些研究将截图转换为文本格式以适应大语言模型处理。在游戏环境中,JARVIS-1和VillagerAgent等智能体通过文本媒介感知周围环境,识别角色、时间、位置等元素。

多模态感知更加复杂,因为现实世界包含多种数据类型。研究者们将这一领域分为两类挑战:新知识感知和旧知识感知。对于新知识感知,智能体需要学习如何处理所有数据具有相同模态的完整模态数据或某些模态信息缺失的不完整模态数据。相关研究有PathWeave的适配器架构,让智能体能够无缝整合单模态和跨模态信息;还有SMIL提出自适应模态加权机制,增强对严重缺失模态的鲁棒性。

对于旧知识感知,研究人员开发了TIR和Model Tailor等基于正则化的方法和Vqacl和SAMM等基于重放的方法来防止灾难性遗忘。这些方法就像复习旧课程一样,确保智能体在学习新知识时不会忘记之前学到的内容。

记忆:平衡稳定性与可塑性的艺术

记忆系统是终身学习智能体的核心,它需要在保持稳定性不忘记旧知识和保持可塑性学习新知识之间取得平衡。

工作记忆:类似于人类的短期记忆,处理即时上下文,如提示词和用户输入。研究人员已经开发出多种技术来增强工作记忆,包括提示压缩、长文本理解、角色扮演、自我纠正和提示优化。

情景记忆:存储长期经验和事件,帮助智能体记住过去的互动。这一领域的技术包括数据重放和特征重放、持续强化学习以及自我经验。RET-LLM提出一种泛化的读写记忆模块,以三元组形式存储知识;MemoChat允许智能体在长对话中动态检索和利用过去的对话信息。

语义记忆:作为外部知识存储机制,帮助智能体获取和更新世界知识。主要技术包括持续知识图谱学习和持续文档学习。这些方法使智能体能够有效地整合新知识而不影响现有知识。

参数记忆:是模型内部参数中编码的知识。通过持续指令调优(提升特定或通用能力)、持续知识编辑(更新错误或过时信息)和持续对齐(吸收人类反馈和偏好),智能体能不断更新其内部知识。

行动:从简单反应到复杂规划的发展

智能体的行动能力是其与环境互动的关键,包括接地行动、检索行动和推理行动三大类。

接地行动:涉及通过文本描述感知环境并生成文本来确定后续行动。不同环境对接地行动有不同要求:在工具环境中,ToolLLM和EASYTOOL等方法帮助智能体理解工具文档并正确调用工具;在网页环境中,AgentOccam和Synapse简化网页内容以提高输入接地行动的准确性;在游戏环境中,如Minecraft,DEPS和JARVIS-1等智能体通过可执行程序控制行为。

检索行动:使智能体能从外部信息中获取知识。从语义记忆检索涉及获取背景知识和示范;从情景记忆检索则利用过去经验提高未来行动。比如说,GITM从Minecraft Wiki检索相关文本提供游戏世界知识,Voyager将任务解决步骤表示为可执行程序。

推理行动:涉及复杂的推理和决策。研究分为情景内推理和情景间推理。情景内推理是指在同一情景中提高推理能力,情景间推理是使用不同情景的经验。具体来说,Reflexion通过自我反思优化推理,而Tree of Thoughts采用树结构管理推理过程。ICAL和GITM等方法则从过去成功任务中提取经验以提高新任务的推理能力。

未来展望:挑战与机遇并存

终身学习大模型智能体取得了显著进展,但仍面临诸多挑战。感知模块需要增强对新模态的适应能力;记忆模块需要平衡稳定性、可塑性和可扩展性;行动模块则需要处理复杂推理和高效适应。未来研究方向包括开发自适应感知架构、优化检索机制、实现神经灵感记忆巩固等。

AI系统终身学习的发展目的在于创造能像人类一样真正终身学习的智能体——它们不仅在初始领域表现出色,还能优雅地适应新任务。通过专注于强大的感知设计、高效的记忆架构和不断完善的行动模块,未来研究将推动智能体在日益复杂的动态世界中实现持续学习和适应。



基于大语言模型的智能体终身学习

至顶AI实验室洞见

感知、记忆、行动这些在动物身上才有的特征正逐渐融入AI中。

人类一生从牙牙学语到蹒跚学步到骑自行车到学游泳的几十上百年间,都是类似于强化学习的终身学习过程,中间有家庭教育,有学校引导,有公司培养。

然而对于AI模型的成长,AI大厂们往往是搜刮整个互联网的信息然后粗暴地喂给AI模型,规定在几个月甚至几周内必须学完,仿佛少了点耐心。耐心或许正是AI模型成长为通用人工智能AGI最需要的,让它有自我成长、判断、纠错的权利。

论文地址:https://arxiv.org/abs/2501.07278

本文来自至顶AI实验室,一个专注于探索生成式AI前沿技术及其应用的实验室。致力于推动生成式AI在各个领域的创新与突破,挖掘其潜在的应用场景,为企业和个人提供切实可行的解决方案。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
一眼醉!洋河把“酒瓶”立在南京,近百米高!

一眼醉!洋河把“酒瓶”立在南京,近百米高!

GA环球建筑
2025-09-16 09:16:52
法甲第3耻辱一战:欧冠被灌4球,巴萨昔日天才破门挽回颜面

法甲第3耻辱一战:欧冠被灌4球,巴萨昔日天才破门挽回颜面

足球狗说
2025-09-19 06:35:16
昔日天才今何在?法蒂时隔四年再度收获欧冠进球

昔日天才今何在?法蒂时隔四年再度收获欧冠进球

雷速体育
2025-09-19 02:53:08
关晓彤罕见晒大尺度泳装照,身材比例一绝!这是真跟鹿晗分手了?

关晓彤罕见晒大尺度泳装照,身材比例一绝!这是真跟鹿晗分手了?

好叫好伐
2025-09-17 22:36:42
涉嫌严重违纪违法!陈军,任上被查

涉嫌严重违纪违法!陈军,任上被查

政知新媒体
2025-09-18 17:20:02
夫妻之间,要有神秘感。

夫妻之间,要有神秘感。

刘娜
2025-09-17 12:30:02
上海校园餐,日供50万份就是最大的问题

上海校园餐,日供50万份就是最大的问题

林中木白
2025-09-18 11:38:03
此开国元帅人品端正,58年帮粟裕说话,59年敢在庐山去看望彭总

此开国元帅人品端正,58年帮粟裕说话,59年敢在庐山去看望彭总

言今忆史
2025-09-17 18:56:29
iPhone 17 Pro Max充电实测:没必要买329元的新充电头

iPhone 17 Pro Max充电实测:没必要买329元的新充电头

快科技
2025-09-18 10:58:06
把女人当工具,黄一鸣自曝和王思聪陪玩细节,普通人连想都不敢想

把女人当工具,黄一鸣自曝和王思聪陪玩细节,普通人连想都不敢想

TVB的四小花
2025-09-16 14:45:01
广东一公园露营活动卡式炉爆炸5人受伤!主办方承认操作不当并道歉

广东一公园露营活动卡式炉爆炸5人受伤!主办方承认操作不当并道歉

极目新闻
2025-09-18 21:00:33
不顾央视“警告”,与刘涛传出绯闻的杨烁,终究为自己的行为买单

不顾央视“警告”,与刘涛传出绯闻的杨烁,终究为自己的行为买单

阿坹武器装备科普
2025-09-18 16:12:59
上海学校虾仁炒蛋发臭后续:紧急撤换、官方介入、供餐方老底被扒

上海学校虾仁炒蛋发臭后续:紧急撤换、官方介入、供餐方老底被扒

千言娱乐记
2025-09-18 19:33:18
转身精妙挑传!福登社媒庆祝胜利:今晚结果很棒!继续专注下一场

转身精妙挑传!福登社媒庆祝胜利:今晚结果很棒!继续专注下一场

直播吧
2025-09-19 07:24:28
年薪400万!穆帅回归本菲卡,37岁老将主力难保:连续3场失误送礼

年薪400万!穆帅回归本菲卡,37岁老将主力难保:连续3场失误送礼

球场没跑道
2025-09-18 21:03:16
特雷·杨回击贝弗利:我不是个自私的人 希望他能如愿博取关注

特雷·杨回击贝弗利:我不是个自私的人 希望他能如愿博取关注

北青网-北京青年报
2025-09-19 07:28:04
“嘎子哥”谢孟伟千万粉丝账号被封

“嘎子哥”谢孟伟千万粉丝账号被封

扬子晚报
2025-09-18 15:16:58
当色情行业赚不到钱时,经济真的该警惕了?

当色情行业赚不到钱时,经济真的该警惕了?

流苏晚晴
2025-09-17 18:05:22
24岁小伙爱上51岁大妈,大妈性欲高还虐待他,结果被小伙砍成5段

24岁小伙爱上51岁大妈,大妈性欲高还虐待他,结果被小伙砍成5段

胖胖侃咖
2024-04-22 08:00:09
日本房价崩盘回忆:当年那些选择“不买房”的人,后来都怎么样了

日本房价崩盘回忆:当年那些选择“不买房”的人,后来都怎么样了

揽星河的笔记
2025-09-17 19:45:54
2025-09-19 07:43:00
至顶AI实验室 incentive-icons
至顶AI实验室
一个专注于探索生成式AI前沿技术及其应用的实验室。
330文章数 148关注度
往期回顾 全部

科技要闻

黄仁勋亲口确认:正评估英特尔代工

头条要闻

35岁男子回乡"崖下洞居" 创业失败家里没房欠银行35万

头条要闻

35岁男子回乡"崖下洞居" 创业失败家里没房欠银行35万

体育要闻

身高170的他,让196的博尔特坐不住了

娱乐要闻

最美央视才女,甩掉孙红雷嫁给张嘉益

财经要闻

美英签署历史性科技协议!特朗普发声

汽车要闻

女神代言/新增配色/智能升级 26款腾势N9售38.98万起

态度原创

数码
旅游
游戏
公开课
军事航空

数码要闻

彩屏版Meta AI眼镜发布!只支持单眼,Rokid的路子更对?

旅游要闻

热闻|清明假期将至,热门目的地有哪些?

魔兽怀旧服:HRS下周正式开放,玩家用脚投票,时光徽章暴跌!

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

哈马斯高层在多哈遇袭后首次现身

无障碍浏览 进入关怀版