最近跟ChatGPT聊一个冷门历史概念,前两句还解释得头头是道,第三句问细节,它直接回“抱歉,我不太理解你的问题”。
当时就懵了,合着这货是金鱼记忆啊?转头就忘可还行。
这不是个例,现在的大模型基本都这毛病,刚教的新知识,对话一长就丢,只能靠预训练那点老本或者临时缓存撑着。
![]()
过去十年整个行业有点走火入魔了。
一提AI进步,就是“参数又涨了多少亿”“模型又深了多少层”。
好像只要堆够规模,智能就能自动冒出来似的。
结果呢?模型是越来越大,可“记不住新东西”这个老大难,一点没改善。
这就像我们盖楼只追求高度,不管地基稳不稳、内部结构合不合理。
![]()
传统深度学习现在就陷在这种“扁平化陷阱”里,看着热闹,实则问题一堆。
先说层数这事儿,按理说,模型层数越多,信息处理应该越深入吧?可实际情况是,很多时候层数堆上去了,计算深度压根没变化。
就像叠被子,叠十层和叠二十层,厚度不一样,但里面的棉花还是那些棉花,没变得更蓬松。
这种“深度冗余”,纯属浪费资源。
参数规模就更别提了,以前觉得参数越多模型越聪明,现在发现根本不是线性关系。
![]()
有些任务,参数翻十倍,性能就提升一点点。
更头疼的是持续学习能力,让模型学个新东西,旧知识就跟着忘,跟狗熊掰棒子似的。
这哪是智能,分明是“一次性记忆”工具。
优化器这个“幕后玩家”也有问题,现在主流的Adam、随机梯度下降这些,看着挺厉害,实则经常“迷路”。
训练的时候被局部梯度带跑偏,最后收敛到一个“次优解”,就像考试时明明会做的题,却因为粗心选错答案,潜力根本没发挥出来。
![]()
最核心的还是“记忆-学习”机制断裂。
现在的大模型就两种记忆模式,要么是预训练时固化的“老知识”,跟刻在石头上似的改不了,要么是对话时临时缓存的“即时记忆”,说完就删。
中间没有过渡,新知识沉淀不下来。
这就像我们没有笔记本,要么死记硬背,要么随手写在草稿纸上然后扔掉,能记住才怪。
就在大家以为只能这么硬扛的时候,谷歌的嵌套学习研究突然给了个新思路。
![]()
他们发现,我们一直把优化器当“训练引擎”用,其实这货本身就是个“关联记忆系统”。
这话怎么理解?优化器在训练时,会不断压缩、存储历史梯度变化的“模式”。
这些模式就像我们记笔记时画的重点、总结的规律,虽然看不见,但一直藏在“黑盒”里。
以前没人注意这点,现在才发现,这才是模型“持续记忆”的关键。
更有意思的是,优化器在工作时,其实同步跑着好几个“嵌套的小型学习程序”。
![]()
有的处理即时梯度,有的看短期趋势,有的总结长期模式。
就像我们学习时,一边听课记重点(即时),一边每天复习(短期),一边期末总结(长期),多尺度并行处理信息。
搞明白这点,嵌套学习提出了一个“双维度”理论,真正的智能学习,得“深度”和“频率”两手抓。
深度就是传统说的模型层数和容量,负责纵向抽象信息,频率则是模型内部组件更新的节奏,负责横向记忆周期。
以前我们光盯着深度猛干,把频率维度完全忽略了。
![]()
现在看来,这俩得正交协同才行。
就像种地,不光要深耕土地(深度),还得按时浇水施肥(频率),缺一个都长不好庄稼。
这理论跟人类记忆机制简直神似。
我们的工作记忆处理即时信息(高频),近期记忆归纳几天内的事(中频),长期记忆存储几年甚至几十年的知识(低频)。
神经科学里,海马体负责把短期记忆转成长期记忆,新皮层存结构化知识,这个过程就是不同频率的信息迁移。
![]()
AI要是能学这套,“失忆症”不就有救了?
基于这个思路,谷歌搞出了HOPE架构。
简单说,就是弄了一群按“高频-中频-低频”排列的MLP模块,像光谱一样覆盖不同记忆周期。
信息输入后,在这些模块间自动流动,该记的记,该忘的忘,形成连续的记忆频谱。
![]()
实验效果还真不错,在语言建模、常识推理任务上,HOPE不光性能能打,关键是能“渐进吸收”新知识,不像以前学新忘旧。
这才是AI该有的样子不是冷冰冰的“知识琥珀”,而是能持续成长的学习系统。
说到底,这十年深度学习的“幻象”,就是把“规模”当成了“智能”的代名词。
嵌套学习撕开了这层窗户纸,智能的核心不是存了多少知识,而是怎么平衡“学习-记忆-遗忘”的节奏。
接下来,短期看,在现有模型里加个“频率调节模块”,优化优化器的记忆逻辑,让AI能记住用户偏好、沉淀新知识,应该不难实现。
![]()
长期的话,搞出自演化学习系统,让AI自己调整“深度-频率”配比,实现“终身学习”,也不是没可能。
到那时候,AI就不再是预训练知识的“复读机”,而是能跟我们一起成长的“智能伙伴”。
每个优化器都变成AI的“专属笔记本”,好记性不如烂笔头,这话终于能在AI身上实现了。
![]()
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.