网易首页 > 网易号 > 正文 申请入驻

Jeff Dean盛赞姚班校友AI新研究,目前人已到Meta

0
分享至

来源:市场资讯

(来源:量子位)

谷歌AI掌舵人Jeff Dean点赞了一项新研究,还是出自清华姚班校友钟沛林团队之手。

Nested Learning嵌套学习,给出了大语言模型灾难性遗忘这一问题的最新答案!


简单来说,Nested Learning(下称NL)就是让模型从扁平的计算网,变成像人脑一样有层次、能自我调整的学习系统。

论文里还提到,甚至人们常用的Transformer,其实本质是NL的简化版,它只是把NL的多层级拆成了单一层级的线性层,并没发挥出多层级的优势。


基于NL范式的Hope模型,在语言建模任务和长上下文记忆任务中的表现均优于Transformer,且论文已经被NeurIPS 2025接收。

下面就来看看这个新范式,究竟突破在何处?

Nested Learning的核心逻辑很明确,即复杂AI模型不是“固定架构+独立算法”的组合,而是由多个嵌套/并行的「优化问题」构成的系统

在大语言模型领域,一个核心痛点始终制约着技术突破,那就是模型仿佛患上了顺行性遗忘症。

预训练完成后便难以持续吸收新知识,只能依赖有限的上下文窗口或固化的历史参数,无法像人类一样实现知识的动态积累与迭代。

与此同时,传统深度学习依赖的堆层扩参模式也逐渐触及瓶颈,增加网络层数或放大模型规模往往无法带来预期中的能力提升,甚至可能导致训练低效、泛化能力不足等问题。


而嵌套学习NL则开辟了一条模仿人脑认知机制的新路径,灵感就源自于大脑的记忆工作原理。

人类大脑通过在线巩固离线巩固两个互补的过程实现持续学习,短期内记忆快速更新,长期记忆则缓慢沉淀,不同层级的记忆系统按照各自的节奏协同运作。


NL就是把这一套逻辑数字化,把机器学习模型重构为一套嵌套式的、多层级的优化体系,每个层级都拥有独立的上下文流和更新频率。

不同于传统深度学习扁平式的参数更新模式,NL中的每个组件都像是一个专属的联想记忆模块,有的快速响应实时输入数据,有的缓慢沉淀长期知识规律,通过层级化协作实现信息的高效处理与存储。

研究团队甚至发现,我们熟知的Transformer架构,本质上只是NL的简化版本,它的线性层结构相当于忽略了NL多层级协同的核心优势,并没有充分释放模型的潜力。


基于NL范式,研究团队推出了三大核心创新成果。

首先是深度优化器

像Adam、SGD这样的传统优化器,只会按固定的公式处理梯度,并不懂记忆和预判复杂的规律,调参容易陷入僵化。

而NL的深度优化器靠预处理机制提前分辨梯度性质、用MLP神经网络替代线性记忆来存储过往梯度规律,能够预判梯度变化、灵活调参。

其次是自我修改模型

让模型摆脱固定更新规则的束缚,在训练过程中自主学习“如何调整自身参数”,面对新领域数据时能灵活适配,无需人工干预修改架构。

最后是连续记忆系统

将传统模型的短期/长期记忆二元结构升级为多尺度记忆链,不同MLP模块按不同频率更新,分别负责存储短期细节与长期规律,实现类似人类的分层记忆管理。

而这些创新最终凝聚为Hope模型


经过测试,在语言建模与常识推理任务中,从760M到1.3B参数规模的Hope,表现均大幅超越Transformer、RetNet、DeltaNet等主流基线模型。

在Wiki文本困惑度、PIQA物理常识推理、Winograd指代消解等多项指标上,Hope要么以更低的困惑度展现出更优的语言建模能力,要么以更高的准确率证明了更强的推理水平。


嵌套学习NL的提出,本质上是对深度学习核心架构的一次范式重构。

它跳出了堆层扩参的惯性思维,转而从认知科学中汲取灵感,让模型从扁平的计算网络进化为分层协作的智能系统。

这种全新的范式或许能让AI真正摆脱静态模型的桎梏,像人类一样在持续学习中积累经验、优化能力,也可能为大语言模型的终身学习、长上下文推理等关键难题提供全新的解决方案。

而在这样一项研究的团队名单里,令人欣喜的是出现了清华姚班校友钟沛林的名字。

钟沛林,2016年毕业于清华姚班,2021年拿到哥伦比亚大学的计算机博士学位。并且从2021年起,他就加入了谷歌纽约研究院,担任算法与优化团队的科学家。


实际上,在进入清华姚班之前,他就已经是一位竞赛达人。

据网友透露,钟沛林的外公曾说,当时还在上中学的小钟每到深夜某一时间闹钟响起,题库开放时,就会和全球的小伙伴一起编程做题。

2012年,小钟代表雅礼中学出征国际信息学奥林匹克竞赛,并获得当年的IOI金牌。和钟沛林同年获得金奖的,还有顾昱洲、李超以及同为雅礼中学学子的艾雨青。

有意思的是,钟沛林和艾雨青两人是发小,艾雨青还曾透露自己是在钟沛林的影响下,走上IOI之路,两人并肩成为了那一年雅礼中学的双子星,保送至清华姚班。


虽然在写NL这篇论文时,钟沛林尚在谷歌纽约研究院就职。

左:钟沛林 右:艾雨青


但目前,这对双子星已前后脚入职了Meta,分别担任AI科学家和软件工程师。

[1]https://x.com/JeffDean/status/1986938111839129858

[2]https://research.google/blog/introducing-nested-learning-a-new-ml-paradigm-for-continual-learning/

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
蒋勤勤揭开辛柏青丧妻两个月后的处境,令人担忧的事还是发生了

蒋勤勤揭开辛柏青丧妻两个月后的处境,令人担忧的事还是发生了

揽星河的笔记
2025-12-03 19:58:54
你见过最离谱的网购是什么?网友:仓库是不会承认自己发错了的

你见过最离谱的网购是什么?网友:仓库是不会承认自己发错了的

另子维爱读史
2026-02-16 20:35:50
法国第一美人消失25年,被救时竟已沦为46斤人畜,亲妈在阁楼里藏了整整25年的秘密终于曝光了

法国第一美人消失25年,被救时竟已沦为46斤人畜,亲妈在阁楼里藏了整整25年的秘密终于曝光了

历史回忆室
2026-01-02 19:54:11
郑州10岁男孩8万压岁钱被父亲偷偷取走,用于再婚开销,男孩无奈起诉,法院:全额返还存款及利息

郑州10岁男孩8万压岁钱被父亲偷偷取走,用于再婚开销,男孩无奈起诉,法院:全额返还存款及利息

极目新闻
2026-02-20 17:01:59
皇马后卫赫伊森转发社媒,内容含明显辱华的种族歧视评论

皇马后卫赫伊森转发社媒,内容含明显辱华的种族歧视评论

懂球帝
2026-02-21 23:48:17
凯特王妃自安德鲁被捕后首露面,穿搭高雅吸睛,开怀大笑精气神好

凯特王妃自安德鲁被捕后首露面,穿搭高雅吸睛,开怀大笑精气神好

译言
2026-02-22 04:09:01
改变一个孩子最有效的手段,不是讲道理、发脾气

改变一个孩子最有效的手段,不是讲道理、发脾气

经济观察网
2025-11-10 09:57:13
世界第1爆冷出局,赵心童6-5大逆转晋级决赛对阵出炉,第6冠稳了

世界第1爆冷出局,赵心童6-5大逆转晋级决赛对阵出炉,第6冠稳了

求球不落谛
2026-02-22 07:00:05
印度谈中印战争:中国军队伤亡2400人,8个人才能打赢一个印度兵

印度谈中印战争:中国军队伤亡2400人,8个人才能打赢一个印度兵

比利
2026-02-22 19:53:00
高速服务区如何盈利?多数人只上厕所或接热水,听保安怎么说?

高速服务区如何盈利?多数人只上厕所或接热水,听保安怎么说?

寄星夜幕星河
2026-02-17 20:39:30
1962年,陈云被毛主席约谈一小时后,告假不再参会:心脏不好

1962年,陈云被毛主席约谈一小时后,告假不再参会:心脏不好

雍亲王府
2026-02-22 12:50:06
美国制裁古巴的太阳了吗?援助的大米是自己游泳过去的吗?

美国制裁古巴的太阳了吗?援助的大米是自己游泳过去的吗?

忠于法纪
2026-01-27 08:57:12
联盟第一!活塞5连胜送公牛8连败 坎宁安准三双杜伦复出26+13

联盟第一!活塞5连胜送公牛8连败 坎宁安准三双杜伦复出26+13

醉卧浮生
2026-02-22 11:22:15
许某深陷困境:不惧妈祖惩罚,唯恐失去闽粤商人合作。

许某深陷困境:不惧妈祖惩罚,唯恐失去闽粤商人合作。

特约前排观众
2026-02-22 00:15:04
深圳一海边突发!有人高处坠落……

深圳一海边突发!有人高处坠落……

深圳晚报
2026-02-22 17:26:38
旅客下车接电话将900克金饰遗落在动车上,价值约135万元,乘务组:在行李架上,黑色手提袋里有金条、金手链、金项链等

旅客下车接电话将900克金饰遗落在动车上,价值约135万元,乘务组:在行李架上,黑色手提袋里有金条、金手链、金项链等

封面新闻
2026-02-21 18:27:11
不查不知道一查吓一跳,掌管少林寺38年的释永信,私下到底多享受

不查不知道一查吓一跳,掌管少林寺38年的释永信,私下到底多享受

金哥说新能源车
2026-02-22 13:47:06
新一轮楼市风暴,又要开始了!

新一轮楼市风暴,又要开始了!

巢客HOME
2026-02-22 09:50:05
网上都在说春晚王菲输给了伊能静,可高清镜头一切过去,

网上都在说春晚王菲输给了伊能静,可高清镜头一切过去,

小光侃娱乐
2026-02-22 08:30:07
深度长文:能量不会凭空出现,那么宇宙大爆炸的超级能量来自哪?

深度长文:能量不会凭空出现,那么宇宙大爆炸的超级能量来自哪?

宇宙时空
2026-02-21 19:45:04
2026-02-22 22:19:00
新浪财经 incentive-icons
新浪财经
新浪财经是一家创建于1999年8月的财经平台
2232693文章数 5511关注度
往期回顾 全部

科技要闻

马斯克:星舰每年将发射超过10000颗卫星

头条要闻

中国游客与贝加尔湖8死事故擦肩而过:曾踩过出事冰缝

头条要闻

中国游客与贝加尔湖8死事故擦肩而过:曾踩过出事冰缝

体育要闻

自由式滑雪U型池 谷爱凌成功卫冕

娱乐要闻

裴世矩养侄为刃 看懂两次放行裴行俨!

财经要闻

特朗普新加征关税税率从10%提升至15%

汽车要闻

续航1810km!smart精灵#6 EHD超级电混2026年上市

态度原创

艺术
教育
亲子
房产
手机

艺术要闻

冷军:超小幅名人肖像油画新作

教育要闻

本科生,就业去哪了?

亲子要闻

萌娃竟想让爸爸被抓走?原因真是太逗了

房产要闻

窗前即地标!独占三亚湾C位 自贸港总裁行宫亮相

手机要闻

消息称苹果计划7月启动iPhone Fold与18 Pro大规模量产,两款机型预计同步发售

无障碍浏览 进入关怀版