网易首页 > 网易号 > 正文 申请入驻

突破万次连续编辑极限!中科院提出首个理论保稳的知识保留方法

0
分享至


新智元报道

编辑:LRST

【新智元导读】LyapLock首次让大模型在上万次知识更新中稳住旧记忆、精准学新知。它用「虚拟队列」实时监控遗忘风险,动态平衡新旧知识,理论保证长期不崩盘,编辑效果比主流方法提升11.89%,还能赋能现有模型,让AI真正学会「持续成长」。

大型语言模型通常包含事实上不正确或过时的知识,这催生了用于实现精确知识更新的模型编辑方法。然而,由于缺乏适当的长期知识保留机制,当前主流的「先定位后编辑」方法在连续编辑过程中表现出渐进式的性能下降。

为了解决这个问题,中科院信工所的研究人员提出了LyapLock,将连续编辑建模为一个受约束的随机规划问题。鉴于累积保留误差约束以及逐渐揭示的编辑任务所带来的挑战。


论文链接: https://arxiv.org/pdf/2505.15702

LyapLock整合了排队论和李雅普诺夫(Lyapunov)优化,将长期的约束规划分解为易于处理的逐步子问题,从而实现高效求解。

这是第一个具备严格理论保证的模型编辑框架,在满足长期知识保留约束的同时,实现了渐近最优的编辑性能。

实验结果表明,该框架将连续编辑的能力扩展到了10,000次以上,在稳定模型通用能力的同时,其平均编辑效果比当前最先进(SOTA)的基线方法提升了11.89%。此外,该框架还可以被用来增强现有基线方法的性能。

研究背景

目前主流的「先定位后编辑(Locate-then-edit)」范式(比如大名鼎鼎的ROME和MEMIT)在单次知识更新上极其精准。为了让它们适应连续编辑,近期的研究(如RECT、AlphaEdit)尝试在参数搜索时加入正则化或零空间投影等启发式约束 。

痛点在于:这些方法本质上都是短视的。

  • 它们大都只专注于眼前的单步增量优化,缺乏一个严谨的理论框架来管控连续编辑在长期带来的累积效应 。

  • 每次编辑似乎只破坏了一点点原有知识,但一万次编辑之后,累积的保留损失(Preservation Loss)会呈现单调上涨的失控态势 。

  • 实验残酷地证明了这一点:在连续编辑10,000个样本后,所有主流基线方法在下游任务上的性能几乎全部掉到了零点(图1)。


图1:基线方法Preservation Loss爆炸和下游任务F1归零的折线图

研究方法

既然头痛医头脚痛医脚不行,那就必须从全局视角重新定义问题。

LyapLock 没有继续在单步损失函数上缝缝补补,而是直接把连续编辑建模成了一个带长期约束的随机规划问题(图2)


图2:传统的单步双目标优化与 LyapLock 约束长期优化的核心区别公式对比图

用「剥洋葱」的方式来说,直觉(Intuition)是这样的:

  • 引入虚拟队列(Virtual Queues)充当「蓄水池」:设计了一个虚拟队列 ,用来实时监控累积的记忆遗忘情况 。如果编辑某条知识导致原有知识破坏过大,超出了设定的红线阈值 ,这个队列的水位就会上涨 。

  • 动态博弈的李雅普诺夫优化(Lyapunov Optimization):这是控制论中的经典方法 。当队列水位 升高时,系统会自动拉响警报,增加损失函数中「知识保留(Preservation Loss)」的惩罚权重 。此时,模型的首要任务变成了「保护老知识」。

  • 张弛有度:而当水位下降(即近期编辑对老知识破坏不大,处于安全区)时,权重减小,系统又会把计算资源倾斜给「学习新知识(Editing Loss)」 。

通过这种方式,研究人员在理论上证明了:只要虚拟队列保持强稳定,模型在无限次连续编辑中的平均保留损失就一定会被死死锁在红线之内 。

详细结果

用真实的实验数据来说话,在LLaMA-3(8B)、GPT-J(6B) 等多个模型上进行了极限测试 。

破万次编辑,通用能力不崩盘

在连续编辑10,000次后,所有的基线方法(ROME, MEMIT, PRUNE, RECT, AlphaEdit)在 GLUE 六大下游任务上全军覆没,性能暴跌至0%。而LyapLock稳如泰山,甚至当把压力测试拉高到20,000次编辑时,模型依然保持着极佳的通用语言能力。同时,在其他基线方法的Preservation Loss类似指数上升的同时,LyapLock方法将其限制在了一定的阈值内(图3,图4)。


图3:GLUE下游任务抗跌对比


图4:Preservation Loss稳定在阈值内的对比图

知识更新性能霸榜

不仅老知识护得好,新知识也学得精。相比于第二强的基线AlphaEdit,LyapLock的平均编辑效力(Efficacy)硬生生拔高了11.89%。在LLaMA3-Counterfact场景下,泛化能力更是拉开了19.71%的巨大差距 。


图5:主实验结果

即插即用的外挂神器

LyapLock的理论框架不仅能单打独斗,还能向下兼容!把它和MEMIT、PRUNE等现有方法结合,能够直接让它们的编辑性能提升9.76%,下游任务表现更是暴涨41.11%


图6:结合 LyapLock 后基线方法性能提升的雷达图

总结与展望

LyapLock第一次利用Lyapunov优化为连续编辑套上了一层带理论保证的「锁」。它证明了,只要控制好长期损失的累积,LLM完全有潜力像人类一样,在漫长的生命周期中持续学习和修正认知,而不至于「学了新知识,忘了自己是谁」 。

当然,目前的工作也还有进步空间。

比如评测主要集中在自然语言理解(NLU)任务上,未来在代码生成、复杂数学推理等领域,这种连续编辑的锁还能不能锁得这么稳?更大的十万、百万级编辑量极限又在哪里?这些都非常值得社区继续深挖 。

参考资料:

https://arxiv.org/pdf/2505.15702

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
“你要收费我就卸载”,全网最离不开的AI不装了,口碑大反转

“你要收费我就卸载”,全网最离不开的AI不装了,口碑大反转

果壳
2026-05-09 12:33:57
伊朗宣布:没收262处“叛国者”房产!霍梅尼之孙:最高领袖正全面掌握国家事务;美军称继续对伊海上封锁,英国将派遣舰艇参加护航行动

伊朗宣布:没收262处“叛国者”房产!霍梅尼之孙:最高领袖正全面掌握国家事务;美军称继续对伊海上封锁,英国将派遣舰艇参加护航行动

每日经济新闻
2026-05-10 00:12:09
实锤了!俄媒公布俄军真实伤亡数字,比利时向乌克兰提供53架F16

实锤了!俄媒公布俄军真实伤亡数字,比利时向乌克兰提供53架F16

史政先锋
2026-05-10 21:05:57
一问到底丨世界杯转播费谈判为何陷入僵局,中国球迷还能愉快地看球吗?

一问到底丨世界杯转播费谈判为何陷入僵局,中国球迷还能愉快地看球吗?

上游新闻
2026-05-10 15:45:20
新帅徐正源搞砸了:升班马主场沦陷,耻辱6连败,姆本扎补时进球

新帅徐正源搞砸了:升班马主场沦陷,耻辱6连败,姆本扎补时进球

足球狗说
2026-05-10 20:54:29
一季度全国结婚登记169.7万对

一季度全国结婚登记169.7万对

第一财经资讯
2026-05-10 10:17:17
大丫头无缘破不胜魔咒!蒯曼1-3日本最强削球手,国乒陷入绝境

大丫头无缘破不胜魔咒!蒯曼1-3日本最强削球手,国乒陷入绝境

钉钉陌上花开
2026-05-10 20:32:26
中国首款定制癌症疫苗落地!11大癌种可申请,晚期患者绝处逢生

中国首款定制癌症疫苗落地!11大癌种可申请,晚期患者绝处逢生

新时代的两性情感
2026-05-10 09:40:15
对于明天周一后A股,我仅说三句话:第一,4200点绝对不是最高点!

对于明天周一后A股,我仅说三句话:第一,4200点绝对不是最高点!

趋势清风侠
2026-05-10 17:45:09
考比伦杯七连冠!孙颖莎独得2分力挽狂澜,国乒3-2险胜日本

考比伦杯七连冠!孙颖莎独得2分力挽狂澜,国乒3-2险胜日本

全景体育V
2026-05-10 21:38:35
77岁曹查理曝近况:东莞1300月租出租屋养老,曾拍三级片日入9万

77岁曹查理曝近况:东莞1300月租出租屋养老,曾拍三级片日入9万

一盅情怀
2026-05-10 12:56:53
京粤大战G3时间定了!广东已全队抵达北京,宏远陈老板也随队出征

京粤大战G3时间定了!广东已全队抵达北京,宏远陈老板也随队出征

多特体育说
2026-05-10 22:23:42
“重达11000克拉”!外媒:缅甸发现迄今为止第二重的“罕见巨型”红宝石

“重达11000克拉”!外媒:缅甸发现迄今为止第二重的“罕见巨型”红宝石

环球网资讯
2026-05-10 11:20:10
接了一个电话,我一辈子的积蓄没了,大家千万警惕

接了一个电话,我一辈子的积蓄没了,大家千万警惕

言言说
2026-05-09 19:21:19
31岁乌克兰女数学家23页证明,一周内连解两大世纪谜题!

31岁乌克兰女数学家23页证明,一周内连解两大世纪谜题!

補懂事的孩紙
2026-05-10 11:44:50
46岁女星自曝"私处整形":只因觉得"不对称"

46岁女星自曝"私处整形":只因觉得"不对称"

追星雷达站
2026-05-09 10:36:38
震惊!小马云18岁成年首播,在线人数破7万,与女生接吻刷爆网络

震惊!小马云18岁成年首播,在线人数破7万,与女生接吻刷爆网络

火山詩话
2026-05-09 16:02:57
没有外援就拔刀相向?神权杖硬刚枪杆子,塔利班进入内斗阶段!

没有外援就拔刀相向?神权杖硬刚枪杆子,塔利班进入内斗阶段!

寰球经纬所
2026-05-10 10:55:10
全球最大的公司诞生!市值35万亿,相当于15个阿里,利润超8000亿

全球最大的公司诞生!市值35万亿,相当于15个阿里,利润超8000亿

简易科技
2026-05-10 15:18:40
日媒:摆脱制裁开始反攻,华为海外恢复至七成,失去的正拿回来

日媒:摆脱制裁开始反攻,华为海外恢复至七成,失去的正拿回来

王新喜
2026-05-10 14:21:40
2026-05-10 23:00:49
新智元 incentive-icons
新智元
AI产业主平台领航智能+时代
15178文章数 66857关注度
往期回顾 全部

科技要闻

DeepSeek融资,改写所有人的估值

头条要闻

谈判陷僵局 世界杯转播费报价大幅降低央视仍不接招

头条要闻

谈判陷僵局 世界杯转播费报价大幅降低央视仍不接招

体育要闻

那个曾让詹姆斯抱头的兄弟,40岁从大学毕业了

娱乐要闻

赵露思老实人豁出去了 没舞蹈天赋硬跳

财经要闻

白酒大逃杀

汽车要闻

轴距加长/智驾拉满 阿维塔07L定位大五座SUV

态度原创

时尚
艺术
家居
公开课
军事航空

真爱大牌|| 用了4年都不舍得换,终于把小贵的价格也磨下来了

艺术要闻

震撼!Rico Reinhold带你领略欧美复古艺术写真!

家居要闻

菁英人居 全能豪宅

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

伊朗革命卫队深夜警告

无障碍浏览 进入关怀版