网易首页 > 网易号 > 正文 申请入驻

MIT新框架让AI模型具备自我学习和持续适应能力

0
分享至

MIT研究人员开发了一种名为自适应语言模型(SEAL)的框架,使大型语言模型能够通过更新自身内部参数来持续学习和适应。SEAL教会大语言模型生成自己的训练数据和更新指令,让模型能够永久吸收新知识并学习新任务。

这一框架在企业应用中特别有用,尤其适用于在动态环境中运行的AI智能体,它们必须不断处理新信息并调整自身行为。

大语言模型适应性挑战

虽然大型语言模型已展现出卓越能力,但让它们适应特定任务、整合新信息或掌握新推理技能仍是一大难题。

目前,面对新任务时,大语言模型通常通过微调或上下文学习等方法从"原始"数据中学习。然而,提供的数据格式并不总是最适合模型高效学习的。现有方法无法让模型自主开发最佳的信息转换和学习策略。

MIT博士生、论文共同作者Jyo Pari向VentureBeat表示:"许多企业应用场景需要的不仅仅是事实回忆,而是更深层、持久的适应能力。例如,编程助手可能需要内化公司特定的软件框架,或者面向客户的模型需要随时间学习用户的独特行为或偏好。"

在这些情况下,临时检索能力远远不够,知识需要"融入"模型权重中,从而影响所有未来响应。

创建自适应语言模型

MIT研究人员在论文中提出:"为实现语言模型的可扩展和高效适应,我们建议为大语言模型配备生成自己训练数据和微调指令的能力。"

研究人员的解决方案是SEAL,即自适应语言模型。它使用强化学习算法训练大语言模型生成"自编辑"——指定模型应如何更新自身权重的自然语言指令。这些自编辑可以重构新信息、创建合成训练样例,甚至定义学习过程本身的技术参数。

直观地说,SEAL教会模型如何创建个性化学习指南。模型不仅仅是阅读新文档(原始数据),而是学会将信息重写和重新格式化为更容易吸收和内化的形式。这一过程结合了AI研究的几个关键领域,包括合成数据生成、强化学习和测试时训练。

该框架采用双循环系统。在"内循环"中,模型使用自编辑对权重进行小幅临时更新。在"外循环"中,系统评估该更新是否改善了模型在目标任务上的性能。如果确实改善了,模型会获得正向奖励,强化其生成有效自编辑的能力。随着时间推移,大语言模型成为自我教学的专家。

研究中,研究人员为整个SEAL框架使用了单一模型。但他们也指出,这一过程可以分解为"教师-学生"模型。专门的教师模型可以训练为单独的学生模型生成有效的自编辑,然后更新学生模型。这种方法可以在企业环境中实现更专业和高效的适应流程。

SEAL实际应用

研究人员在两个关键领域测试了SEAL:知识整合(永久集成新事实的能力)和少样本学习(从少量样例中泛化的能力)。

在知识整合方面,目标是测试模型是否能在问答时无法访问文本段落的情况下回答相关问题。在原始文本上微调Llama-3.2-1B仅比基础模型略有改善。

然而,当SEAL模型通过从段落中生成多个"推论"来创建"自编辑"并在这些合成数据上训练时,准确率跃升至47%。值得注意的是,这一结果超过了使用更大规模GPT-4.1生成的合成数据,表明模型学会了为自己创建更优质的训练材料。

在少样本学习方面,研究人员在抽象推理语料库(ARC)的样例上测试SEAL,模型必须解决视觉谜题。在自编辑阶段,模型必须生成完整的适应策略,包括使用哪些数据增强和工具,以及应用什么学习率。

SEAL达到了72.5%的成功率,相比未经强化学习训练的20%成功率和标准上下文学习的0%成功率,这是显著的改进。

企业应用前景

一些专家预测,高质量人工生成训练数据的供应可能在未来几年内枯竭。进步可能很快取决于"模型生成自己高效用训练信号的能力"。研究人员补充道:"自然的下一步是元训练专门的SEAL合成数据生成器模型,产生新鲜的预训练语料库,使未来模型能够扩展并在不依赖额外人类文本的情况下实现更高的数据效率。"

例如,研究人员提出,大语言模型可以摄取学术论文或财务报告等复杂文档,并自主生成数千个解释和推论来加深理解。

研究人员解释:"这种自我表达和自我完善的迭代循环可以让模型在缺乏额外外部监督的情况下,在罕见或代表性不足的主题上持续改进。"

这一能力对构建AI智能体特别有前景。智能体系统必须在与环境交互时增量获取和保留知识。SEAL为此提供了机制。交互后,智能体可以合成自编辑来触发权重更新,使其能够内化学到的经验。这使智能体能够随时间演进,基于经验改善性能,并减少对静态编程或重复人工指导的依赖。

研究人员写道:"SEAL证明大型语言模型在预训练后无需保持静态。通过学习生成自己的合成自编辑数据并通过轻量级权重更新应用,它们可以自主整合新知识并适应新任务。"

SEAL的局限性

不过,SEAL并非万能解决方案。例如,它可能遭受"灾难性遗忘",持续的重训练循环可能导致模型忘记早期知识。

Pari说:"在我们当前的实现中,我们鼓励采用混合方法。企业应该有选择性地确定哪些知识重要到需要永久集成。"

事实性和不断变化的数据可以通过RAG保留在外部存储中,而持久的、行为塑造性知识更适合通过SEAL进行权重级更新。

他说:"这种混合记忆策略确保正确的信息得以持久保存,而不会压倒模型或引入不必要的遗忘。"

值得注意的是,SEAL需要相当长的时间来调优自编辑样例和训练模型。这使得在大多数生产环境中持续、实时编辑变得不可行。

Pari说:"我们设想了一种更实用的部署模式,系统在一段时间内收集数据——比如几小时或一天——然后在预定的更新间隔内执行针对性的自编辑。这种方法允许企业控制适应成本,同时仍能从SEAL内化新知识的能力中受益。"

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
缅怀 | 画家李宝林逝世,享年90岁

缅怀 | 画家李宝林逝世,享年90岁

中国美术报
2026-06-30 16:41:04
震惊!韩红基金会捐救护车,给富足的北京急救中心,被网友追问

震惊!韩红基金会捐救护车,给富足的北京急救中心,被网友追问

火山詩话
2026-06-30 16:59:06
百万粉丝博主公开质疑韩红基金会采购万元苹果电脑,基金会回应:官网确需较高配置电脑来支持,审计报告经过民政部门审核,符合相关法规

百万粉丝博主公开质疑韩红基金会采购万元苹果电脑,基金会回应:官网确需较高配置电脑来支持,审计报告经过民政部门审核,符合相关法规

台州交通广播
2026-06-30 15:27:12
耻辱出局!荷兰世界杯爆冷头号罪人!愚蠢操作葬送全队

耻辱出局!荷兰世界杯爆冷头号罪人!愚蠢操作葬送全队

澜归序
2026-06-30 13:54:48
雨,雨,雨!这“不懂事”的梅姑娘要闹一个礼拜?上海人再摒一摒,下周有望出梅?

雨,雨,雨!这“不懂事”的梅姑娘要闹一个礼拜?上海人再摒一摒,下周有望出梅?

新民晚报
2026-06-30 12:54:21
韩国球迷抗议,让中国承担他们世界杯费用,是中国国足坑了他们

韩国球迷抗议,让中国承担他们世界杯费用,是中国国足坑了他们

安珈使者啊
2026-06-30 14:18:04
感谢德国队!巴拉圭全国放假一天,德国本届世界杯第2次送假期

感谢德国队!巴拉圭全国放假一天,德国本届世界杯第2次送假期

全景体育V
2026-06-30 09:17:23
滨特尔携“水滴课堂”润泽敦煌,与红顶公益共筑可持续未来

滨特尔携“水滴课堂”润泽敦煌,与红顶公益共筑可持续未来

中国家电网
2026-06-30 13:20:12
“臭名昭著”的390所大学,毕业证=废纸!

“臭名昭著”的390所大学,毕业证=废纸!

谭老师地理大课堂
2026-06-30 01:35:05
司机拿5000,执法端吞322万:虹吸执法利益链如何分配?

司机拿5000,执法端吞322万:虹吸执法利益链如何分配?

娱乐圈的笔娱君
2026-06-30 01:39:05
楼上泼我家3年脏水,他儿考飞行员,我带15份录音证明送航司纪检

楼上泼我家3年脏水,他儿考飞行员,我带15份录音证明送航司纪检

千秋文化
2026-06-27 19:40:09
山东泰山,极不体面

山东泰山,极不体面

吴女士
2026-06-30 15:54:51
使用隔夜过期食材、徒手操作!超4000家门店的连锁巨头,栽了?

使用隔夜过期食材、徒手操作!超4000家门店的连锁巨头,栽了?

品牌观察官
2026-06-30 18:19:23
人民日报披露案情,抓捕12人,坐实《四渡》被黑

人民日报披露案情,抓捕12人,坐实《四渡》被黑

光影新天地
2026-06-29 20:00:56
审计署抽查60县,平均每个县翻出10个亿问题资金

审计署抽查60县,平均每个县翻出10个亿问题资金

风向观察
2026-06-30 10:44:34
未来5年,孩子上学有这些大变化!

未来5年,孩子上学有这些大变化!

安徽发布
2026-06-30 08:17:59
巴拉圭淘汰德国后,巴拉圭知名女球迷里克尔梅直播中动情落泪

巴拉圭淘汰德国后,巴拉圭知名女球迷里克尔梅直播中动情落泪

懂球帝
2026-06-30 11:32:05
不宣而战,以色列发起“斩首行动”,特朗普态度转变,英法或出兵

不宣而战,以色列发起“斩首行动”,特朗普态度转变,英法或出兵

健身狂人
2026-06-30 15:31:05
协和林博士一席话点醒无数人:晚年尊严,全靠一身筋骨撑住

协和林博士一席话点醒无数人:晚年尊严,全靠一身筋骨撑住

青苹果sht
2026-06-30 05:50:59
离谱!维也纳邻居互相举报装中国空调,一台空调卷成政治矛盾

离谱!维也纳邻居互相举报装中国空调,一台空调卷成政治矛盾

福建睿平
2026-06-30 07:38:35
2026-06-30 19:24:49
至顶科技 incentive-icons
至顶科技
科技产业媒体与 AI 产业服务机构
19706文章数 49712关注度
往期回顾 全部

科技要闻

iPhone18 Pro遭泄密!印度代工商惹祸

头条要闻

无人机攻防正酣 乌克兰却在此时给俄罗斯出了个难题

头条要闻

无人机攻防正酣 乌克兰却在此时给俄罗斯出了个难题

体育要闻

大热倒灶压力给到法国 王楚揭法国队隐患

娱乐要闻

韩红称要退出公益,多位名人挽留

财经要闻

韩国万亿"芯"基建:存储能否成AI时代油田

汽车要闻

奇瑞风云A9探店 五个理由一定来看看

态度原创

数码
时尚
教育
家居
房产

数码要闻

AMD发布MoP集成内存版Versal Premium Gen 2自适应SoC

“复古波点”又流行回来了!夏天简单穿就很时髦

教育要闻

2所高校,宣布延长博士生学制!

家居要闻

传奇筑 日常诗

房产要闻

等了三年!改善顶流实景交付,海口标杆的的答卷来了!

无障碍浏览 进入关怀版