网易首页 > 网易号 > 正文 申请入驻

大语言模型的自提升:技术综述与未来展望

0
分享至

来源:专知


随着大语言模型(LLMs)的持续演进,单纯依赖人类监督进行模型改进的成本日益高昂,且在可扩展性(Scalability)方面面临瓶颈。当模型在特定领域接近人类水平时,人类反馈可能无法再为模型的进一步演进提供充足的信息增量信号(Informative signals)。与此同时,模型自主决策与执行复杂任务能力的增强,为模型开发流程的逐步自动化提供了天然的抽象基础。在挑战与机遇的共同驱动下,“自我提升(Self-improvement)”技术引起了学术界的广泛关注——即模型通过自主生成数据、评估输出并迭代优化自身能力。

本文提出了自我提升语言模型的系统级视角,并引入了一个整合现有技术的统一框架。我们将自我提升系统定义为一个闭环生命周期(Closed-loop lifecycle),涵盖四个紧密耦合的过程:数据获取(Data acquisition)、数据筛选(Data selection)、模型优化(Model optimization)以及推理细化(Inference refinement),并辅以一个自主评估层(Autonomous evaluation layer)。在该框架下,模型自身成为驱动各阶段的核心主体:负责收集或生成数据、筛选关键信号、更新参数及优化输出;同时,自主评估层持续监测模型进展,并引导跨阶段的改进循环。基于此生命周期视角,我们从技术维度系统地评述了各核心组件的代表性方法。最后,我们探讨了当前的局限性,并对通往完全自主提升 LLM 的研究方向进行了展望。


1 引言

大语言模型(LLMs)通过扩展模型规模、训练数据和计算量,实现了快速且持续的性能提升 (Brown et al., 2020; Ouyang et al., 2022; Hoffmann et al., 2022; OpenAI et al., 2024)。这一进展背后一个被广泛认可的假设是:更大规模、更高质量的数据集(尤其是专家标注的人类监督信号)能够催生更强大的模型。在实践中,如 RLHF (Ouyang et al., 2022) 等方法高度依赖于精细策划的高质量监督,以对预训练模型进行对齐和优化。然而,随着模型的不断演进,主要依靠人类监督的改进范式显现出若干结构性局限:(1) 人类数据稀缺性日益凸显。高质量的专家标注数据成本高昂且难以规模化 (Gilardi et al., 2023; Villalobos et al., 2024)。构建大规模监督数据集的边际成本迅速增长,而专家劳动力的供给却十分有限。(2) 人类认知边界带来的深层限制。如果模型的监督信号永久受限于人类智能,模型是否能真正超越人类水平?当模型在特定领域接近或超过人类水平时,人类反馈可能不再能为进一步的提升提供充足的梯度信息 (Bowman, 2023; Burns et al., 2023)。这提出了一个根本性问题:当模型与监督者达到水平对等时,如何继续实现自我进化?这些限制共同驱动了对**模型自我提升(Model Self-improvement)**这一极具前景方向的探索。模型不再完全依赖外部的人类信号,而是利用其自身能力生成数据、评估输出并迭代优化其策略。

从自动化的视角来看,这一方向不仅是理想的,更是自然的。随着 LLM 变得日益先进,它们已展示出解决复杂工程任务和进行高层决策的能力。鉴于 LLM 的开发流程(包括数据获取、筛选及模型训练)本身就是一项高度复杂的工程,将这些职责委托给模型自身是发展的必然趋势。通过将 LLM 作为智能体来编排自身的开发生命周期,一个“系统侧”的自我提升闭环得以建立。如图 1 所示,我们的愿景是从人类驱动的模型开发转向自主自我提升系统范式,使 LLM 能够通过自我导向的迭代和反馈不断增强其能力。

我们将 LLM 的自我提升定义为一种学习范式,即模型在无需持续的人类在环(Human-in-the-loop)监督下,迭代地增强自身能力。该范式具有两个核心属性:自主性(Autonomy),即改进过程在没有持续人工标注或手动纠正的情况下运行。“自我”并不排斥外部组件的使用,例如教师模型、验证器、批判器、奖励模型或自动评估器仍可被引入,关键要求是学习闭环在部署后必须是完全自动化的;持续性(Continuity),自我提升并非一次性的优化,而是一个迭代的、自我强化的过程,早期阶段的输出或经验被重新利用,为随后的更新生成更强的监督信号。每一轮改进都依赖并放大先前的结果,从而实现随时间的累积性进展。在此定义下,自我提升不仅是提高任务指标的技术,更是一种实现持续、自主增长的结构性能力。从 AI 长期发展的视角看,这种能力被广泛认为是构建能够超越初始训练机制、持续学习与适应系统的核心。

受上述愿景启发,如图 2 所示,我们提出了一个由五个互连组件组成的生命周期自我提升系统。其中四个组件——数据获取(Data Acquisition)、数据筛选(Data Selection)、模型优化(Model Optimization)和推理细化(Inference Refinement)——共同回答了一个核心问题:为了构建端到端的自我提升系统,如何在不同阶段利用模型自身来驱动持续且自主的贡献?具体而言:

  • 数据获取:模型自主收集或生成其训练数据。

  • 数据筛选:模型独立评估并过滤出质量更高、更适合自身学习的数据点。

  • 模型优化:模型自主学习,有效地将数据转化为其参数内部的增强能力。

  • 推理细化:模型在推理过程中提升自身表现,而无需更改其底层参数。

除这四个阶段外,系统还需要一种长期衡量与引导机制,以确保自我提升的稳定性和可持续性。为此,我们引入了第五个组件:自主评估(Autonomous Evaluation),它为模型性能提供持续反馈并协助引导其未来发展。由于静态基准测试会迅速过时,且人类驱动的评估无法随系统增长而规模化,这种机制至关重要。通过自主评估,模型可以保持及时、自适应的反馈,支撑长期的持续改进。

这五个组件共同将模型置于自动化迭代闭环的核心地位。该统一系统确保了改进信号被一致地生成、筛选、应用、细化和评估,为 LLM 广泛的系统级自我提升铺平了道路。近期多项综述已开始从不同角度审视自我提升,反映了该领域的增长。例如,Tao et al. (2024) 侧重于通过自我训练和强化学习实现策略级自我演化;Dong et al. (2024) 回顾了提示词(Prompting)和解码细化等推理时改进技术;而 Fang et al. (2025a) 和 Gao et al. (2026) 则强调智能体系统,突出记忆、反思和工具增强交互。尽管已有这些努力,多数现有研究仍集中在应用于特定阶段(如训练或推理)的局部机制。相比之下,我们采用了系统级视角,将自我提升构想为一个统一的闭环生命周期,将模型开发的所有阶段整合进一个连贯的、用于规模化自主演化的端到端框架中。

本文余下部分的组织架构分为两个主要部分。首先,从技术角度出发,我们系统地研究了自我提升系统中的每个组件(§2 至 §6)。在每个阶段,我们先提供高层综述介绍,随后将现有方法组织成结构化类别(如图 3 所示)。我们在每节末尾均包含讨论,以总结核心见解,并分析各阶段如何相互作用并贡献于整体系统。其次,我们对自我提升系统进行了更具一般性的讨论(§7 至 §9),包括挑战与局限、应用及未来展望,从更广泛的维度探讨系统整体。此外,尽管本文主要以模型为中心,我们也纳入了关于**自我演化智能体(Self-evolving agents)**的工作,例如在 §5.4 介绍了基于智能体系统的推理时改进,并在 §8 讨论了其跨领域应用。我们认为,从单一阶段向统一自我提升系统的转变,与从独立模型向智能体系统的跨越相互呼应,反映了向更具自主性和交互性的学习系统范式转化的共同趋势。


https://www.zhuanzhiai.com/vip/66825ded762a2f00b1a3df3b05e48204


特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
美国学者:如果中国从实力地位出发,特朗普就没了讨价还价的余地

美国学者:如果中国从实力地位出发,特朗普就没了讨价还价的余地

小杨侃事
2026-03-30 18:15:31
小偷盗车摔残反索赔,一审判车主赔11万,网友怒喊:这判决太寒心

小偷盗车摔残反索赔,一审判车主赔11万,网友怒喊:这判决太寒心

今朝牛马
2026-03-29 23:38:07
周洁琼把“元气运动风”穿火了!玫红配黑,活力感直接拉满

周洁琼把“元气运动风”穿火了!玫红配黑,活力感直接拉满

君笙的拂兮
2026-03-29 20:05:35
一场3-1让王皓大喜!马龙接班人29岁还能挑大梁吗?王楚钦对手弱

一场3-1让王皓大喜!马龙接班人29岁还能挑大梁吗?王楚钦对手弱

曹说体育
2026-03-30 12:37:53
莫斯科断网后再曝停电!乌克兰空军摧毁俄军指挥部

莫斯科断网后再曝停电!乌克兰空军摧毁俄军指挥部

项鹏飞
2026-03-29 21:26:29
上海男子爱上江西51岁老太,相差18岁恋爱九年不结婚

上海男子爱上江西51岁老太,相差18岁恋爱九年不结婚

浩舞纆画
2026-03-05 18:41:23
蒯曼决胜局1-5落后,年轻教练于子洋紧张的站起来

蒯曼决胜局1-5落后,年轻教练于子洋紧张的站起来

林子说事
2026-03-30 17:34:33
平成时代女演员的巅峰时期真是令人惊叹

平成时代女演员的巅峰时期真是令人惊叹

东京新青年
2026-03-29 15:35:04
首任驻香港部队司令员,刘镇武能领到多少工资?

首任驻香港部队司令员,刘镇武能领到多少工资?

归史
2026-03-27 17:39:21
江苏沸腾了!这两大重点工程迎来新进展↓

江苏沸腾了!这两大重点工程迎来新进展↓

荷兰豆爱健康
2026-03-30 16:30:13
全球首家资产破50万亿的银行,在海南盖新楼,才99米高?

全球首家资产破50万亿的银行,在海南盖新楼,才99米高?

GA环球建筑
2026-03-30 14:29:29
越来越多的人查出肠癌!医生含泪苦劝:冰箱久置的这4物是帮凶

越来越多的人查出肠癌!医生含泪苦劝:冰箱久置的这4物是帮凶

岐黄传人孙大夫
2026-03-17 23:25:03
8万人变8千人?白营惨遭打脸,柯文哲交棒黄国昌,一个时代结束

8万人变8千人?白营惨遭打脸,柯文哲交棒黄国昌,一个时代结束

鲸探所长
2026-03-30 17:20:19
拥9亿阵却没赢墨西哥 穆帅痛批葡萄牙:没C罗就是普通队 对手不怕

拥9亿阵却没赢墨西哥 穆帅痛批葡萄牙:没C罗就是普通队 对手不怕

我爱英超
2026-03-30 07:28:56
王仕鹏现状:全家定居广东,超模妻子风韵犹存,已是大学副教授

王仕鹏现状:全家定居广东,超模妻子风韵犹存,已是大学副教授

米果说识
2026-03-29 14:27:27
72岁老人凭记忆骑行12小时跨省看孙子,进门还拿着打气筒,儿媳:凌晨4点出发,不识字、不会用导航,全靠记忆骑过来

72岁老人凭记忆骑行12小时跨省看孙子,进门还拿着打气筒,儿媳:凌晨4点出发,不识字、不会用导航,全靠记忆骑过来

观威海
2026-03-30 15:15:02
世贸天阶拆了?网友:一个时代的终结!天幕和“全北京向上看”会保留…

世贸天阶拆了?网友:一个时代的终结!天幕和“全北京向上看”会保留…

北京商报
2026-03-30 14:14:45
述评丨村田晃大,“晃”出军国主义幽灵

述评丨村田晃大,“晃”出军国主义幽灵

新华社
2026-03-29 20:13:04
老板身家是曼城老板10倍,却连亿级标王都不敢买?最有钱的老板,却成了最抠的土豪?

老板身家是曼城老板10倍,却连亿级标王都不敢买?最有钱的老板,却成了最抠的土豪?

慢歌轻步谣
2026-03-30 07:25:31
国台办刚官宣郑丽文“访陆事宜”,卢秀燕坐不住,公开唱了反调

国台办刚官宣郑丽文“访陆事宜”,卢秀燕坐不住,公开唱了反调

天气观察站
2026-03-30 17:16:21
2026-03-30 21:11:00
新浪财经 incentive-icons
新浪财经
新浪财经是一家创建于1999年8月的财经平台
2685291文章数 6255关注度
往期回顾 全部

科技要闻

一句谎言引发的硅谷血案

头条要闻

中国向能源紧缺的东南亚国家出口柴油等燃料 官方回应

头条要闻

中国向能源紧缺的东南亚国家出口柴油等燃料 官方回应

体育要闻

想进世界杯,意大利还要过他这一关

娱乐要闻

单依纯凌晨发长文道歉!李荣浩再回应

财经要闻

本轮地缘冲突,A股凭什么走出独立行情

汽车要闻

限时12.58万起 银河星耀8远航家系列上市

态度原创

家居
数码
亲子
手机
军事航空

家居要闻

东方法式美学 现代简约

数码要闻

三星Buds4 Pro评测:全能交互+沉浸式音质,安卓旗舰耳机新标杆

亲子要闻

孩子眼睛出现这些现象,一定要警惕!

手机要闻

vivo推出Y500s手机:骁龙4 Gen 2,1799元起

军事要闻

第三艘航母出动数千名士兵抵达 美军大举增兵中东战场

无障碍浏览 进入关怀版