网易首页 > 网易号 > 正文 申请入驻

清华大学突破性发现:AI训练的"双重人格"竟然可以完美融合!

0
分享至


在人工智能的世界里,有一个长久存在的难题就像教育孩子一样复杂:你是让孩子先跟着老师一板一眼地学习标准答案,还是让他们自由探索、从试错中成长?这个看似简单的选择,在大语言模型的训练中却一直让研究者们头疼不已。

这项由清华大学计算机系吕星泰、左玉欣等研究团队联合上海AI实验室和微信AI共同完成的突破性研究,发表于2025年9月,为这个困扰业界已久的问题提供了令人惊喜的答案。有兴趣深入了解的读者可以通过arXiv:2509.04419v1访问完整论文。研究团队发现,原本看似对立的两种训练方法——监督微调和强化学习——实际上就像一枚硬币的两面,它们不仅不冲突,反而可以完美融合,创造出更强大的AI系统。

回到现实生活中的教育场景,监督微调就像是让学生照着标准答案学习,这种方法见效快,能让AI迅速掌握人类专家的解题思路。而强化学习则像是让学生自己摸索,通过不断尝试和获得反馈来提升能力,这种方法虽然慢一些,但能培养出更强的创新和适应能力。

长期以来,业界普遍认为这两种方法只能分阶段使用——先让AI通过监督微调打好基础,再用强化学习进行提升。这种做法不仅消耗大量计算资源,还需要精心调整各个阶段的参数,就像要同时当两种完全不同风格的老师一样困难。

然而,清华研究团队的这项工作彻底颠覆了这种认知。他们通过深入的数学分析发现,监督微调和强化学习在本质上都在优化同一个目标函数,只是采用了不同的数学路径而已。这就好比两个人要从北京到上海,一个人选择坐高铁,另一个人选择开车,虽然方式不同,但目的地是一样的。

基于这个重要发现,研究团队提出了一个统一的数学框架,他们称之为"统一策略梯度估计器"。这个框架就像一个万能遥控器,可以控制不同品牌的电视机一样,它能够统一描述各种不同的AI训练算法。更有意思的是,研究团队发现所有这些不同的训练方法,其实都可以拆解成四个基本组件:稳定性掩码、参考策略、优势估计和似然梯度。

稳定性掩码就像汽车的安全带,当训练过程出现不稳定迹象时,它会及时"踩刹车",防止AI的学习过程失控。参考策略则像是学习过程中的参照物,告诉AI什么样的表现是可以接受的。优势估计相当于给AI的每一个尝试打分,让它知道哪些行为值得鼓励。似然梯度则是具体的学习机制,指导AI如何根据反馈调整自己的参数。

这个统一框架的意义远不止于理论层面的突破。就像发现了电磁统一理论一样,它为开发更高效的AI训练方法奠定了基础。研究团队基于这个理论框架,开发出了一种全新的训练算法,叫做"混合后训练"(HPT)。

混合后训练就像一个智能的私人教练,它能够实时判断AI学生当前的学习状态,然后动态调整教学策略。当AI在某个问题上表现不好时,系统会自动切换到监督微调模式,让AI先跟着标准答案学习;当AI表现良好时,系统又会切换到强化学习模式,让AI进行更多的自主探索。

这种动态切换机制的核心是一个简单而巧妙的"门控"系统。研究团队让AI先尝试解答一些问题,然后根据正确率来决定采用哪种训练方式。如果正确率低于设定的阈值,就使用监督微调;如果高于阈值,就使用强化学习。这就像一个自动调节的恒温器,能根据环境温度自动调整加热或制冷模式。

为了验证这个方法的效果,研究团队在多个数学推理任务上进行了大规模实验。他们使用了不同规模的模型,包括15亿参数的小型模型、70亿参数的中型模型,以及80亿参数的大型模型。实验涵盖了从美国数学邀请赛(AIME)到国际数学奥林匹克竞赛等多个层次的数学问题。

实验结果令人印象深刻。在最具挑战性的AIME 2024测试中,使用混合后训练的AI模型比最强的基准方法高出了7个百分点,这在AI竞赛中是一个相当显著的提升。更重要的是,这种方法不仅在单一答案的准确性上表现出色,在需要多次尝试的Pass@1024测试中也取得了最佳成绩,说明AI不仅能给出正确答案,还具备了更强的探索和泛化能力。

研究团队通过详细的训练过程可视化分析,揭示了混合后训练的工作机制。他们发现,在训练初期,当AI的能力还比较弱时,系统主要依靠监督微调,让AI大量学习专家示例。随着训练的进行,AI逐渐具备了一定的问题解决能力,系统开始更多地采用强化学习,让AI进行自主探索。最终,系统会在两种方法之间找到一个动态平衡点。

这种训练方式的另一个重要优势是保持了AI的"好奇心"。传统的强化学习训练容易让AI变得过于保守,只选择那些有把握的简单问题来解决。而混合后训练通过适时引入监督学习的"营养补给",让AI能够持续保持对复杂问题的探索欲望。

研究团队还发现了一个有趣的现象:不同规模的模型需要不同的门控阈值。大型模型由于本身能力较强,可以更早地切换到强化学习模式;而小型模型则需要更长时间的监督学习来打好基础。这就像不同年龄的学生需要不同的教学方法一样,体现了个性化教育的重要性。

从技术创新的角度来看,这项研究的意义不仅在于提出了一个新的训练算法,更重要的是它揭示了AI训练领域的一个根本性原理。研究团队证明了,看似不同的训练方法其实都在解决同一个优化问题,只是在偏差和方差之间做出了不同的权衡选择。这个发现为未来开发更多创新的训练方法提供了理论指导。

在实际应用层面,这项技术突破意味着AI训练将变得更加高效和经济。传统的分阶段训练方法需要大量的计算资源和精心的参数调整,而混合后训练能够在单一训练过程中自动实现最优的方法组合,大大降低了训练成本和技术门槛。

研究团队还对训练过程中的各种动态指标进行了深入分析。他们发现,使用混合后训练的AI模型不仅在准确率上有所提升,在输出多样性(熵值)和推理长度方面也表现出更好的特性。这说明AI不仅学会了给出正确答案,还掌握了更丰富的推理策略。

值得注意的是,这种方法的成功并不依赖于复杂的工程技巧或大量的超参数调整。研究团队使用的门控机制非常简单——就是一个基于性能表现的二元选择开关。这种简洁性使得该方法具有很强的实用性和可推广性。

从更广阔的视角来看,这项研究为人工智能的学习方式提供了新的思路。它表明,最有效的学习可能不是单一方法的极致应用,而是多种方法的智能组合。这个原理不仅适用于数学推理,很可能也适用于其他认知任务,如语言理解、创意写作或复杂决策。

研究团队在论文中还详细分析了不同组件对最终性能的贡献。他们发现,稳定性掩码主要影响训练的稳定性,参考策略影响学习效率,优势估计影响探索质量,而似然梯度则直接关系到知识的内化程度。这种细粒度的分析为进一步优化训练算法提供了具体的方向。

这项工作的另一个重要贡献是建立了理论与实践之间的桥梁。长期以来,AI训练更多依赖经验和试错,而这项研究通过严格的数学推导,为实践中的成功经验提供了理论解释,同时也为未来的算法设计提供了科学依据。

说到底,这项研究最大的价值在于它改变了我们对AI学习的根本认知。它告诉我们,不同的学习方法之间并不存在不可调和的矛盾,关键在于找到它们的共同本质和最佳组合方式。这种思路不仅适用于AI系统,也为人类教育和学习提供了有益的启示。

归根结底,清华研究团队的这项工作为AI训练开辟了一条新的道路。它不再是监督学习与强化学习的非此即彼,而是两者的有机融合。这种融合不仅提高了AI的性能,还降低了训练的复杂度和成本,为AI技术的普及应用奠定了重要基础。对于普通人来说,这意味着未来我们将看到更聪明、更可靠的AI助手,它们能够在各种任务中为我们提供更好的帮助。有兴趣了解更多技术细节的读者,可以通过论文编号arXiv:2509.04419v1查阅完整的研究报告。

Q&A

Q1:统一策略梯度估计器是什么?它解决了什么问题?

A:统一策略梯度估计器是清华研究团队提出的数学框架,就像一个万能遥控器可以控制不同品牌电视机一样。它统一描述了监督微调和强化学习等不同AI训练方法,解决了长期以来这些方法看似对立、难以融合的问题,证明了它们本质上都在优化同一个目标。

Q2:混合后训练相比传统方法有什么优势?

A:混合后训练就像智能私人教练,能根据AI当前表现动态调整教学策略。相比传统的先监督微调再强化学习的分阶段方法,它在单一训练过程中就能自动找到最佳方法组合,大大降低了计算成本和技术门槛,同时在数学推理任务上实现了显著的性能提升。

Q3:这项研究对普通人有什么实际意义?

A:这项研究将让AI训练变得更高效经济,降低了技术门槛,意味着未来会有更多聪明可靠的AI助手出现在我们的日常生活中。无论是智能客服、教育辅导还是其他AI应用,都将因为这种更优的训练方法而变得更加智能和实用。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
西媒暗示中方对委内瑞拉和伊朗“见死不救”,外交部的回答亮了

西媒暗示中方对委内瑞拉和伊朗“见死不救”,外交部的回答亮了

男女那点事儿儿
2026-01-06 16:40:11
如果赵薇没和他分手,那现在就是上海百亿豪门阔太,仍能玩转资本

如果赵薇没和他分手,那现在就是上海百亿豪门阔太,仍能玩转资本

陈意小可爱
2026-01-06 03:39:42
上海铁路局禁止售卖泡面?站内多个便利店证实车站不让卖;客服中心:未禁止,但不提倡吃

上海铁路局禁止售卖泡面?站内多个便利店证实车站不让卖;客服中心:未禁止,但不提倡吃

大风新闻
2026-01-06 20:28:05
2026年1月:生肖龙提防小人,生肖虎,兔如陷泥潭!

2026年1月:生肖龙提防小人,生肖虎,兔如陷泥潭!

LILKILLER
2026-01-05 19:35:00
地藏王菩萨开示:家里常年烧香吸引孤魂野鬼?念这6句真言可避免

地藏王菩萨开示:家里常年烧香吸引孤魂野鬼?念这6句真言可避免

古怪奇谈录
2025-12-16 16:20:21
交付3个月,特斯拉Model Y L都卖哪去了?

交付3个月,特斯拉Model Y L都卖哪去了?

汽车公社
2026-01-04 16:46:52
教育部扔下重磅炸弹:2026年开始,全国一律不准再买校外商业试卷

教育部扔下重磅炸弹:2026年开始,全国一律不准再买校外商业试卷

小涛叨叨
2026-01-03 22:47:51
樊振东从亚洲杯名单上落选,这预示着他的回归之路仍是遥遥无期

樊振东从亚洲杯名单上落选,这预示着他的回归之路仍是遥遥无期

鸿印百合
2026-01-06 23:41:08
央视直播1月7日多哈冠军赛,林诗栋对科顿,蒯曼战萨马拉

央视直播1月7日多哈冠军赛,林诗栋对科顿,蒯曼战萨马拉

乒乓球球
2026-01-06 21:06:29
故事:重庆地头蛇文强,600万邀韩国女星喝酒,强行灌醉与其共度良宵

故事:重庆地头蛇文强,600万邀韩国女星喝酒,强行灌醉与其共度良宵

红豆讲堂
2025-01-01 05:10:02
家里安排相亲,我对男方说:“我不孕”,他:“巧了,我不育”

家里安排相亲,我对男方说:“我不孕”,他:“巧了,我不育”

王二哥老搞笑
2026-01-03 11:11:48
A股:太疯狂了,沪指创下十年新高!不出意外,将迎更大级别大涨?

A股:太疯狂了,沪指创下十年新高!不出意外,将迎更大级别大涨?

股市皆大事
2026-01-06 11:44:33
方媛上海购物被偶遇!生图个子矮小身形肥硕,溜肩驼背无名媛气质

方媛上海购物被偶遇!生图个子矮小身形肥硕,溜肩驼背无名媛气质

娱圈小愚
2026-01-04 11:01:31
Snoop Dogg对勇士队主教练科尔争议性驱逐事件的反应,迅速走红

Snoop Dogg对勇士队主教练科尔争议性驱逐事件的反应,迅速走红

好火子
2026-01-06 23:28:25
胡歌带田朴珺爬4200米财神山!田朴珺全程撒娇,两人互动更像情侣

胡歌带田朴珺爬4200米财神山!田朴珺全程撒娇,两人互动更像情侣

好贤观史记
2025-12-01 14:18:01
卷疯了!在中国,已经没人敢跟河北人拼价格了,义乌也打不过

卷疯了!在中国,已经没人敢跟河北人拼价格了,义乌也打不过

毒sir财经
2025-11-26 23:30:24
“超雄妈妈”火了,近亲结婚狂骂学校,把富裕家庭作返贫了!

“超雄妈妈”火了,近亲结婚狂骂学校,把富裕家庭作返贫了!

知晓科普
2025-12-11 10:32:11
轮到美国被“垄断”了!“芯片之父”弃美回国,研发成果堪比核武

轮到美国被“垄断”了!“芯片之父”弃美回国,研发成果堪比核武

烈史
2026-01-05 18:16:46
耻辱5连败!NBA最大的伪强队,四巨头成摆设,你们真的该散伙了

耻辱5连败!NBA最大的伪强队,四巨头成摆设,你们真的该散伙了

篮球看比赛
2026-01-06 13:01:20
3种鱼已被列入致癌名单,吃多了会致癌?医生忠告:尽量少吃

3种鱼已被列入致癌名单,吃多了会致癌?医生忠告:尽量少吃

阿兵科普
2025-12-06 12:43:28
2026-01-07 03:35:00
科技行者 incentive-icons
科技行者
科技正在如何变革商业世界
6789文章数 546关注度
往期回顾 全部

科技要闻

速看!黄仁勋万字实录:甩出"物理AI"王牌

头条要闻

俄罗斯发表关于委内瑞拉局势的声明

头条要闻

俄罗斯发表关于委内瑞拉局势的声明

体育要闻

从NBA最菜首发控卫,到NBA最强乔治

娱乐要闻

2026年央视春晚彩排照曝光!

财经要闻

50万亿存款"洪流"将至 四大去向引关注

汽车要闻

摩登出街潮品 实拍奇瑞QQ冰淇淋女王版

态度原创

游戏
教育
房产
健康
亲子

猎魂世界:最新版全武魂强度评级及养成汇总攻略!(1.4)

教育要闻

刚刚,南京中小学期末考最新动态!

房产要闻

爆发!三亚开年超千亩城更计划曝光,香港城砸下100亿!

这些新疗法,让化疗不再那么痛苦

亲子要闻

孩子叫你“妈妈”和“妈”,是何感受?

无障碍浏览 进入关怀版