网易首页 > 网易号 > 正文 申请入驻

清华大学突破性发现:AI训练的"双重人格"竟然可以完美融合!

0
分享至

在人工智能的世界里,有一个长久存在的难题就像教育孩子一样复杂:你是让孩子先跟着老师一板一眼地学习标准答案,还是让他们自由探索、从试错中成长?这个看似简单的选择,在大语言模型的训练中却一直让研究者们头疼不已。

这项由清华大学计算机系吕星泰、左玉欣等研究团队联合上海AI实验室和微信AI共同完成的突破性研究,发表于2025年9月,为这个困扰业界已久的问题提供了令人惊喜的答案。有兴趣深入了解的读者可以通过arXiv:2509.04419v1访问完整论文。研究团队发现,原本看似对立的两种训练方法——监督微调和强化学习——实际上就像一枚硬币的两面,它们不仅不冲突,反而可以完美融合,创造出更强大的AI系统。

回到现实生活中的教育场景,监督微调就像是让学生照着标准答案学习,这种方法见效快,能让AI迅速掌握人类专家的解题思路。而强化学习则像是让学生自己摸索,通过不断尝试和获得反馈来提升能力,这种方法虽然慢一些,但能培养出更强的创新和适应能力。

长期以来,业界普遍认为这两种方法只能分阶段使用——先让AI通过监督微调打好基础,再用强化学习进行提升。这种做法不仅消耗大量计算资源,还需要精心调整各个阶段的参数,就像要同时当两种完全不同风格的老师一样困难。

然而,清华研究团队的这项工作彻底颠覆了这种认知。他们通过深入的数学分析发现,监督微调和强化学习在本质上都在优化同一个目标函数,只是采用了不同的数学路径而已。这就好比两个人要从北京到上海,一个人选择坐高铁,另一个人选择开车,虽然方式不同,但目的地是一样的。

基于这个重要发现,研究团队提出了一个统一的数学框架,他们称之为"统一策略梯度估计器"。这个框架就像一个万能遥控器,可以控制不同品牌的电视机一样,它能够统一描述各种不同的AI训练算法。更有意思的是,研究团队发现所有这些不同的训练方法,其实都可以拆解成四个基本组件:稳定性掩码、参考策略、优势估计和似然梯度。

稳定性掩码就像汽车的安全带,当训练过程出现不稳定迹象时,它会及时"踩刹车",防止AI的学习过程失控。参考策略则像是学习过程中的参照物,告诉AI什么样的表现是可以接受的。优势估计相当于给AI的每一个尝试打分,让它知道哪些行为值得鼓励。似然梯度则是具体的学习机制,指导AI如何根据反馈调整自己的参数。

这个统一框架的意义远不止于理论层面的突破。就像发现了电磁统一理论一样,它为开发更高效的AI训练方法奠定了基础。研究团队基于这个理论框架,开发出了一种全新的训练算法,叫做"混合后训练"(HPT)。

混合后训练就像一个智能的私人教练,它能够实时判断AI学生当前的学习状态,然后动态调整教学策略。当AI在某个问题上表现不好时,系统会自动切换到监督微调模式,让AI先跟着标准答案学习;当AI表现良好时,系统又会切换到强化学习模式,让AI进行更多的自主探索。

这种动态切换机制的核心是一个简单而巧妙的"门控"系统。研究团队让AI先尝试解答一些问题,然后根据正确率来决定采用哪种训练方式。如果正确率低于设定的阈值,就使用监督微调;如果高于阈值,就使用强化学习。这就像一个自动调节的恒温器,能根据环境温度自动调整加热或制冷模式。

为了验证这个方法的效果,研究团队在多个数学推理任务上进行了大规模实验。他们使用了不同规模的模型,包括15亿参数的小型模型、70亿参数的中型模型,以及80亿参数的大型模型。实验涵盖了从美国数学邀请赛(AIME)到国际数学奥林匹克竞赛等多个层次的数学问题。

实验结果令人印象深刻。在最具挑战性的AIME 2024测试中,使用混合后训练的AI模型比最强的基准方法高出了7个百分点,这在AI竞赛中是一个相当显著的提升。更重要的是,这种方法不仅在单一答案的准确性上表现出色,在需要多次尝试的Pass@1024测试中也取得了最佳成绩,说明AI不仅能给出正确答案,还具备了更强的探索和泛化能力。

研究团队通过详细的训练过程可视化分析,揭示了混合后训练的工作机制。他们发现,在训练初期,当AI的能力还比较弱时,系统主要依靠监督微调,让AI大量学习专家示例。随着训练的进行,AI逐渐具备了一定的问题解决能力,系统开始更多地采用强化学习,让AI进行自主探索。最终,系统会在两种方法之间找到一个动态平衡点。

这种训练方式的另一个重要优势是保持了AI的"好奇心"。传统的强化学习训练容易让AI变得过于保守,只选择那些有把握的简单问题来解决。而混合后训练通过适时引入监督学习的"营养补给",让AI能够持续保持对复杂问题的探索欲望。

研究团队还发现了一个有趣的现象:不同规模的模型需要不同的门控阈值。大型模型由于本身能力较强,可以更早地切换到强化学习模式;而小型模型则需要更长时间的监督学习来打好基础。这就像不同年龄的学生需要不同的教学方法一样,体现了个性化教育的重要性。

从技术创新的角度来看,这项研究的意义不仅在于提出了一个新的训练算法,更重要的是它揭示了AI训练领域的一个根本性原理。研究团队证明了,看似不同的训练方法其实都在解决同一个优化问题,只是在偏差和方差之间做出了不同的权衡选择。这个发现为未来开发更多创新的训练方法提供了理论指导。

在实际应用层面,这项技术突破意味着AI训练将变得更加高效和经济。传统的分阶段训练方法需要大量的计算资源和精心的参数调整,而混合后训练能够在单一训练过程中自动实现最优的方法组合,大大降低了训练成本和技术门槛。

研究团队还对训练过程中的各种动态指标进行了深入分析。他们发现,使用混合后训练的AI模型不仅在准确率上有所提升,在输出多样性(熵值)和推理长度方面也表现出更好的特性。这说明AI不仅学会了给出正确答案,还掌握了更丰富的推理策略。

值得注意的是,这种方法的成功并不依赖于复杂的工程技巧或大量的超参数调整。研究团队使用的门控机制非常简单——就是一个基于性能表现的二元选择开关。这种简洁性使得该方法具有很强的实用性和可推广性。

从更广阔的视角来看,这项研究为人工智能的学习方式提供了新的思路。它表明,最有效的学习可能不是单一方法的极致应用,而是多种方法的智能组合。这个原理不仅适用于数学推理,很可能也适用于其他认知任务,如语言理解、创意写作或复杂决策。

研究团队在论文中还详细分析了不同组件对最终性能的贡献。他们发现,稳定性掩码主要影响训练的稳定性,参考策略影响学习效率,优势估计影响探索质量,而似然梯度则直接关系到知识的内化程度。这种细粒度的分析为进一步优化训练算法提供了具体的方向。

这项工作的另一个重要贡献是建立了理论与实践之间的桥梁。长期以来,AI训练更多依赖经验和试错,而这项研究通过严格的数学推导,为实践中的成功经验提供了理论解释,同时也为未来的算法设计提供了科学依据。

说到底,这项研究最大的价值在于它改变了我们对AI学习的根本认知。它告诉我们,不同的学习方法之间并不存在不可调和的矛盾,关键在于找到它们的共同本质和最佳组合方式。这种思路不仅适用于AI系统,也为人类教育和学习提供了有益的启示。

归根结底,清华研究团队的这项工作为AI训练开辟了一条新的道路。它不再是监督学习与强化学习的非此即彼,而是两者的有机融合。这种融合不仅提高了AI的性能,还降低了训练的复杂度和成本,为AI技术的普及应用奠定了重要基础。对于普通人来说,这意味着未来我们将看到更聪明、更可靠的AI助手,它们能够在各种任务中为我们提供更好的帮助。有兴趣了解更多技术细节的读者,可以通过论文编号arXiv:2509.04419v1查阅完整的研究报告。

Q&A

Q1:统一策略梯度估计器是什么?它解决了什么问题?

A:统一策略梯度估计器是清华研究团队提出的数学框架,就像一个万能遥控器可以控制不同品牌电视机一样。它统一描述了监督微调和强化学习等不同AI训练方法,解决了长期以来这些方法看似对立、难以融合的问题,证明了它们本质上都在优化同一个目标。

Q2:混合后训练相比传统方法有什么优势?

A:混合后训练就像智能私人教练,能根据AI当前表现动态调整教学策略。相比传统的先监督微调再强化学习的分阶段方法,它在单一训练过程中就能自动找到最佳方法组合,大大降低了计算成本和技术门槛,同时在数学推理任务上实现了显著的性能提升。

Q3:这项研究对普通人有什么实际意义?

A:这项研究将让AI训练变得更高效经济,降低了技术门槛,意味着未来会有更多聪明可靠的AI助手出现在我们的日常生活中。无论是智能客服、教育辅导还是其他AI应用,都将因为这种更优的训练方法而变得更加智能和实用。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
三线崩溃!极度揪心!孙颖莎金身破碎,国乒卫冕还能指望谁

三线崩溃!极度揪心!孙颖莎金身破碎,国乒卫冕还能指望谁

一口桃
2026-06-10 12:33:02
星光大道多位冠军现状:大多已无人问津,有人负债累累当搬运工

星光大道多位冠军现状:大多已无人问津,有人负债累累当搬运工

雅儿姐游世界
2026-04-14 16:52:38
突然意识到对方是在有爱家庭长大的,网友:不明白有人这么爱回家

突然意识到对方是在有爱家庭长大的,网友:不明白有人这么爱回家

九哥哥车评
2026-07-05 09:51:12
已婚少妇有那么大的魅力吗?

已婚少妇有那么大的魅力吗?

那年秋天
2026-07-05 12:10:09
C罗紧抱莫德里奇,贺炜温柔解说——那个拥抱,是2026世界杯最动人的画面,没有之一

C罗紧抱莫德里奇,贺炜温柔解说——那个拥抱,是2026世界杯最动人的画面,没有之一

哲学船
2026-07-05 22:15:31
黄有龙估计也没想到,自己花重金培养大的女儿,竟给赵薇做了嫁衣

黄有龙估计也没想到,自己花重金培养大的女儿,竟给赵薇做了嫁衣

精彩背后的故事
2026-07-05 21:34:45
四大公认“最难学”大学专业!含金量极高但易挂科,报考前要知道

四大公认“最难学”大学专业!含金量极高但易挂科,报考前要知道

狐狸先森讲升学规划
2026-07-06 02:05:03
人民日报:入学先查家长职务、车价,过度“查家底”,类似乱象反复上演!教育部早明文严禁,为何至今仍有学校“顶风作案”?

人民日报:入学先查家长职务、车价,过度“查家底”,类似乱象反复上演!教育部早明文严禁,为何至今仍有学校“顶风作案”?

新京报政事儿
2026-07-05 15:45:07
国家出手!又一亿万富翁沦为阶下囚,恶行曝光惹众怒,早该迎这天

国家出手!又一亿万富翁沦为阶下囚,恶行曝光惹众怒,早该迎这天

圆梦的小老头
2026-06-28 00:54:59
秦海璐变卖房产,清空全部资产,凑出近亿身家,绝境兜底救下刘涛

秦海璐变卖房产,清空全部资产,凑出近亿身家,绝境兜底救下刘涛

秋别离
2026-06-13 15:50:00
9号台风“巴威”逼近!最新预测→

9号台风“巴威”逼近!最新预测→

上海嘉定
2026-07-05 20:18:55
央媒警告不管用?顶风头开演唱会的白鹿再撞枪口,老板于正也沦陷

央媒警告不管用?顶风头开演唱会的白鹿再撞枪口,老板于正也沦陷

徐醇老表哥
2026-07-04 17:52:54
国米转会进入舒适区!两笔引援都是主力定位,管理层践行承诺!

国米转会进入舒适区!两笔引援都是主力定位,管理层践行承诺!

肥强侃球
2026-07-05 23:38:48
数据:韩红基金会累计收到超21亿捐款,她本人到底捐了多少

数据:韩红基金会累计收到超21亿捐款,她本人到底捐了多少

动物奇奇怪怪
2026-07-06 05:32:37
好恐怖的天伦之乐!女子晒家庭聚会,面和心不和被演绎得淋漓尽致

好恐怖的天伦之乐!女子晒家庭聚会,面和心不和被演绎得淋漓尽致

林林先生
2026-06-13 10:25:06
韩国足球大崩盘:孙兴慜身后是千亿窟窿,总统怒批“烂透了”

韩国足球大崩盘:孙兴慜身后是千亿窟窿,总统怒批“烂透了”

百晓生谈历史
2026-07-05 21:58:08
一场3:0让摩洛哥遭致命暴击,妥妥坏消息,1/4决赛取胜法国没戏

一场3:0让摩洛哥遭致命暴击,妥妥坏消息,1/4决赛取胜法国没戏

零度眼看球
2026-07-05 08:57:51
男子刷20万后,不满女主播只陪他3天,怒而将他们开房照片曝光

男子刷20万后,不满女主播只陪他3天,怒而将他们开房照片曝光

汉史趣闻
2025-06-23 10:26:20
睡觉七小时被推翻了?医生建议:过了55岁,睡觉尽量要做到这5点

睡觉七小时被推翻了?医生建议:过了55岁,睡觉尽量要做到这5点

任医生聊健康
2026-06-28 08:00:47
“霉霉”泰勒·斯威夫特婚礼现场照片被泄漏,工作人员高价倒卖照片视频被开除,至少四名违规拍照人员被带离场馆;婚礼规定全部禁用手机

“霉霉”泰勒·斯威夫特婚礼现场照片被泄漏,工作人员高价倒卖照片视频被开除,至少四名违规拍照人员被带离场馆;婚礼规定全部禁用手机

极目新闻
2026-07-05 14:52:27
2026-07-06 06:16:49
科技行者 incentive-icons
科技行者
科技正在如何变革商业世界
9040文章数 565关注度
往期回顾 全部

科技要闻

华为:逻辑折叠将大幅提升麒麟CPU核心频率

头条要闻

白宫致电FIFA后美国队球员获“特赦” 特朗普表态

头条要闻

白宫致电FIFA后美国队球员获“特赦” 特朗普表态

体育要闻

姆巴佩点走巴拉圭:巴黎三代左锋传承

娱乐要闻

霉霉婚礼照片泄露 有四人违规

财经要闻

揭秘跨境“对敲”换汇黑产

汽车要闻

方程豹钛9内饰曝光 用上了长联屏设计/下半年上市

态度原创

本地
旅游
艺术
家居
教育

本地新闻

国内足球之旅?这座小城给你高分答案

旅游要闻

守着抚仙湖过日子的古村寨,两个彝语汉字,道尽祖辈渔耕一生!

艺术要闻

伊朗超高层方案惊艳世界,曾获国际大奖!

家居要闻

传奇筑 日常诗

教育要闻

“真希望他不是我亲生的!”父亲直言讨厌儿子,引来众多家长共鸣

无障碍浏览 进入关怀版