网易首页 > 网易号 > 正文 申请入驻

监督学习也能反思?清华英伟达提出隐式负向策略爆炸提升数学能力

0
分享至

NFT团队 投稿
量子位 | 公众号 QbitAI

监督学习也能像强化学习一样进行“自我反思”了。

清华大学与英伟达、斯坦福联合提出新的监督学习方案——NFT(Negative-aware FineTuning),在RFT(Rejection FineTuning)算法基础上通过构造一个“隐式负向模型” 来额外利用负向数据进行训练。

这并不意味着使用“差数据”进行训练,而是在已知的模型计算结果前提下,通过负向数据训练正向模型,即“隐式负向策略(Implicit Negative Policy)”

这一策略弥合了监督学习和强化学习的差距,使得两者性能基本持平。

更让人惊讶的是,NFT损失函数梯度和GRPO在On-Policy条件下是等价的!这意味着,GRPO中人为经验设置的“Group Relative Normalization”方案,可以直接通过理论推导自然得出。

方法:负向策略计算出正向模型

NFT定义了一个在线强化过程:

1.数据采样:语言模型自己产生大量数学问题答案,通过一个01奖励函数,把答案分为正确和错误两类,并统计每个问题回答准确率[数学公式]。

2.隐式策略建模:利用原始模型和待训练正向模型,构造一个隐式负向策略来建模负向数据。

3.策略优化:在正确数据上,直接监督训练正向策略模型;在错误数据上,通过用隐式负向策略拟合建模,达到直接优化正向策略模型的目的。

考虑这样一个监督学习基线:Rejection sampling Finetuning(RFT)。每一轮,研究团队让模型自己产生大量数学问题答案,通过一个01奖励函数,把所有模型产生的错误答案丢弃,仅在高质量正向数据上进行监督训练。
RFT中,研究团队每一轮的训练目标是:

问题关键在于:能否在负向数据上监督训练,也同样得到上面的“正向策略”呢?

乍看上去是不可能的,在负向数据上训练只能得到没有用的“负向策略”。

然而,问题的转折点在于,数据是已知模型在线采样的,也就是正负向数据分布的和是已知的。由贝叶斯公式可知以下线性关系:

这说明,假设真能在负向数据上学习到一个“负向策略”,可以把这个负向策略和原始生成策略结合,“计算”得出想要的正向模型。

在实际操作中,不是真的去学习一个“差模型”。研究团队提出“隐式负向策略”(Implicit Negative Policy),可以直接在负向数据上训练正向策略。可用以下表达式来参数化隐式负向模型:

其中rq表示模型在回答问题q时的正确率,现实中由于模型对一个问题会产生多个回答,我们可以很容易地估计rq。这里表明隐式负向策略不是一个静态的模型,而是基于不同难度的问题动态构造的

因此,NFT损失函数就可以表达为:

对以上损失函数直接求导,研究团队在严格On-policy条件下得到和GRPO等价的梯度表达式。

这暗示了监督学习和强化学习或许存在深层的联系,也直接说明NFT是一个绝对可靠的算法,最差也是退回On-Policy训练和GRPO等价。

结果:监督强化学习方案性能持平,负向反馈在大模型中优势更加明显

NFT和当下性能最优的强化学习算法性能持平,部分场景下可能更有优势(可以在现有监督学习框架基础上简单实现)。

与主流RLHF算法对比,NFT7B性能超过GRPO、DAPO;32B性能和DAPO基本持平。研究团队还观察到,模型越大,NFT和RFT算法性能差异越明显。这暗示了负向反馈在大模型中承担更重要的作用。

和其他已有的基于Qwen-7B zero style训练模型相比,NFT达到最高的数学平均成绩。

作为一个纯监督学习算法,NFT不依赖任何外界数据,可实现数学能力的大幅提升。

研究团队还发现NFT算法在不损失性能条件下有利于模型熵增加,鼓励模型充分探索。

NFT算法指出并弥合了强化学习和监督学习的本质差异,这暗示两套机器学习理论存在深层联系,可以帮助研究者重新定位、思考和放大强化训练的本质优势。

项目网页: https://research.nvidia.com/labs/dir/Negative-aware-Fine-Tuning/
论文链接: https://arxiv.org/pdf/2505.18116
项目代码: https://github.com/NVlabs/NFT

— 完 —

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
《惊蛰无声》朱一龙的性暗示,被张艺谋处理过,但看懂了后背发凉

《惊蛰无声》朱一龙的性暗示,被张艺谋处理过,但看懂了后背发凉

观察鉴娱
2026-02-21 10:43:43
呼唤金牌教练李琰回归短道速滑队前,请先反思她当年为什么离开!

呼唤金牌教练李琰回归短道速滑队前,请先反思她当年为什么离开!

杨华评论
2026-02-20 18:28:11
原来20块就能解决的小问题,我竟忍了好几年!

原来20块就能解决的小问题,我竟忍了好几年!

小熊侃史
2026-02-21 11:14:24
娜然已经融入霍家?相比章子怡当年的“被嫌弃”,她做对了什么

娜然已经融入霍家?相比章子怡当年的“被嫌弃”,她做对了什么

扒点半吃瓜
2026-02-21 07:00:09
2:3!庄宇珊29分,球队输球却迎好消息,感谢朱婷送大礼

2:3!庄宇珊29分,球队输球却迎好消息,感谢朱婷送大礼

跑者排球视角
2026-02-22 08:28:15
狮子大开口!马竞开2亿欧天价卖阿根廷国脚神锋,巴萨直接被吓退

狮子大开口!马竞开2亿欧天价卖阿根廷国脚神锋,巴萨直接被吓退

零度眼看球
2026-02-22 08:40:10
韩国执政党:强烈批评法院对尹锡悦作出的判决结果。

韩国执政党:强烈批评法院对尹锡悦作出的判决结果。

王姐懒人家常菜
2026-02-21 06:17:29
68岁丁勇岱近况曝光!陪89岁母亲过年,大龄儿子的婚事让他愁白头

68岁丁勇岱近况曝光!陪89岁母亲过年,大龄儿子的婚事让他愁白头

代军哥哥谈娱乐
2026-02-21 08:25:03
蒙古为何成为韩国老男人的圣地?带你去瞧瞧这个可悲的国家

蒙古为何成为韩国老男人的圣地?带你去瞧瞧这个可悲的国家

吕醿极限手工
2025-12-29 18:33:00
被做局了!荷兰逼中方交出资产,安世半导体危险,2.5万客户白丢

被做局了!荷兰逼中方交出资产,安世半导体危险,2.5万客户白丢

生活魔术专家
2026-02-22 06:57:51
四川成都一佳人好漂亮, 身高169cm,体重48kg 美的让人移不开眼

四川成都一佳人好漂亮, 身高169cm,体重48kg 美的让人移不开眼

喜欢历史的阿繁
2026-02-07 14:21:17
“延迟满足”更易成功?那是骗你的

“延迟满足”更易成功?那是骗你的

老端的观点
2026-02-19 21:50:56
智驾洗牌,“五大”要统一江湖了吗?

智驾洗牌,“五大”要统一江湖了吗?

经济观察报
2026-02-20 21:57:17
谷爱凌与刘美贤的平行宇宙

谷爱凌与刘美贤的平行宇宙

美国华人杂谈
2026-02-21 05:49:05
王见王!苏翊鸣伊布米兰相见互赠球衣,伊布向小苏虚心请教单板滑雪

王见王!苏翊鸣伊布米兰相见互赠球衣,伊布向小苏虚心请教单板滑雪

818体育
2026-02-21 17:11:16
又11投9中!此人这样打下去,霍华德的NBA纪录不保了

又11投9中!此人这样打下去,霍华德的NBA纪录不保了

篮球大视野
2026-02-21 15:49:34
74年陈永贵批评北大荒不会种地,场长:懂个屁,他大寨才几亩地?

74年陈永贵批评北大荒不会种地,场长:懂个屁,他大寨才几亩地?

搜史君
2026-02-16 08:15:10
急了!印度最近为啥拼命要和中国谈边界?再拖就真没机会了

急了!印度最近为啥拼命要和中国谈边界?再拖就真没机会了

趣生活
2026-02-16 20:18:37
莫言:如果一个人对待家人不耐烦态度差,对外人又很客气和善,不是不孝顺,而是因为这三个原因!

莫言:如果一个人对待家人不耐烦态度差,对外人又很客气和善,不是不孝顺,而是因为这三个原因!

神奇故事
2026-02-19 23:54:53
中国50后还有多少人?多少人能活到80岁?权威数据告诉你

中国50后还有多少人?多少人能活到80岁?权威数据告诉你

芭比衣橱
2026-02-19 21:00:42
2026-02-22 09:51:00
量子位 incentive-icons
量子位
追踪人工智能动态
12186文章数 176389关注度
往期回顾 全部

科技要闻

智谱上市1月涨5倍,市值超越京东、快手

头条要闻

河北"巧克力钓鱼大爷"因病去世享年75岁 家属发声

头条要闻

河北"巧克力钓鱼大爷"因病去世享年75岁 家属发声

体育要闻

徐梦桃:这是我第一块铜牌 给我换个吉祥物

娱乐要闻

黄晓明澳门赌博输十几亿 本人亲自回应

财经要闻

特朗普新加征关税税率从10%提升至15%

汽车要闻

比亚迪的“颜值担当”来了 方程豹首款轿车路跑信息曝光

态度原创

房产
家居
数码
公开课
军事航空

房产要闻

窗前即地标!独占三亚湾C位 自贸港总裁行宫亮相

家居要闻

本真栖居 爱暖伴流年

数码要闻

2026中国电影票房暂列全球第一;小米17系列进军全球市场

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

硬核揭秘!福建舰“一马当先”底气何在

无障碍浏览 进入关怀版