网易首页 > 网易号 > 正文 申请入驻

快手科技:AI语言模型训练的"权重平衡术"让机器学习更聪明

0
分享至

来源:市场资讯

(来源:科技行者)

这项由快手科技的王嘉康、刘润泽等研究人员与清华大学合作完成的研究发表于2025年10月7日,论文标题为《ASPO: 非对称重要性采样策略优化》,感兴趣的读者可以通过arXiv编号2510.06062查询完整论文内容。

在人工智能的世界里,训练一个聪明的语言模型就像教一个学生学习一样。传统的方法就好比老师在批改作业时,对答对题目的学生和答错题目的学生采用了完全相同的评分标准。但快手科技的研究团队发现了一个令人意外的问题:现有的训练方法在处理"正确答案"和"错误答案"时存在严重的不平衡,就像天平的两端重量不一样,导致整个学习过程变得摇摆不定。

研究团队注意到,当前最流行的强化学习训练方法GRPO在处理语言模型时,会给那些已经表现很好的部分分配更多的"关注度",而对那些需要改进的部分却给予较少的"关注度"。这就像一个偏心的老师,总是表扬优等生而忽视需要帮助的学困生,结果导致整个班级的学习效果并不理想。

为了解决这个根本性问题,研究团队提出了一种全新的训练策略,叫做"非对称重要性采样策略优化"(ASPO)。这个方法的核心思想非常简单却极其有效:对于那些模型已经做得很好的部分,适当降低它们在训练中的权重;而对于那些模型还没有掌握好的部分,则给予更多的训练关注。这就像一个好老师会把更多精力放在帮助学困生提高上,同时也不忘记继续鼓励优等生保持水准。

一、发现问题:当前训练方法的"偏心"现象

要理解这个问题,我们可以把语言模型的训练过程想象成教一个学生写作文。在传统的训练方法中,当学生写出一个好句子时,系统会给这个句子很高的"重要性分数",意思是要特别关注和强化这种写法。同样,当学生写出不好的句子时,系统也会给一个分数,但处理方式却截然不同。

研究团队通过大量实验发现,现有的GRPO方法在处理这两种情况时存在严重的不一致性。具体来说,对于写得好的句子,系统会给那些已经很流畅、很自然的部分分配更高的权重,而给那些还需要提升的部分分配较低的权重。这就好比老师在表扬学生时,总是夸奖那些本来就写得很好的词语,而对那些写得一般但有潜力提升的词语视而不见。

这种"偏心"的训练方式会导致模型出现一种叫做"熵崩塌"的现象。简单来说,就是模型变得过于保守和重复,失去了创造性和多样性。就像一个学生因为某种写法得到了老师的大力表扬,于是就反复使用同样的句式和词汇,最终写出来的文章变得单调乏味、缺乏变化。

研究团队通过详细的数据分析发现,这种权重分配的不平衡会在训练过程中逐渐放大。随着训练的进行,模型会越来越偏向于那些已经做得很好的部分,而忽视那些还有改进空间的部分。这种恶性循环最终导致模型的整体性能停滞不前,甚至出现退化。

更令人担忧的是,这种问题在数学推理和编程任务中表现得尤为明显。在这些需要逻辑严密性的任务中,模型往往需要在多个可能的解决方案之间做出选择。如果训练方法存在偏向性,模型就可能过早地锁定某种解题思路,而失去探索更优解的能力。

二、深入分析:重要性采样的"真面目"

为了彻底理解这个问题,研究团队对重要性采样这一核心机制进行了深入剖析。重要性采样本来是为了解决一个很实际的问题:在训练过程中,模型的策略在不断变化,如何确保用旧策略生成的数据仍然对新策略的学习有用呢?

传统观点认为,重要性采样就像一个"翻译器",可以将旧策略下的经验转换为新策略可以理解的形式。但研究团队通过一系列巧妙的实验发现,在当前的语言模型训练场景中,重要性采样的作用已经发生了根本性的变化。

研究团队设计了一个对比实验:他们训练了两个版本的模型,一个使用标准的重要性采样权重,另一个将所有重要性采样权重都设置为1.0(相当于不使用重要性采样)。令人惊讶的是,两个模型的最终性能几乎没有差别,但不使用重要性采样的模型在训练过程中表现得更加稳定,没有出现明显的性能波动。

这个发现颠覆了人们对重要性采样的传统理解。原来,在语言模型的训练中,重要性采样的权重实际上更像是"训练权重"而不是"分布校正器"。也就是说,这些权重决定了每个词语在训练更新中的影响力大小,而不是简单地校正数据分布的差异。

进一步的分析显示,在处理正面样本(即模型表现较好的部分)时,传统方法会给那些概率已经很高的词语分配更大的权重,而给那些概率较低的词语分配较小的权重。这种分配方式与直觉相反:我们更希望给那些还有提升空间的部分更多关注,而不是继续强化已经表现很好的部分。

研究团队通过可视化分析清楚地展示了这种权重分配的问题。他们绘制了一个三维图表,显示了在不同概率条件下重要性采样权重的分布。结果表明,对于负面样本(模型表现不好的部分),权重分配是合理的:概率越高,权重越小,符合我们的期望。但对于正面样本,权重分配却完全相反:概率越高,权重反而越大,这就造成了训练的不平衡。

三、创新解决方案:非对称重要性采样策略

基于对问题的深入理解,研究团队提出了一个既简单又有效的解决方案:非对称重要性采样策略优化(ASPO)。这个方法的核心思想是对正面样本和负面样本采用不同的处理策略,就像一个智慧的老师会根据学生的不同情况采用不同的教学方法。

ASPO方法的实施分为三个关键步骤。第一步是保持传统的词语屏蔽机制,这就像老师会暂时忽略那些明显超出学生当前能力范围的内容,避免给学生造成过大的学习压力。第二步是权重翻转,这是ASPO的核心创新:对于表现良好的部分,系统会将原有的重要性权重进行翻转,使得那些概率较低(还有提升空间)的词语获得更高的权重,而那些概率已经很高的词语获得相对较低的权重。

第三步是双重剪切机制,这是为了防止权重翻转后可能出现的极端情况。就像老师在调整教学重点时也要把握适度原则,不能让任何一部分的训练变得过于激进或过于保守。这种双重剪切采用了"软剪切"的方式,只限制权重的数值大小,但保留梯度信息,确保学习过程的连续性。

从数学角度来看,ASPO方法的关键在于改变了梯度计算的方式。在传统方法中,梯度的大小与当前词语的概率成正比,这意味着高概率的词语会得到更大的更新幅度。而在ASPO中,梯度的大小与概率成反比,使得低概率的词语能够得到更多的关注和改进机会。

这种设计哲学体现了一种更加均衡的学习策略。传统方法就像一个会"嫌贫爱富"的老师,总是给优等生更多关注;而ASPO则像一个真正负责任的老师,会把更多精力投入到帮助那些还有提升潜力的学生身上。

四、实验验证:从理论到实践的完美转化

为了验证ASPO方法的有效性,研究团队进行了大规模的实验验证。他们选择了数学推理和编程任务作为主要测试场景,因为这些任务对模型的逻辑思维能力和精确性要求很高,能够很好地反映训练方法的优劣。

在数学推理方面,研究团队使用了多个具有挑战性的数据集,包括美国数学邀请赛(AIME)的2024年和2025年题目、美国数学竞赛(AMC)2023年题目、MATH-500数据集、Minerva数学题库以及奥林匹克数学竞赛题目。这些测试覆盖了从基础数学概念到高级数学推理的各个层面。

实验结果显示,使用ASPO训练的模型在所有测试中都表现出了显著的性能提升。以AIME 2024为例,ASPO模型的平均得分达到了49.0分,而传统DAPO方法只有42.1分,提升幅度超过16%。更重要的是,ASPO模型在pass@64指标上达到了80.0%,表明其解题的稳定性和可靠性都有明显改善。

在编程任务方面,研究团队使用了LiveCodeBench这一业界认可的编程能力评估平台。测试结果同样令人鼓舞:ASPO模型在LiveCodeBench v5上的平均得分为31.5分,比传统方法提高了约21%;在pass@8指标上达到了47.0%,显示出在代码生成准确性方面的显著优势。

更重要的是,研究团队还深入分析了训练过程中的动态变化。他们发现,使用ASPO方法训练的模型在整个训练过程中表现出更好的稳定性。具体表现为:熵值下降更加平缓,避免了传统方法中常见的急剧下降;重复率增长更加缓慢,保持了输出的多样性;剪切比率变化更加稳定,避免了训练后期的剧烈波动。

这些观察结果证实了ASPO方法不仅能够提升最终性能,还能够改善整个训练过程的质量。传统方法往往在训练后期出现性能退化,而ASPO方法能够保持持续稳定的改进,避免了过拟合和局部最优的问题。

五、技术细节:深入理解ASPO的工作机制

为了让读者更好地理解ASPO方法的技术细节,我们可以通过一个具体的例子来说明其工作原理。假设模型正在学习解决一个数学问题,传统方法和ASPO方法会如何处理同一个训练样本呢?

在传统的GRPO方法中,当模型遇到一个正确的解题步骤时,系统会计算每个词语的重要性权重。对于那些模型已经很擅长的词语(比如"因为"、"所以"这样的逻辑连接词),系统会给予较高的权重,意味着这些词语在这次训练中会得到更多的强化。相反,对于那些模型还不太熟练的词语(比如某个特定的数学概念),系统给予的权重较低,训练效果就相对有限。

而在ASPO方法中,这个过程被彻底改变了。对于同样的正确解题步骤,系统会将重要性权重进行翻转。那些模型已经很熟练的词语会得到较低的权重,避免过度强化;而那些模型还需要改进的词语会得到较高的权重,获得更多的学习机会。这种处理方式确保了训练资源的合理分配,让模型能够更均衡地提升各方面的能力。

从梯度更新的角度来看,ASPO方法的创新在于改变了梯度与概率之间的关系。在传统方法中,某个词语的概率越高,它在训练中获得的梯度更新就越大。这种机制在理论上是为了保持训练的稳定性,但在实践中却导致了"富者更富"的现象:好的部分变得更好,而需要改进的部分却得不到足够的关注。

ASPO通过引入翻转机制,使得梯度更新与概率成反比关系。这意味着那些概率较低、还有提升空间的词语会获得更大的梯度更新,从而得到更多的改进机会。这种设计哲学体现了一种更加公平和有效的学习策略。

为了防止翻转机制可能带来的不稳定性,ASPO还引入了软双重剪切机制。这个机制就像给学习过程加上了"安全阀",确保任何词语的权重都不会变得过于极端。与传统的硬剪切不同,软剪切只限制权重的数值范围,但保留了完整的梯度信息,确保学习过程的连续性和有效性。

六、广泛影响:重新定义AI训练的标准

ASPO方法的提出不仅仅是一个技术改进,更代表了AI训练理念的重要转变。传统的训练方法往往追求快速收敛和高效率,但ASPO证明了"慢即是快"的道理:通过更加均衡和深思熟虑的训练策略,最终能够获得更好的性能和更稳定的表现。

这种理念转变对整个AI行业具有深远的影响。首先,它提醒研究者和开发者要重新审视现有的训练方法,不能简单地追求表面的性能指标,而要深入理解训练过程的内在机制。其次,ASPO方法的成功表明,即使是看似微小的技术改进,如果抓住了问题的本质,也能够产生显著的效果。

从实用性角度来看,ASPO方法具有很强的通用性和易实现性。研究团队已经基于流行的DAPO框架实现了ASPO,并且开源了相关代码和模型。这意味着其他研究者和开发者可以很容易地将ASPO集成到自己的项目中,而不需要重新构建整个训练框架。

ASPO方法的另一个重要贡献是为AI训练的理论研究提供了新的视角。它表明,重要性采样在现代AI训练中的作用可能与传统理论预期的不同,需要重新审视和理解。这种发现可能会推动相关理论的进一步发展,为未来的AI训练方法创新奠定基础。

此外,ASPO方法在数学推理和编程任务上的出色表现,也为这些特定领域的AI应用提供了重要参考。随着AI在教育、科研、软件开发等领域的应用越来越广泛,能够提供更准确、更可靠的推理能力变得至关重要。ASPO方法的成功为这些应用场景的进一步发展提供了技术支撑。

说到底,ASPO方法的核心价值在于它体现了一种更加人性化和智慧化的学习理念。就像一个好老师会根据每个学生的具体情况调整教学策略一样,ASPO让AI训练变得更加个性化和有针对性。这种理念不仅适用于当前的语言模型训练,也可能为未来的AI发展指明方向。

研究团队的工作提醒我们,AI的进步不仅来自于更大的模型和更多的数据,更来自于对学习本质的深入理解和巧妙设计。ASPO方法就是这种智慧的体现:通过深入分析问题的根源,提出简单而有效的解决方案,最终实现了显著的性能提升。这种研究范式值得更多AI研究者学习和借鉴。

Q&A

Q1:ASPO方法和传统的GRPO训练方法有什么根本区别?

A:ASPO的核心区别在于对正面样本的处理方式完全相反。传统GRPO方法会给模型已经掌握得很好的部分更高权重,而ASPO则将这些权重翻转,给那些还有提升空间的部分更多关注,就像老师把更多精力放在帮助学困生而不是继续表扬优等生。

Q2:为什么说重要性采样在现代AI训练中的作用发生了变化?

A:研究团队发现,在语言模型训练中,重要性采样的权重实际上更像是"训练权重"而不是"分布校正器"。通过对比实验,他们发现即使不使用重要性采样,模型性能也几乎没有差别,但训练过程更加稳定,这颠覆了传统理论的预期。

Q3:ASPO方法在哪些任务上表现最好?普通开发者能使用吗?

A:ASPO在数学推理和编程任务上表现出色,在AIME数学竞赛题目上提升超过16%,在编程任务上提升约21%。研究团队已经开源了相关代码和模型,普通开发者可以基于流行的DAPO框架轻松集成ASPO方法到自己的项目中。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
华润燃气控股有限公司原副总裁李雪松接受审查调查

华润燃气控股有限公司原副总裁李雪松接受审查调查

界面新闻
2026-05-07 10:31:29
现在才明白,中国出台的阻断令,会让这些银行惶恐不安!

现在才明白,中国出台的阻断令,会让这些银行惶恐不安!

达文西看世界
2026-05-07 16:44:24
三星宣布停止在中国市场销售所有家电产品

三星宣布停止在中国市场销售所有家电产品

财联社
2026-05-06 19:32:22
67岁毕福剑江苏农村走穴!为70岁老人贺寿显沧桑,曝出场费20多万

67岁毕福剑江苏农村走穴!为70岁老人贺寿显沧桑,曝出场费20多万

安海客
2026-05-06 16:02:31
鲁比奥警告中国,中美爆发两波争端,114国拒绝签约

鲁比奥警告中国,中美爆发两波争端,114国拒绝签约

兴史兴谈
2026-05-07 02:49:01
连续三天嫖娼一次嫖俩,花800元毁掉一手女神好牌,他图什么?

连续三天嫖娼一次嫖俩,花800元毁掉一手女神好牌,他图什么?

街上的行人很刺眼
2026-04-25 10:55:49
空腹抽血,喝水算不算破坏?很多人意外!检验科医生权威解答

空腹抽血,喝水算不算破坏?很多人意外!检验科医生权威解答

环球网资讯
2026-05-06 13:46:09
1.3 亿欧 + 4 大新援!老佛爷为穆里尼奥回归铺路,皇马要搞大的

1.3 亿欧 + 4 大新援!老佛爷为穆里尼奥回归铺路,皇马要搞大的

奶盖熊本熊
2026-05-08 00:36:05
“有这种妈,抑郁症就好不了!”一段母子俩出游视频,令人窒息

“有这种妈,抑郁症就好不了!”一段母子俩出游视频,令人窒息

妍妍教育日记
2026-05-07 10:30:13
谢娜演唱会这一夜,半个娱乐圈捧场,网友直呼票价不值,吃相难看

谢娜演唱会这一夜,半个娱乐圈捧场,网友直呼票价不值,吃相难看

青梅侃史啊
2026-05-07 07:28:32
男人搞定50岁女人最好方法,喂饱了她两个需求,她就会主动依你

男人搞定50岁女人最好方法,喂饱了她两个需求,她就会主动依你

心理观察局
2026-05-04 08:20:08
41岁女子有性瘾,每天要求37岁男友睡她,一年后男友受不了杀了她

41岁女子有性瘾,每天要求37岁男友睡她,一年后男友受不了杀了她

胖胖侃咖
2025-05-10 08:00:08
苏州中学附属三亚学校项目发生事故,海南住建厅启动督办程序

苏州中学附属三亚学校项目发生事故,海南住建厅启动督办程序

澎湃新闻
2026-05-07 17:38:26
泰康人寿回应代理人被青岛市公安机关立案侦查:全力配合,同步启动内部自查和客户排查

泰康人寿回应代理人被青岛市公安机关立案侦查:全力配合,同步启动内部自查和客户排查

澎湃新闻
2026-05-07 22:18:26
四川一男子买彩票中了560万,竟在上班途中被抢!谁料,男子连彩票复印件和照片都没留!

四川一男子买彩票中了560万,竟在上班途中被抢!谁料,男子连彩票复印件和照片都没留!

谭老师地理大课堂
2026-05-08 00:07:04
战胜森林挺进欧联杯决赛,维拉时隔44年再度闯进欧战决赛

战胜森林挺进欧联杯决赛,维拉时隔44年再度闯进欧战决赛

懂球帝
2026-05-08 05:15:11
台官员曝赖清德成功返台内幕,大陆出手阻止未果,背后有难言之隐

台官员曝赖清德成功返台内幕,大陆出手阻止未果,背后有难言之隐

共工之锚
2026-05-07 00:04:56
马龙伦敦世乒观赛从VIP沙发挪到看台,闫安曝真相:被外协投诉了

马龙伦敦世乒观赛从VIP沙发挪到看台,闫安曝真相:被外协投诉了

观鱼听雨
2026-05-07 18:43:11
1200万预赔款已到账!浏阳烟花厂爆炸遇难者,人均赔多少?

1200万预赔款已到账!浏阳烟花厂爆炸遇难者,人均赔多少?

陈博世财经
2026-05-07 14:13:52
男大学生被狗咬了后意外离世,母亲哭诉生前已打5针疫苗

男大学生被狗咬了后意外离世,母亲哭诉生前已打5针疫苗

纸鸢奇谭
2026-02-10 11:13:06
2026-05-08 06:12:49
新浪财经 incentive-icons
新浪财经
新浪财经是一家创建于1999年8月的财经平台
3137163文章数 7221关注度
往期回顾 全部

科技要闻

月之暗面完成20亿美元融资,估值突破200亿

头条要闻

伊朗武装部队:美军违反停火空袭伊朗 已反击

头条要闻

伊朗武装部队:美军违反停火空袭伊朗 已反击

体育要闻

巴黎再进欧冠决赛,最尴尬的情况还是发生了

娱乐要闻

Lisa主持!宁艺卓观看脱衣秀风波升级

财经要闻

人均年薪406万,这家ST公司惊呆市场!

汽车要闻

雷克萨斯全新纯电三排SUV 全新TZ全球首发

态度原创

家居
房产
本地
艺术
公开课

家居要闻

破茧成蝶 土味精装房爆改

房产要闻

负债23亿,抵押482亩地!海南这家巨头,惨遭拍卖!

本地新闻

用青花瓷的方式,打开西溪湿地

艺术要闻

21 岁徐悲鸿画的 “天价仙女”,被网友骂 “生无可恋”

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版