网易首页 > 网易号 > 正文 申请入驻

奖励模型变天!0.005%参数量推理速度翻倍,性能还更强

0
分享至


新智元报道

编辑:LRST

【新智元导读】最新奖励模型SWIFT直接利用模型生成过程中的隐藏状态,参数规模极小,仅占传统模型的不到0.005%。SWIFT在多个基准测试中表现优异,推理速度提升1.7×–6.7×,且在对齐评估中稳定可靠,展现出高效、通用的奖励建模新范式。

在大语言模型的推理增强与对齐过程中,Best-of-N(优中选优)是一种常用的测试时增强策略:模型针对同一输入生成多条候选答案,再由奖励模型进行评分筛选。

然而,现有主流奖励模型往往本身规模庞大、推理开销高,并严重依赖大规模标注数据,逐渐成为在真实系统中部署的核心瓶颈。

为此,上海交通大学、新加坡国立大学、同济大学、伊利诺伊大学芝加哥分校的研究团队提出了SWIFT(Simple Weighted Intrinsic Feedback Technique),一种全新的轻量级奖励模型。


论文链接:https://arxiv.org/abs/2505.12225

项目主页:https://aster2024.github.io/swift-website/

代码地址:https://github.com/aster2024/SWIFT

模型权重:https://huggingface.co/Aster2024/swift-ministral-8b-deepscaler

SWIFT 不再「读文本」,而是直接利用大语言模型生成过程中产生的隐藏状态,从中挖掘内在奖励信号,其参数规模仅为传统奖励模型的「不到 0.005%」,却在MATH、GSM8K、HellaSwag 等多个基准上取得更优的Best-of-N效果,并在端到端推理中带来1.7×–6.7×的整体加速。

同时,该方法在有用性 / 安全性等对齐评估任务中同样表现稳定,展示出作为通用奖励模型的潜力。

奖励模型

推理增强的「隐形天花板」

Best-of-N的基本思想并不复杂:对于同一个问题生成N条候选回答,再挑选其中最优的一条。

然而,在真实系统中,真正昂贵的不仅是「多生成」,还有「如何评估」

当前主流做法通常采用文本级奖励模型,对每条候选答案进行完整编码和评分,这带来了多方面的挑战:

  • 模型体量大、推理开销高:奖励模型往往拥有数十亿参数,几乎相当于再运行一次大模型;

  • 数据需求高:训练高度依赖人工偏好数据或复杂的合成标注流程;

  • 系统扩展受限:当 N 增大时,奖励模型的评估成本迅速吞噬 Best-of-N 带来的收益。

因此,一个关键问题逐渐凸显:能否用一种更轻、更快、更易部署的方式,完成候选答案的高质量筛选?

隐藏状态中蕴含着模型「对自己答案的判断」

SWIFT 的出发点来自一个重要观察:当大语言模型生成回答时,其内部各层的隐藏状态本身就携带了关于推理正确性、稳定性与置信度的丰富信息。

换句话说,模型在「思考」的过程中,已经在内部形成了对当前推理路径质量的判断信号。

与其额外训练一个庞大的文本模型去「读输出结果」,不如直接从模型自身的隐藏状态中提取这些内在信号,构建一个专门用于打分的轻量级奖励模型。

这一思路使得奖励建模不再依赖复杂的文本表示,而是转向对模型内部表示的高效利用。

词元级线性打分+门控加权汇总

SWIFT的整体结构非常简洁,但针对奖励建模的需求进行了精心设计,具体而言:

  1. 对于生成序列中的每一个词元,收集大语言模型在该词元处的隐藏状态(来自所有层,或选定的部分层);

  2. 通过一个线性映射,同时预测「该词元的奖励分数」和「该词元的重要性门控权重」

  3. 使用门控权重对词元奖励进行加权平均,得到整条生成路径的最终奖励分数。

其中,门控机制使模型能够自动关注对最终正确性更关键的词元(如关键推理步骤、数值计算、结论标记等),从而对整条推理轨迹进行更精细的评估。

整个奖励模型的参数规模仅与「层数 × 隐藏维度」成正比,相比传统文本奖励模型实现了数量级的压缩。


如此轻量

参数规模与训练成本的数量级差距

与动辄数十亿参数的传统奖励模型相比,SWIFT的参数规模仅为10⁵量级,在不同底座模型上的具体数值均远低于现有主流方案。

论文在参数量与训练数据规模的对比中显示:

SWIFT不仅模型规模极小,训练所需的数据量也显著更低,却依然能够取得具有竞争力甚至更优的性能表现。

这一特性使得SWIFT在资源受限环境或大规模部署场景中具备明显优势。


在多个基准上全面超越主流奖励模型

在数学推理与符号推理等核心基准上,研究团队系统评估了SWIFT在Best-of-N设置下的表现。

在MATH、GSM8K、AQuA-RAT、Imbue Code Comprehension、HellaSwag、CoinFlip数据集上,SWIFT在不同底座模型与不同N值配置下,整体准确率均优于多种主流开源奖励模型,且表现更加稳定。

更重要的是,这些性能提升并非以高昂计算代价为前提。论文进一步报告了端到端推理流程中的实际耗时:在相同的生成设置下,用SWIFT替换传统奖励模型,可带来1.7×–6.7×的整体加速。


效率优势

时间与计算量均达到「数量级提升」

在真实系统中,推理效率往往比离线指标更具决定性意义。论文通过对比每条样本的平均耗时与计算量,清晰展示了SWIFT在效率上的优势:平均推理时间显著降低;所需计算量(FLOPs)减少到原有方法的极小一部分;在不同数据集和底座模型组合下均保持一致趋势。

结果表明,SWIFT在效率层面实现了真正意义上的数量级优势,为大规模 Best-of-N推理提供了可行路径。


从推理到对齐

在有用性/安全性评估中表现稳定

SWIFT并不局限于推理准确率的提升。研究团队进一步在对齐相关评估任务中验证了其通用性。

在PKU-SafeRLHF数据集上,采用Best-of-N设置,并使用强模型作为评判标准,对生成结果的有用性与安全性进行评估。结果显示,SWIFT在这两个维度上均优于多种大规模文本奖励模型。

这一结果表明,隐藏状态中蕴含的信息不仅能够反映推理正确性,也能刻画更广义的响应质量,为奖励模型在对齐评估中的应用提供了新的思路。


工程化优势

更轻、更快、与传统奖励模型协同

SWIFT 还展示了多种面向工程落地的扩展方式,使其不仅具备理论上的简洁性,也具备现实系统中的高度可用性:

  • 部分层训练:消融实验进一步表明,相比模型前层,靠近输出的后层隐藏状态包含更强的推理正确性信号。仅使用少数后层训练 SWIFT,便可在显著减少参数规模与计算开销的同时,保持与使用全部层时接近的性能。这一结果说明,SWIFT 主要依赖模型在形成最终判断阶段的内部表示,而非早期的表层语言特征。

  • 仅基于输出分布(logits)的训练方式:在无法访问隐藏状态的场景下,SWIFT 仍可仅依赖模型的输出分布进行训练。实验结果表明,即使在这种受限设定下,SWIFT 依然能够提取到具有判别力的质量信号。这一特性使其在一定程度上具备与部分闭源大模型兼容的可行性,显著拓宽了实际应用边界。

  • 与传统奖励模型组合:得益于极小的参数规模(不足传统奖励模型的 0.005%),将 SWIFT 与现有奖励模型进行组合几乎不会引入额外的系统开销。论文探索了基于排序选择与加权融合的简单策略,实验表明,在多个基准上,这种组合方式能够进一步提升推理准确率。

综合来看,这些工程化特性使 SWIFT 不仅可以作为传统奖励模型的高效替代方案,也能够作为现有奖励模型体系中的轻量级补充模块,在几乎不增加部署成本的前提下提升整体系统性能。

总结

奖励建模的新范式

SWIFT 提供了一条不同于「更大模型、更重计算」的奖励建模路径:

  • 直接利用大模型内部隐藏状态中的内在信号;

  • 以极低的参数与数据成本,实现高效、稳定的奖励评估;

  • 同时兼顾推理增强与对齐评估,具备良好的工程落地潜力。

这项工作表明,在大模型推理与对齐领域,性能提升并不一定依赖于更复杂的外部模型,而可能来自对模型自身内部机制的更深入理解与利用

参考资料:

https://arxiv.org/abs/2505.12225


特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
楼兰是犯了什么天条吗?让中原人如此痛恨,古诗里一堆“斩楼兰”

楼兰是犯了什么天条吗?让中原人如此痛恨,古诗里一堆“斩楼兰”

收藏大视界
2025-12-16 18:48:56
U23亚洲杯结束仅1天,亚足联宣布新消息,下届分档出炉 中国第3档

U23亚洲杯结束仅1天,亚足联宣布新消息,下届分档出炉 中国第3档

大秦壁虎白话体育
2026-01-26 08:14:34
杀猪宴后呆呆首场直播:辟谣不是23岁而是91年,未婚,并未入编!

杀猪宴后呆呆首场直播:辟谣不是23岁而是91年,未婚,并未入编!

天天热点见闻
2026-01-25 08:46:20
媒体人:俱乐部、体育局极力挽留无果,杨鸣未跟随辽宁队前往四川

媒体人:俱乐部、体育局极力挽留无果,杨鸣未跟随辽宁队前往四川

懂球帝
2026-01-26 13:46:40
悲剧还是发生了!湖南一男生直接猛做200深蹲,差点废了性命不保

悲剧还是发生了!湖南一男生直接猛做200深蹲,差点废了性命不保

火山诗话
2026-01-26 13:36:06
荣耀高管评iPhoneAir降价:将彻底死透!魅族前高管看不下去怒怼

荣耀高管评iPhoneAir降价:将彻底死透!魅族前高管看不下去怒怼

柴狗夫斯基
2026-01-26 08:50:27
12斤肉3个月甩净!全红婵减重到离谱,这哪是减肥,是拿命拼金牌

12斤肉3个月甩净!全红婵减重到离谱,这哪是减肥,是拿命拼金牌

做一个合格的吃瓜群众
2025-12-31 07:41:05
加拿大总理成达沃斯“全场最靓的仔”!又遭特朗普关税威胁,他呼吁国人:买国货

加拿大总理成达沃斯“全场最靓的仔”!又遭特朗普关税威胁,他呼吁国人:买国货

红星新闻
2026-01-25 16:38:16
胡春华发表署名文章

胡春华发表署名文章

社评
2025-10-31 10:11:37
征服中年女人,无需套路:两颗真心,一生相守

征服中年女人,无需套路:两颗真心,一生相守

青苹果sht
2025-11-04 06:10:40
电视剧《太平年》没人敢拍的五代十国,才是真正的魔鬼乱世

电视剧《太平年》没人敢拍的五代十国,才是真正的魔鬼乱世

白羽居士
2026-01-24 21:26:13
受贿近千万!福建一处级干部公开受审

受贿近千万!福建一处级干部公开受审

金台资讯
2026-01-25 22:29:12
克林顿不是男人!要用雪茄助兴?莱温斯基:他把我当成“自助餐”

克林顿不是男人!要用雪茄助兴?莱温斯基:他把我当成“自助餐”

老蝣说体育
2026-01-05 14:59:04
他的艺术永远这么残酷

他的艺术永远这么残酷

虹膜
2026-01-24 20:33:21
忍无可忍,深夜11点!山西队发布一份声明

忍无可忍,深夜11点!山西队发布一份声明

体育哲人
2026-01-26 00:40:45
就在刚刚!26号早上,广东宏远传来徐杰、徐昕和杜锋的最新消息

就在刚刚!26号早上,广东宏远传来徐杰、徐昕和杜锋的最新消息

多特体育说
2026-01-26 07:40:03
拔出萝卜带出泥,卷入“三通一达”的不止黄多多还有这位著名名媛

拔出萝卜带出泥,卷入“三通一达”的不止黄多多还有这位著名名媛

娱乐小丸子
2026-01-25 15:34:29
帕金斯:狄龙被詹姆斯打爆后,灰熊就把他交易掉!

帕金斯:狄龙被詹姆斯打爆后,灰熊就把他交易掉!

氧气是个地铁
2026-01-26 13:55:35
李隆基怎能想到,他死后才13天,软禁他6年的李亨竟因惊吓薨逝!

李隆基怎能想到,他死后才13天,软禁他6年的李亨竟因惊吓薨逝!

芊芊子吟
2026-01-26 11:15:06
原来有这么多工作需要保密!网友:牺牲12年的爸爸竟然回来了!

原来有这么多工作需要保密!网友:牺牲12年的爸爸竟然回来了!

另子维爱读史
2026-01-16 18:29:22
2026-01-26 14:52:49
新智元 incentive-icons
新智元
AI产业主平台领航智能+时代
14415文章数 66536关注度
往期回顾 全部

科技要闻

印奇再上牌桌,阶跃融资50亿

头条要闻

伊朗最高领袖哈梅内伊转入地堡 日常事务交由儿子接管

头条要闻

伊朗最高领袖哈梅内伊转入地堡 日常事务交由儿子接管

体育要闻

叛逆的大公子,要砸了贝克汉姆这块招牌

娱乐要闻

张雨绮被实名举报代孕、插足婚姻

财经要闻

从美式斩杀线看中国社会的制度韧性构建

汽车要闻

宾利第四台Batur敞篷版发布 解锁四项定制创新

态度原创

本地
数码
亲子
时尚
公开课

本地新闻

云游中国|格尔木的四季朋友圈,张张值得你点赞

数码要闻

荣耀平板PC级WPS大改进:支持小窗使用、窗口大小调节等特性

亲子要闻

你们听,287天,9个多月的昂萨梅朵是开口喊爸爸妈妈吗?

伊姐周日热推:电视剧《太平年》;电视剧《暗恋者的救赎》......

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版