网易首页 > 网易号 > 正文 申请入驻

中关村学院新发现:轻量级验证器可解锁LLM推理最优选择

0
分享至



本文由北京中关村学院、哈尔滨工业大学、中科院自动化所等多家单位作者共同完成,第一作者为北京中关村学院与哈尔滨工业大学联培博士生俞斌,指导教师包括:哈尔滨工业大学教授 & 哈工大青岛研究院院长王佰玲,北京中关村学院 & 中关村人工智能研究院具身智能方向负责人陈凯。

研究背景:Test-Time Scaling 的两种范式

在大语言模型(LLM)席卷各类复杂任务的今天,“测试时扩展”(Test-Time Scaling,TTS)已成为提升模型推理能力的核心思路 —— 简单来说,就是在模型 “答题” 时分配更多的计算资源来让它表现更好。严格来说,Test-Time Scaling 分成两类:

  • 内部 Test-Time Scaling:以 DeepSeek-R1 为代表的推理型大模型通过拉长思维链来实现内部的测试时扩展。
  • 外部 Test-Time Scaling:让模型在回答问题时进行并行推理得到多个推理路径,然后通过聚合这些不同的推理路径来得到最终的答案。

随着各种改进推理思维链方案的提出,通过内部 Test-Time Scaling 来提高模型性能的方法逐渐接近瓶颈,这时更好的选择则是转向去回答另一个问题:如果通过外部 Test-Time Scaling 来继续实现模型性能的增长?

Best-of-N 范式是测试时扩展的一种典型代表:对于一个数学问题,模型生成 N 条推理路径并从中选择一项最有可能正确的路径作为最终答案,如下图所示:



传统实现 Best-of-N 的方法有两种:

1. 投票法(Majority Voting):哪个答案出现最多就选哪个;

2. 过程奖励模型(Process Reward Model,PRM):用一个额外的模型给每一步打分,再选总分最高的路径。

然而两者都存在各自的问题:投票法相对粗糙,且近期的研究也发现,“正确的答案往往存在于少数中”,这也进一步揭示了投票法在 Best-of-N 任务中的不足;过程奖励模型的相关方法则存在性能不稳定现象,这种现象源于当前的各类过程奖励模型并非针对外部 Test-Time Scaling 和推理型模型所设计,从而导致了这些模型在应用于 Best-of-N 任务时存在明显的鲁棒性和性能问题。

本文的研究试图去弥补这类研究的缺陷,并提出了TrajSelector 方法:一种轻量级但强大的 Best-of-N 策略,它通过复用大模型自身的 “隐藏状态” 来评估推理路径质量,无需昂贵的过程标注或 7B 参数的奖励模型,就能在数学推理任务中取得显著性能提升。



  • 论文标题:TrajSelector: Harnessing Latent Representations for Efficient and Effective Best-of-N in Large Reasoning Model
  • 论文地址:https://arxiv.org/abs/2510.16449
  • 项目主页:https://zgca-ai4edu.github.io/TrajSelector/

TrajSelector:利用大模型隐状态,解锁大模型推理的 “最优选择”

论文首先分析现有 Best-of-N 方法的两个致命缺陷:

  • 重量级过程奖励模型(PRM)的成本太高:主流方法用 7B 参数的 PRM 给每个推理步骤打分,部署和推理成本几乎和策略模型(比如 8B 的 Qwen3)持平,成本骤增;
  • 模型隐状态被浪费:另一些方法尝试用策略模型的内在状态评估答案,但这些状态没有被系统化利用,在不同任务上性能波动极大,可靠性差。

为什么需要隐状态?因为大模型的隐状态里往往藏着 “自我反思信号”—— 比如解数学题时,某个步骤的隐状态可能已经编码了 “这个推导是否合理” 的信息,只是没有被显式利用。

TrajSelector 的核心目标就是解决这两个问题:用最小的参数开销,充分利用策略采样模型的隐状态,实现 Effective 且 Efficient 的 Best-of-N 范式。该方法的架构图如下:



TrajSelector 的框架非常简洁,本质是“并行采样 - 步骤打分 - 聚合选优” 的三步流水线:

1. 并行采样:使用一个冻结的策略模型进行并行采样,得到多个推理路径及其隐状态。

2. 步骤打分:TrajSelector 方法用一个仅 0.6B 参数的轻量级打分模型(即 Qwen3-0.6B-Base),通过复用策略模型的隐状态给每个推理步骤打分。这种隐状态的利用使得轻量级的小模型能够复用来自于策略模型的编码能力,使得在显著减小模型参数规模的前提下,实现了更优的打分效果。

3. 聚合选优:TrajSelector 使用了最简单的算术平均来计算每个推理路径的得分情况,得出每一个的全局分数,进行选择出全局分数最高的路径作为最终答案。

训练方案

传统 PRM 需要大量 “步骤级标注”—— 比如人工给每个推理步骤标 “对 / 错”,成本极高。而 TrajSelector 的训练完全不用手动标注,仅靠 “弱监督” 就能实现模型的训练。

训练时的核心挑战在于:一个最终正确的轨迹,未必每个步骤都正确(比如步骤有冗余,但结果对了)。如果直接把 “轨迹标签” 当成 “步骤标签”,会引入大量噪声。TrajSelector 借鉴了来自于 FreePRM 的损失函数设计方案,额外引入了一个 “buffer” 选项来吸收噪声,从而设计出一个特殊的三分类损失函数:

  • 对于标签为 “正确” 的轨迹,要求模型预测 “正确 + 中性” 的概率和为 1(允许部分步骤是中性,吸收噪声);
  • 对于标签为 “错误” 的轨迹,要求模型预测 “错误 + 中性” 的概率和为 1。



这样的训练方案摆脱了对人工过程标注的依赖,从数据驱动的角度让模型自主学习如何 “抓重点”,在大规模数据的训练下实现了一个智能且轻量级的过程验证器。

实验效果

论文给出了 Best-of-N 任务中多个 N 值设置下的模型性能表现,包括 N = 1,5,10,16,32,64 ,基准选用了主流的 AMC23、AIME24、AIME25、BeyondAIME、HMMT25、BRUMO-25 等多个基准。

下表给出了以 Qwen3-8B 为基座的 N=16 和 N=32 时 Best-of-N 表现:



汇总各个 baselines 的平均表现,可以绘制出一个由 Best-of-N 实现的外部 Test-Time Scaling 曲线图:



与各基线相比,随着 N 的增大,TrajSelector 方案实现了更稳定的性能增长。

总结

TrajSelector 给大模型推理优化提供了一个重要思路:与其追求更大的模型,不如更聪明地利用现有模型的能力。它用 0.6B 的轻量级验证器,实现了比 7B PRM 更好的效果,证明了 “隐藏状态中的自我反思信号” 是未被充分挖掘的宝藏。对于需要落地大模型推理的场景(比如教育、科研计算),TrajSelector 的高效性和低成本特性,让 “Best-of-N” 从 “实验室方案” 真正走向 “实用化”。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
48岁大叔每月9次夫妻生活,单位体检结束后,结果让他大吃一惊

48岁大叔每月9次夫妻生活,单位体检结束后,结果让他大吃一惊

饭小妹说历史
2026-03-26 20:26:05
广东一男子买啤酒抽中电动车大奖,将中奖二维码发网上询问后被他人扫走核销,网友:“这下又上了一课”

广东一男子买啤酒抽中电动车大奖,将中奖二维码发网上询问后被他人扫走核销,网友:“这下又上了一课”

洪观新闻
2026-03-26 10:56:49
联大通过决议,宣布“最严重反人类罪”

联大通过决议,宣布“最严重反人类罪”

澎湃新闻
2026-03-26 11:03:06
岛上设陷阱,海上堵两头!伊朗布下天罗地网,曼德海峡将成美国经济新“放血点”?

岛上设陷阱,海上堵两头!伊朗布下天罗地网,曼德海峡将成美国经济新“放血点”?

红星新闻
2026-03-26 18:34:31
勇敢发声!科威特记者联合国痛批“反以仪式”

勇敢发声!科威特记者联合国痛批“反以仪式”

Nee看
2026-03-26 14:15:21
广东报告梅大高速“5·1”塌方灾害整改落实情况:发现公路隐患1.6万余处

广东报告梅大高速“5·1”塌方灾害整改落实情况:发现公路隐患1.6万余处

封面新闻
2026-03-26 15:36:07
张雪峰前女友哭红眼,喊话不要给张雪峰泼脏水,曝两人分手原因

张雪峰前女友哭红眼,喊话不要给张雪峰泼脏水,曝两人分手原因

180视角
2026-03-26 14:51:03
商务部:中方将自5月1日起对所有非洲建交国全面实施零关税举措

商务部:中方将自5月1日起对所有非洲建交国全面实施零关税举措

界面新闻
2026-03-26 16:08:24
罗技中国致歉

罗技中国致歉

界面新闻
2026-03-26 23:25:51
姐姐寻找弟弟33年后续!直播时闹矛盾,李鑫已告别离开,姐姐让步

姐姐寻找弟弟33年后续!直播时闹矛盾,李鑫已告别离开,姐姐让步

潮鹿逐梦
2026-03-26 17:43:25
越扒越有!张雪峰去世早有预兆,他的3个不良爱好,或成催命符

越扒越有!张雪峰去世早有预兆,他的3个不良爱好,或成催命符

潮鹿逐梦
2026-03-26 11:24:44
CBA最新排名:青岛准绝杀广州重返前8 北控主场不敌同曦送温暖

CBA最新排名:青岛准绝杀广州重返前8 北控主场不敌同曦送温暖

狼叔评论
2026-03-26 22:22:04
张雪峰去世仅两天!公司宣布重大决定:收回他所有肖像使用权

张雪峰去世仅两天!公司宣布重大决定:收回他所有肖像使用权

娱乐圈圈圆
2026-03-26 21:47:07
曾在恒大赚上亿!40岁郜林吐槽:在中乙当老总1个月工资不够油费

曾在恒大赚上亿!40岁郜林吐槽:在中乙当老总1个月工资不够油费

我爱英超
2026-03-26 20:47:14
网易号平台每日辟谣公告(三月二十六日)

网易号平台每日辟谣公告(三月二十六日)

网易号官方平台
2026-03-26 18:04:59
万科高管被要求退还薪酬

万科高管被要求退还薪酬

地产微资讯
2026-03-26 12:22:04
没想到不翻不知道,一翻吓一跳,张雪峰几乎每个月都在网上喊累

没想到不翻不知道,一翻吓一跳,张雪峰几乎每个月都在网上喊累

岁月有情1314
2026-03-26 12:13:10
大陆对全体台胞发出邀请:两岸统一之时,即可从台岛自驾直达北京

大陆对全体台胞发出邀请:两岸统一之时,即可从台岛自驾直达北京

小童历史
2026-03-25 18:20:29
砸6700亿建雄安,面积抵3个纽约,如今究竟咋样了?

砸6700亿建雄安,面积抵3个纽约,如今究竟咋样了?

娱乐圈的笔娱君
2026-03-26 12:15:32
“亲妈霸占消防通道,儿子被火烧死”,这件事,简直太魔幻了……

“亲妈霸占消防通道,儿子被火烧死”,这件事,简直太魔幻了……

桌子的生活观
2026-03-26 12:28:04
2026-03-27 00:51:00
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12608文章数 142594关注度
往期回顾 全部

科技要闻

美团发布外卖大战后成绩单:亏损超200亿

头条要闻

张雪峰留巨额遗产:二婚妻子或拿50% 剩下的女儿占1/3

头条要闻

张雪峰留巨额遗产:二婚妻子或拿50% 剩下的女儿占1/3

体育要闻

申京努力了,然而杜兰特啊

娱乐要闻

刘晓庆妹妹发声!称姐姐受身边人挑拨

财经要闻

油价"驯服"特朗普?一到100美元就TACO

汽车要闻

一汽奥迪A6L e-tron开启预售 CLTC最大续航815km

态度原创

教育
数码
时尚
健康
军事航空

教育要闻

精准研判,提质增效丨我校召开2026届毕业生就业工作研判会

数码要闻

英特尔发Q1.26版Arc Pro专业显卡驱动,支持B70 / B65显卡

400万人爱过的女孩,被黄谣网暴180天后

转头就晕的耳石症,能开车上班吗?

军事要闻

担心特朗普突然停战 以总理下令48小时尽力摧毁伊设施

无障碍浏览 进入关怀版