网易首页 > 网易号 > 正文 申请入驻

中关村学院新发现:轻量级验证器可解锁LLM推理最优选择

0
分享至



本文由北京中关村学院、哈尔滨工业大学、中科院自动化所等多家单位作者共同完成,第一作者为北京中关村学院与哈尔滨工业大学联培博士生俞斌,指导教师包括:哈尔滨工业大学教授 & 哈工大青岛研究院院长王佰玲,北京中关村学院 & 中关村人工智能研究院具身智能方向负责人陈凯。

研究背景:Test-Time Scaling 的两种范式

在大语言模型(LLM)席卷各类复杂任务的今天,“测试时扩展”(Test-Time Scaling,TTS)已成为提升模型推理能力的核心思路 —— 简单来说,就是在模型 “答题” 时分配更多的计算资源来让它表现更好。严格来说,Test-Time Scaling 分成两类:

  • 内部 Test-Time Scaling:以 DeepSeek-R1 为代表的推理型大模型通过拉长思维链来实现内部的测试时扩展。
  • 外部 Test-Time Scaling:让模型在回答问题时进行并行推理得到多个推理路径,然后通过聚合这些不同的推理路径来得到最终的答案。

随着各种改进推理思维链方案的提出,通过内部 Test-Time Scaling 来提高模型性能的方法逐渐接近瓶颈,这时更好的选择则是转向去回答另一个问题:如果通过外部 Test-Time Scaling 来继续实现模型性能的增长?

Best-of-N 范式是测试时扩展的一种典型代表:对于一个数学问题,模型生成 N 条推理路径并从中选择一项最有可能正确的路径作为最终答案,如下图所示:



传统实现 Best-of-N 的方法有两种:

1. 投票法(Majority Voting):哪个答案出现最多就选哪个;

2. 过程奖励模型(Process Reward Model,PRM):用一个额外的模型给每一步打分,再选总分最高的路径。

然而两者都存在各自的问题:投票法相对粗糙,且近期的研究也发现,“正确的答案往往存在于少数中”,这也进一步揭示了投票法在 Best-of-N 任务中的不足;过程奖励模型的相关方法则存在性能不稳定现象,这种现象源于当前的各类过程奖励模型并非针对外部 Test-Time Scaling 和推理型模型所设计,从而导致了这些模型在应用于 Best-of-N 任务时存在明显的鲁棒性和性能问题。

本文的研究试图去弥补这类研究的缺陷,并提出了TrajSelector 方法:一种轻量级但强大的 Best-of-N 策略,它通过复用大模型自身的 “隐藏状态” 来评估推理路径质量,无需昂贵的过程标注或 7B 参数的奖励模型,就能在数学推理任务中取得显著性能提升。



  • 论文标题:TrajSelector: Harnessing Latent Representations for Efficient and Effective Best-of-N in Large Reasoning Model
  • 论文地址:https://arxiv.org/abs/2510.16449
  • 项目主页:https://zgca-ai4edu.github.io/TrajSelector/

TrajSelector:利用大模型隐状态,解锁大模型推理的 “最优选择”

论文首先分析现有 Best-of-N 方法的两个致命缺陷:

  • 重量级过程奖励模型(PRM)的成本太高:主流方法用 7B 参数的 PRM 给每个推理步骤打分,部署和推理成本几乎和策略模型(比如 8B 的 Qwen3)持平,成本骤增;
  • 模型隐状态被浪费:另一些方法尝试用策略模型的内在状态评估答案,但这些状态没有被系统化利用,在不同任务上性能波动极大,可靠性差。

为什么需要隐状态?因为大模型的隐状态里往往藏着 “自我反思信号”—— 比如解数学题时,某个步骤的隐状态可能已经编码了 “这个推导是否合理” 的信息,只是没有被显式利用。

TrajSelector 的核心目标就是解决这两个问题:用最小的参数开销,充分利用策略采样模型的隐状态,实现 Effective 且 Efficient 的 Best-of-N 范式。该方法的架构图如下:



TrajSelector 的框架非常简洁,本质是“并行采样 - 步骤打分 - 聚合选优” 的三步流水线:

1. 并行采样:使用一个冻结的策略模型进行并行采样,得到多个推理路径及其隐状态。

2. 步骤打分:TrajSelector 方法用一个仅 0.6B 参数的轻量级打分模型(即 Qwen3-0.6B-Base),通过复用策略模型的隐状态给每个推理步骤打分。这种隐状态的利用使得轻量级的小模型能够复用来自于策略模型的编码能力,使得在显著减小模型参数规模的前提下,实现了更优的打分效果。

3. 聚合选优:TrajSelector 使用了最简单的算术平均来计算每个推理路径的得分情况,得出每一个的全局分数,进行选择出全局分数最高的路径作为最终答案。

训练方案

传统 PRM 需要大量 “步骤级标注”—— 比如人工给每个推理步骤标 “对 / 错”,成本极高。而 TrajSelector 的训练完全不用手动标注,仅靠 “弱监督” 就能实现模型的训练。

训练时的核心挑战在于:一个最终正确的轨迹,未必每个步骤都正确(比如步骤有冗余,但结果对了)。如果直接把 “轨迹标签” 当成 “步骤标签”,会引入大量噪声。TrajSelector 借鉴了来自于 FreePRM 的损失函数设计方案,额外引入了一个 “buffer” 选项来吸收噪声,从而设计出一个特殊的三分类损失函数:

  • 对于标签为 “正确” 的轨迹,要求模型预测 “正确 + 中性” 的概率和为 1(允许部分步骤是中性,吸收噪声);
  • 对于标签为 “错误” 的轨迹,要求模型预测 “错误 + 中性” 的概率和为 1。



这样的训练方案摆脱了对人工过程标注的依赖,从数据驱动的角度让模型自主学习如何 “抓重点”,在大规模数据的训练下实现了一个智能且轻量级的过程验证器。

实验效果

论文给出了 Best-of-N 任务中多个 N 值设置下的模型性能表现,包括 N = 1,5,10,16,32,64 ,基准选用了主流的 AMC23、AIME24、AIME25、BeyondAIME、HMMT25、BRUMO-25 等多个基准。

下表给出了以 Qwen3-8B 为基座的 N=16 和 N=32 时 Best-of-N 表现:



汇总各个 baselines 的平均表现,可以绘制出一个由 Best-of-N 实现的外部 Test-Time Scaling 曲线图:



与各基线相比,随着 N 的增大,TrajSelector 方案实现了更稳定的性能增长。

总结

TrajSelector 给大模型推理优化提供了一个重要思路:与其追求更大的模型,不如更聪明地利用现有模型的能力。它用 0.6B 的轻量级验证器,实现了比 7B PRM 更好的效果,证明了 “隐藏状态中的自我反思信号” 是未被充分挖掘的宝藏。对于需要落地大模型推理的场景(比如教育、科研计算),TrajSelector 的高效性和低成本特性,让 “Best-of-N” 从 “实验室方案” 真正走向 “实用化”。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
前NBA球员贝弗利被捕,涉重罪袭击

前NBA球员贝弗利被捕,涉重罪袭击

鲁中晨报
2025-11-19 09:40:11
大批中国人依然去日本旅游,被日媒看了笑话,记者采访道出心声

大批中国人依然去日本旅游,被日媒看了笑话,记者采访道出心声

奇思妙想草叶君
2025-11-18 01:27:22
已确认!是知名演员周润发

已确认!是知名演员周润发

大象新闻
2025-11-18 13:14:07
排面!40岁C罗造访白宫+微笑握手特朗普,美国总统宣布:他是GOAT

排面!40岁C罗造访白宫+微笑握手特朗普,美国总统宣布:他是GOAT

我爱英超
2025-11-19 07:10:18
又反转!曝喻恩泰出轨美女律师,两人挽手回酒店,女方美照曝光!

又反转!曝喻恩泰出轨美女律师,两人挽手回酒店,女方美照曝光!

娱圈小愚
2025-11-19 10:13:42
几十万香港人到广东买社保医保!参保人:月交898元,退休后领4年就能回本;公立医疗排队动辄两三年,自费比内地贵几倍

几十万香港人到广东买社保医保!参保人:月交898元,退休后领4年就能回本;公立医疗排队动辄两三年,自费比内地贵几倍

每日经济新闻
2025-11-18 23:38:06
靠农业农村部来解决农民规模性返乡返贫?让城市民营经济重焕活力才是唯一解决之道

靠农业农村部来解决农民规模性返乡返贫?让城市民营经济重焕活力才是唯一解决之道

虎说八道1
2025-11-19 07:04:50
半小时收费4170元!女大学生网购“上门开锁”遭遇天价账单

半小时收费4170元!女大学生网购“上门开锁”遭遇天价账单

潇湘晨报
2025-11-18 23:47:14
上海赴日男子在日媒前声称,不在乎政府的呼吁,花钱是自己的自由

上海赴日男子在日媒前声称,不在乎政府的呼吁,花钱是自己的自由

我心纵横天地间
2025-11-18 19:01:13
突发特讯!日本演员矢野浩二通告全球:永远支持一个中国罕见措辞

突发特讯!日本演员矢野浩二通告全球:永远支持一个中国罕见措辞

TVB的四小花
2025-11-19 10:07:55
最能干活的那批人回来了 孟婆汤的质量越来越差了

最能干活的那批人回来了 孟婆汤的质量越来越差了

夜深爱杂谈
2025-11-18 21:23:05
于东来卸任胖东来总经理,多名高管退出

于东来卸任胖东来总经理,多名高管退出

极目新闻
2025-11-19 09:23:08
“高中生院士”骗局,折射的是高校系统性腐败

“高中生院士”骗局,折射的是高校系统性腐败

凯利经济观察
2025-11-19 09:33:39
最年轻的美女董事长上任了!

最年轻的美女董事长上任了!

微微热评
2025-11-08 13:47:08
45金!41金!39金!19日凌晨全运会最新金牌榜:山东+江苏单日3金

45金!41金!39金!19日凌晨全运会最新金牌榜:山东+江苏单日3金

大秦壁虎白话体育
2025-11-19 09:41:19
把这篇文字,发给你身边的日本人

把这篇文字,发给你身边的日本人

柴差说
2025-11-18 21:53:19
中日打不起来——实力、舆论与“打嘴炮”的深层逻辑

中日打不起来——实力、舆论与“打嘴炮”的深层逻辑

郑说
2025-11-19 11:08:49
赵丽颖方发文:希望大家停止传播!不要把镜头对准未成年人!

赵丽颖方发文:希望大家停止传播!不要把镜头对准未成年人!

极目新闻
2025-11-19 07:43:17
世界太魔幻,高中学历骗子成我国大学首席科学家,学术圈怎么了?

世界太魔幻,高中学历骗子成我国大学首席科学家,学术圈怎么了?

李将平老师
2025-11-18 20:28:43
左宗棠60岁抬棺西征,见孩童在井边玩泥巴,他下令:把这口井填了

左宗棠60岁抬棺西征,见孩童在井边玩泥巴,他下令:把这口井填了

不易一字
2025-11-18 14:27:05
2025-11-19 12:31:00
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
11750文章数 142507关注度
往期回顾 全部

科技要闻

一夜封神,Gemini 3让谷歌找回“碾压感”

头条要闻

女子参加模特大赛夺"广东冠军" 因突破大众审美引争议

头条要闻

女子参加模特大赛夺"广东冠军" 因突破大众审美引争议

体育要闻

结束最后一次对决,陈梦和朱雨玲笑着相拥

娱乐要闻

又反转!曝喻恩泰出轨美女律师

财经要闻

黄金税改两周,水贝低价神话终结?

汽车要闻

脱胎换骨的优秀底盘Get 新款享界S9动态驾驶体验

态度原创

家居
健康
艺术
房产
数码

家居要闻

水岸美学 书香人文生活

警惕超声报告这六大"坑"

艺术要闻

启功:我是画家,但书名超过了画名

房产要闻

29.4亿!海南“地王”片区,要卖超级宅地!

数码要闻

Keychron发布三款Q HE 8K键盘新品:结合TMR与8000Hz回报

无障碍浏览 进入关怀版