北京中关村学院、哈工大还有中科院自动化所的博士生及教授,整出个叫TrajSelector的东西。
这玩意儿没搞堆参数的套路,就琢磨着怎么把大模型自己的“隐藏状态”用起来,居然让Best-of-N从实验室里的理论,变成了能落地用的真东西。
![]()
现在做大模型推理的,要么愁效果要么愁成本,这方案算是踩在了痛点上。
传统选优套路,要么瞎猜要么烧钱,没一个省心的
大模型做数学题这类推理任务,想提效就绕不开Test-TimeScaling。
内部优化的思路快走到头了,大家就盯上了外部优化的Best-of-N让模型出多条推理路径,再挑个最对的。
![]()
可怎么挑,成了大难题。
投票法是最常用的,哪个答案出现次数多就选哪个。
这方法跟瞎蒙没差多少。
有研究早就说了,正确答案往往藏在少数路径里,用投票法选,大概率会错过对的。
![]()
我见过用它做AMC23题的测试,正确答案只出现3次,投票法直接选了出现8次的错答案,这能靠谱才怪。
另一个是过程奖励模型,用个额外模型给每步推理打分。
可这模型性能忽高忽低,关键是它压根不是为外部TTS设计的。
![]()
7B参数的模型,投入成本高不说,在AIME24测试里准确率波动能差出一大截,落地用着太闹心。
如此看来,这两种老办法,都解决不了“又准又省”的核心需求。
聊完传统方法的坑,再看看TrajSelector是怎么把这些问题理顺的。
![]()
它没走堆参数的老路,反而盯上了大模型里没被好好用的“隐藏状态”。
TrajSelector破局:小模型挖宝藏,轻量还比大模型管用
大模型的隐藏状态里,藏着不少“自我反思信号”。
比如解数学题时,某一步的隐藏状态,其实已经记下了“这步推导合不合理”,就是没被显式用起来。
![]()
TrajSelector的想法,就是把这些信号挖出来用。
它的流程特简单,就三步。
![]()
先让冻结的策略模型并行采样,出多条推理路径和对应的隐藏状态;再用个0.6B参数的轻量模型,靠着这些隐藏状态给每步打分别看模型小,它能复用策略模型的编码能力,比7B的过程奖励模型效果还好;最后把每步分数平均一下,选总分最高的路径当答案。
训练的时候,它也没搞复杂。
![]()
传统过程奖励模型要人工给每步标对错,成本高到离谱。
TrajSelector不用这一套,借鉴了FreePRM的损失函数,加了个“buffer”吸收噪声。
本来想觉得没有人工标注,模型学不会抓重点,但后来发现,数据驱动下它自己就能学会怎么判断推理步骤好坏,太省心了。
![]()
实验效果也实打实。
用Qwen3-8B当基座,在AMC23、AIME24这些基准测试里,不管N设成16还是32,它的准确率都比投票法和7B过程奖励模型高。
而且随着N增大,性能一直稳着涨,不会像老方法那样忽高忽低。
![]()
毫无疑问,这种稳定的增益,才是落地时最需要的。
现在这方案已经开始落地了。
有教育AI平台用了它,数学解题模块不卡顿了,投入成本也降了不少,每天能服务上万学生。
小型科研团队也受益了,不用买高价GPU,用这轻量方案就能实现不错的推理效果。
![]()
更何况,它证明了大模型优化不一定非要往大了做,把现有能力用聪明点,反而更实用。
TrajSelector给大模型推理指了条新路子:与其追求更大的模型,不如更聪明地用现有模型的能力。
隐藏状态里的自我反思信号,是还没被挖透的宝藏。
![]()
对于想落地大模型推理的场景来说,这种轻量、高效、低成本的方案,才是让技术从实验室走向实用化的关键。
TrajSelector 给大模型推理优化提供了一个重要思路:与其追求更大的模型,不如更聪明地利用现有模型的能力。
![]()
它用 0.6B 的轻量级验证器,实现了比 7B PRM 更好的效果,证明了 “隐藏状态中的自我反思信号” 是未被充分挖掘的宝藏。
对于需要落地大模型推理的场景(比如教育、科研计算),TrajSelector 的高效性和低成本特性,让 “Best-of-N” 从 “实验室方案” 真正走向 “实用化”。
![]()
我觉得,未来会有更多人放弃堆参数的执念,转而学着从模型内部挖潜力毕竟,实用才是技术最该有的样子。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.