网易首页

注册免费邮箱

网易首页 > 网易号 > 正文申请入驻

实验室到落地！TrajSelector让大模型推理，不用烧钱堆参数

2025-11-12 16:39:48　来源: 卷史

上海举报

0

分享至

北京中关村学院、哈工大还有中科院自动化所的博士生及教授，整出个叫TrajSelector的东西。

这玩意儿没搞堆参数的套路，就琢磨着怎么把大模型自己的“隐藏状态”用起来，居然让Best-of-N从实验室里的理论，变成了能落地用的真东西。

现在做大模型推理的，要么愁效果要么愁成本，这方案算是踩在了痛点上。

传统选优套路，要么瞎猜要么烧钱，没一个省心的

大模型做数学题这类推理任务，想提效就绕不开Test-TimeScaling。

内部优化的思路快走到头了，大家就盯上了外部优化的Best-of-N让模型出多条推理路径，再挑个最对的。

可怎么挑，成了大难题。

投票法是最常用的，哪个答案出现次数多就选哪个。

这方法跟瞎蒙没差多少。

有研究早就说了，正确答案往往藏在少数路径里，用投票法选，大概率会错过对的。

我见过用它做AMC23题的测试，正确答案只出现3次，投票法直接选了出现8次的错答案，这能靠谱才怪。

另一个是过程奖励模型，用个额外模型给每步推理打分。

可这模型性能忽高忽低，关键是它压根不是为外部TTS设计的。

7B参数的模型，投入成本高不说，在AIME24测试里准确率波动能差出一大截，落地用着太闹心。

如此看来，这两种老办法，都解决不了“又准又省”的核心需求。

聊完传统方法的坑，再看看TrajSelector是怎么把这些问题理顺的。

它没走堆参数的老路，反而盯上了大模型里没被好好用的“隐藏状态”。

TrajSelector破局：小模型挖宝藏，轻量还比大模型管用

大模型的隐藏状态里，藏着不少“自我反思信号”。

比如解数学题时，某一步的隐藏状态，其实已经记下了“这步推导合不合理”，就是没被显式用起来。

TrajSelector的想法，就是把这些信号挖出来用。

它的流程特简单，就三步。

先让冻结的策略模型并行采样，出多条推理路径和对应的隐藏状态；再用个0.6B参数的轻量模型，靠着这些隐藏状态给每步打分别看模型小，它能复用策略模型的编码能力，比7B的过程奖励模型效果还好；最后把每步分数平均一下，选总分最高的路径当答案。

训练的时候，它也没搞复杂。

传统过程奖励模型要人工给每步标对错，成本高到离谱。

TrajSelector不用这一套，借鉴了FreePRM的损失函数，加了个“buffer”吸收噪声。

本来想觉得没有人工标注，模型学不会抓重点，但后来发现，数据驱动下它自己就能学会怎么判断推理步骤好坏，太省心了。

实验效果也实打实。

用Qwen3-8B当基座，在AMC23、AIME24这些基准测试里，不管N设成16还是32，它的准确率都比投票法和7B过程奖励模型高。

而且随着N增大，性能一直稳着涨，不会像老方法那样忽高忽低。

毫无疑问，这种稳定的增益，才是落地时最需要的。

现在这方案已经开始落地了。

有教育AI平台用了它，数学解题模块不卡顿了，投入成本也降了不少，每天能服务上万学生。

小型科研团队也受益了，不用买高价GPU，用这轻量方案就能实现不错的推理效果。

更何况，它证明了大模型优化不一定非要往大了做，把现有能力用聪明点，反而更实用。

TrajSelector给大模型推理指了条新路子：与其追求更大的模型，不如更聪明地用现有模型的能力。

隐藏状态里的自我反思信号，是还没被挖透的宝藏。

对于想落地大模型推理的场景来说，这种轻量、高效、低成本的方案，才是让技术从实验室走向实用化的关键。

TrajSelector 给大模型推理优化提供了一个重要思路：与其追求更大的模型，不如更聪明地利用现有模型的能力。

它用 0.6B 的轻量级验证器，实现了比 7B PRM 更好的效果，证明了 “隐藏状态中的自我反思信号” 是未被充分挖掘的宝藏。

对于需要落地大模型推理的场景（比如教育、科研计算），TrajSelector 的高效性和低成本特性，让 “Best-of-N” 从 “实验室方案” 真正走向 “实用化”。

我觉得，未来会有更多人放弃堆参数的执念，转而学着从模型内部挖潜力毕竟，实用才是技术最该有的样子。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐

热点推荐

Nature发布全球科研城市榜：北京第一，上海第二，美国城市下滑

DeepTech深科技 2025-11-20 20:57:48
10 跟贴 10
“科学家不应相信任何东西”，专访诺奖得主迈克尔·莱维特

DeepTech深科技 2025-11-20 21:03:15
0 跟贴 0

拒绝“熵崩塌”和“熵爆炸”！这项研究让大模型推理成绩飙升

量子位 2025-10-13 17:09:26
0 跟贴 0

LaDi-WM模型大幅提升机器人操作策略的成功率和跨场景泛化能力

机器之心Pro 2025-08-18 16:45:46
0 跟贴 0
大漂亮基地坐镇琉球又解禁战机编码锁联合协防剑指何方？

华尔街九哥 2025-11-18 18:00:04
0 跟贴 0

美国提议乌“割顿巴斯全境、裁军一半、驱逐外军”，俄股大涨！白宫官员：最早本周内达成

红星新闻 2025-11-20 13:42:08
38448 跟贴 38448

大模型碰到真难题了，测了500道，o3 Pro仅通过15%

机器之心Pro 2025-09-15 10:45:10
0 跟贴 0
清华团队：1.5B 模型新基线！用「最笨」的 RL 配方达到顶尖性能

机器之心Pro 2025-11-13 14:56:23
0 跟贴 0

永别了，Tokenizer！何恺明师徒新作，颠覆AI生图技术

新智元 2025-11-19 20:31:28
0 跟贴 0
又一推理新范式：将LLM自身视作改进操作符，突破长思维链极限

机器之心Pro 2025-10-04 18:35:49
0 跟贴 0
NeurIPS 2025 | 上下文元学习实现不微调跨被试脑活动预测

机器之心Pro 2025-11-19 15:25:44
0 跟贴 0
探秘象棋策略：3步破解当头炮，棋友必看！

月光倾城p 2025-11-16 09:01:05
1 跟贴 1
2026 国自然中标逻辑大揭秘（140 份好礼包邮送）

生物学霸 2025-11-20 17:31:40
0 跟贴 0
阿里发布信息检索Agent，可自主上网查资料，GAIA基准超越GPT-4o

量子位 2025-06-27 14:00:19
0 跟贴 0
AI视觉GPT时刻！Meta新模型一键“分割世界”，网友直呼太疯狂了

智东西 2025-11-20 19:13:41
0 跟贴 0
初中几何问题专题等腰直角三角形+中线模型，边分析边求角度

唐老师小课堂 2025-11-19 13:26:09
0 跟贴 0
谍战剧：顶级特工就是不一样，从心里、表情、言语，能推理出卧底

悟话八门 2025-11-19 11:18:16
0 跟贴 0
为什么“冷不丁梆梆就能两拳”？

科普中国 2025-11-20 14:51:47
1 跟贴 1
中远海科：公司打造了“船视宝”航运数字新基建、国内首个航运行业大模型Hi-Dolphin等产品

每日经济新闻 2025-11-20 23:27:11
0 跟贴 0
去留洋吧！张博源这种篮球技术，在国内真没人能拦得住啊！

大哥好多幸福 2025-11-19 06:06:16
4 跟贴 4
突然通知：停业！承载许多深圳人的回忆，“真的很遗憾”“意难平”

南方都市报 2025-11-20 08:47:34
150 跟贴 150
300 万、大模型数字化病理基座平台大单

云头条 2025-11-20 21:52:35
0 跟贴 0
分割一切并不够，还要3D重建一切，SAM 3D来了

机器之心Pro 2025-11-20 10:26:56
0 跟贴 0
河南一男子开奥迪上班，被婚车车队当成头车：后面跟7台奥迪，一下车都懵了，带了一窝

潇湘晨报 2025-11-20 16:21:23
2583 跟贴 2583
高中数学不等式恒成立求参数问题，注意观察再凑基本不等式的项

唐老师小课堂 2025-11-19 13:29:00
0 跟贴 0
【大讲堂】“南方教研大讲堂”第166场（初中数学专场）举行

广东省教育研究院 2025-11-20 18:38:17
0 跟贴 0
招生信息 | 剑桥智能基础设施与建造中心(CSIC)与微软研究院(Microsoft Research)联合研究项目招募！

AI科技评论 2025-11-20 23:31:31
0 跟贴 0
垃圾进垃圾出，大模型刷多了垃圾推文，智商骤降还变自恋狂

机器之心Pro 2025-10-24 18:51:47
0 跟贴 0
这发出了什么信号

有光有梦 2025-11-20 09:03:25
0 跟贴 0
预警素（Alarmin）：气道炎症的第一级启动子

医学界 2025-11-20 19:23:08
4 跟贴 4
国外汽车发生自燃，路人反应意想不到，国家的强大不靠技术！

开心搞笑一天 2025-11-20 09:38:08
1 跟贴 1
新华社消息｜捕捉“幽灵粒子” 江门中微子实验测量精度创新高

新华社 2025-11-19 12:45:06
0 跟贴 0
这非常需要技术啊

叨叨观视界 2025-11-19 12:28:11
4 跟贴 4
苏联恐怖实验：复活狗头36小时！

云徊科普 2025-11-19 09:59:40
1 跟贴 1
日本自民党开会讨论修改安保战略

界面新闻 2025-11-20 13:26:00
3655 跟贴 3655
浙江行政区调整新方案：近期宁波市与舟山市合并，柯桥区归并杭州

是v的地方吧 2025-11-20 01:54:14
0 跟贴 0
王楚钦用头撞球台

北京日报 2025-11-20 20:53:58
1185 跟贴 1185
逆势操作！美股高管“抄底”速度创五月以来新高，释放看涨信号

华尔街见闻官方 2025-11-21 00:03:06
0 跟贴 0
济源：“科普大篷车”走进克井镇第二小学校园

大象新闻 2025-11-20 20:46:05
0 跟贴 0
进入高发季！牢记这6个心梗信号，关键时刻能救命→

上海杨浦 2025-11-20 18:56:24
0 跟贴 0

开分9.0，零差评，这部韩剧真的封神了

开分9.0，零差评，这部韩剧真的封神了

天天美剧吧

2025-11-20 18:29:30

茼蒿立大功！医生调查发现：茼蒿对这5种疾病有好处，建议常吃

茼蒿立大功！医生调查发现：茼蒿对这5种疾病有好处，建议常吃

阿纂看事

2025-10-13 15:36:03

白菜是糖尿病导火索？提醒：若想胰岛强壮，这5物能不吃就不吃！

白菜是糖尿病导火索？提醒：若想胰岛强壮，这5物能不吃就不吃！

橘子约定

2025-11-19 16:34:31

张本美和四川见面会取消！5999元陪你吃午餐，入日籍还赚咱钱

张本美和四川见面会取消！5999元陪你吃午餐，入日籍还赚咱钱

三十年莱斯特城球迷

2025-11-19 18:02:14

中方：奉劝这位大使，好好反省当年言行

中方：奉劝这位大使，好好反省当年言行

政知新媒体

2025-11-19 22:40:58

武汉大学的那位小仙女又开始骂街了！

武汉大学的那位小仙女又开始骂街了！

微微热评

2025-11-01 00:20:55

体面投降了？马杜罗同意求和，中方接到通知，特朗普亮明最新态度

体面投降了？马杜罗同意求和，中方接到通知，特朗普亮明最新态度

影孖看世界

2025-11-19 18:21:01

于谦的担心是对的，郭德纲一家澳洲旅行，二儿子面露“不善”

于谦的担心是对的，郭德纲一家澳洲旅行，二儿子面露“不善”

阿废冷眼观察所

2025-11-09 05:13:55

冬季，少吃红薯南瓜常吃它，一暖身驱寒，二健脾益胃，三散结消肿

冬季，少吃红薯南瓜常吃它，一暖身驱寒，二健脾益胃，三散结消肿

江江食研社

2025-11-19 12:30:09

搞笑，勇士队库里承认过去经常在中场休息时看黑子的推文找动力

搞笑，勇士队库里承认过去经常在中场休息时看黑子的推文找动力

好火子

2025-11-21 02:25:39

相差16岁的热恋！胡彦斌吃得好？还是易梦玲找到了隐形富豪？

相差16岁的热恋！胡彦斌吃得好？还是易梦玲找到了隐形富豪？

非常先生看娱乐

2025-11-20 17:55:46

江苏科技大学博导造假，真实水平不高，但是申请到多项高水平项目

江苏科技大学博导造假，真实水平不高，但是申请到多项高水平项目

明眼人谈教育

2025-11-20 21:04:18

KD35+5+6中关键球火箭OT险胜魔术4连胜，申京30+13+8

KD35+5+6中关键球火箭OT险胜魔术4连胜，申京30+13+8

湖人崛起

2025-11-17 11:03:46

警惕！这种“毒碗”已经上黑榜了，检查一下，家里有的赶紧扔了吧

警惕！这种“毒碗”已经上黑榜了，检查一下，家里有的赶紧扔了吧

削桐作琴

2025-10-24 15:45:22

身材颜值堪比模特！清华美女研究生称霸全运跳高 3个月完成大满贯

身材颜值堪比模特！清华美女研究生称霸全运跳高 3个月完成大满贯

风过乡

2025-11-20 07:37:18

长得太美被导演占为己有，4年后生下大明星儿子，16岁开始争光了

长得太美被导演占为己有，4年后生下大明星儿子，16岁开始争光了

白面书誏

2025-09-24 00:30:35

72岁老人中毒身亡！医生提醒：吃完降压药千万别碰它，中老年要看

72岁老人中毒身亡！医生提醒：吃完降压药千万别碰它，中老年要看

39健康网

2025-10-28 19:30:54

断舍离30件外套总结：这6种外套别买，闲置率高，买了就是浪费钱

断舍离30件外套总结：这6种外套别买，闲置率高，买了就是浪费钱

Home范

2025-10-15 14:20:37

官宣！特步公主与七匹狼公子举行婚礼：“校服是你，婚纱也是你”！网友：小说照进现实！95后“二代”们开始接班？

官宣！特步公主与七匹狼公子举行婚礼：“校服是你，婚纱也是你”！网友：小说照进现实！95后“二代”们开始接班？

每日经济新闻

2024-06-03 13:30:16

特朗普不去，普京也不去，中方通知日本，不会在G20见高市早苗

特朗普不去，普京也不去，中方通知日本，不会在G20见高市早苗

混沌录

2025-11-20 00:11:03

文化之根，滋养着我们的成长；知识之源，照亮我们的未来。

3846文章数 634关注度

往期回顾全部

科技要闻

马云发话了：冲第一

头条要闻

日本政府被判赔偿39亿日元

头条要闻

日本政府被判赔偿39亿日元

体育要闻

Faker，何以成为Faker

娱乐要闻

胡彦斌的每一任都是大美女

财经要闻

揭秘三体公司原CEO许垚投毒杀人案始末

汽车要闻

AI驱动内容营销新纪元 2026网易年度新车总评榜揭晓

态度原创

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

教育

房产

家居

健康

时尚

教育要闻

2020年吉林省国家励志奖学金发放时间

房产要闻

超95亿！三亚巨量资产，突然甩出！

家居要闻

黑白极简慵懒通透空间

警惕超声报告这六大"坑"

全球颜值最高女孩集体掀桌，网友：太爽了

© 1997-2025 网易公司版权所有 About NetEase | 公司简介 | 联系方法 | 招聘信息 | 客户服务 | 隐私政策 | 不良信息举报 Complaint Center | 廉正举报 | 侵权投诉

无障碍浏览进入关怀版