网易首页 > 网易号 > 正文 申请入驻

无需训练、即插即用,这个解码方法让模型学会谨慎思考

0
分享至

你有没有发现这样一种现象:面对同一个问题,大模型可能在每次回答时都给出不同答案。一个不容忽视的问题是,这种不确定性,是否意味着推理仍不稳定?

随着技术的发展,大模型在自然语言处理和多模态任务中已经表现出越来越强的性能。传统解码策略主要包括随机采样(random sample)和贪婪解码(greedy decoding)。例如,ChatGPT、Claude、Gemini 等大模型默认的是随机采样(random sample),即便是回答相同的问题,它们可能每次都会给出不同的答案。

而贪婪解码(greedy decoding)在一般的基准测试(benchmark)上表现会有所提升,特别是在推理性任务上。但是,模型在不确定情况下的表现仍不理想。

为解决上述问题,美国东北大学与 Adobe、美国凯斯西储大学联合团队提出了一种无需训练的新型解码策略,名为“谨慎下一步预测(CNTP,Cautious Next Token Prediction)”。

该策略旨在通过在模型不确定性高的步骤采样多个候选路径,并选择困惑度最低的路径。相较于随机采样和贪婪解码等传统策略,CNTP 显著提升了大模型在多种任务上的推理准确度,可应用场景包括语音助手、视觉助手、聊天机器人等。


图丨相关论文(来源:arXiv)

“我们的研究证明了 Transformer 模型下一个词元预测(next token prediction)的范式,有可能实现真正的智能。”该论文第一作者王亦周对 DeepTech 表示。他目前正在东北大学攻读博士学位,主要研究方向包括大模型、多模态模型和计算机视觉,即将加入 Adobe 担任研究科学家/工程师。


图丨王亦周(来源:王亦周)

Safe Superintelligence 公司创始人、前 OpenAI 首席科学家伊尔亚·苏茨克维(Ilya Sutskever)曾公开表示,如果模型足够强大,对下一个 token 的预测能力可能反映对世界的某种理解,这可能是实现更深层智能的关键路径。

也就是说,next token prediction 是智能的核心。要实现这一点,需要在模型内部进行强推理,再通过一系列计算预测下一个 token。

受此启发,研究团队从人类认知行为中寻找灵感:人在思考时,往往越谨慎回答,结果的准确率越高,那么大模型会不会也和人脑有类似的机制?

王亦周解释道:“这种过程类似于我们在参加考试时的解题过程,我们可能会先想下有哪些解法,然后从中挑选一种认为最有把握的方法,确认无误后再进行下一步,直到得到完整的证明。”


图丨 CNTP 方法概述(来源:arXiv)

这里的谨慎指的是,当面对不确定性的情况,需要多尝试几条不同的路径,然后选择一条最稳妥、最可信的路径。

研究团队用熵作为模型不确定性的衡量标准:熵越高越不可信。在自然语言处理(NLP)中,困惑度(perplexity)越低代表对答案越可信。因此在 CNTP 策略下,一旦熵值较高,模型会采样多个候选路径,并选择其中困惑度最低的一条,再一步步迭代。

研究人员通过消融研究证明,由于思维链推理的回答往往较长,每条路径长度也不同,如果算完整评估的困惑度无法很好地衡量答案的可靠性。基于此,他们采取了每到一句话的标点符号截止的方式来计算困惑度。相当于每句话、每个小的推理单元,即每个局部自洽能够实现较理想的效果。

为控制采样次数,研究团队通过设置最小熵 Hmin 和最大熵 Hmax 两个阈值和最大试验次数 Nmax。该方法在提高解码准确性的同时,还有效地限制了计算成本,避免了在每个步骤大量采样而带来的高计算开销。


(来源:arXiv)

在实验验证方面,该团队在数学推理(GSM8K、MATH)、常识推理(StrategyQA)和开放问答(TruthfulQA)等任务中证明,与包括贪婪解码、随机解码和束搜索在内的传统方法相比,CNTP 策略的结果更具优势。

例如,在 TruthfulQA 任务中,Llama-2-7B 在使用 CNTP 方法后,真实性准确率提升到了 84.8%,相较于随机解码提升 6.8%。

值得关注的是,CNTP 策略无需训练,仅解码即可直接实现提升性能。王亦周解释道:这种方法在某种程度上像“免费午餐”,尽管可能会带来更多的 token 消耗,但在实际应用中有很多优化的方法可解决该问题。


(来源:arXiv)

此外,该方法搭配自一致性(self-consistency)后,可进一步提升性能(注:自一致性是取多个样本,然后选一个出现频率最高的答案),且计算成本远低于后者。原因在于,利用多样性和随机性集思广益后,选取多数投票。

研究团队证明,每个样本也是越谨慎越好。“我们的方法会在一定程度上限制它的多样性,但通过调高温度可以解决这一点,所以它能进一步提升。”王亦周说。

此外,CNTP 策略具有较好的普适性,可用于广泛的对话任务。除了有固定答案的数学题或代码题,它也可以用于开放式问题,研究团队未来将尝试将该策略用于图像或视频生成。

该研究为大模型的推理优化提供了一种新思路,有望成为下一代解码策略的重要候选方案。

参考资料:

1.相关论文:https://arxiv.org/abs/2507.03038v2

2.code link:https://github.com/wyzjack/CNTP

排版:刘雅坤

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
普通家庭能给孩子最好的托举是什么?网友:真的说到点上了

普通家庭能给孩子最好的托举是什么?网友:真的说到点上了

夜深爱杂谈
2025-11-21 20:20:12
煌上煌创办人徐桂芬在江西南昌开了一所学院

煌上煌创办人徐桂芬在江西南昌开了一所学院

新浪财经
2026-04-16 21:01:20
毛主席心中之痛:为何1955年授衔时,井冈山籍将领只有一个?

毛主席心中之痛:为何1955年授衔时,井冈山籍将领只有一个?

浩渺青史
2026-04-17 01:12:52
杜锋忍痛割爱!广东果断裁掉麦考尔,敲定两大两小冲冠阵容

杜锋忍痛割爱!广东果断裁掉麦考尔,敲定两大两小冲冠阵容

兰亭墨未干
2026-04-17 05:05:00
家里有这7样东西,赶紧往外扔!不是迷信,是有人真出过事

家里有这7样东西,赶紧往外扔!不是迷信,是有人真出过事

Home范
2026-04-16 11:24:11
过午不食?55岁男子坚持2年不吃晚饭,去体检后,他的胃怎样了?

过午不食?55岁男子坚持2年不吃晚饭,去体检后,他的胃怎样了?

白话电影院
2026-04-09 14:36:58
78岁连路都走不稳还开演唱会,全网骂声一片,她却扬言回馈粉丝

78岁连路都走不稳还开演唱会,全网骂声一片,她却扬言回馈粉丝

LULU生活家
2026-04-14 18:43:54
得知范汉杰每月只有60元生活费,周恩来亲自解决:还按200元发放

得知范汉杰每月只有60元生活费,周恩来亲自解决:还按200元发放

大运河时空
2026-04-16 10:30:03
卡马文加染红惹争议!裁判专家:这级别比赛不能这么罚

卡马文加染红惹争议!裁判专家:这级别比赛不能这么罚

仰卧撑FTUer
2026-04-16 06:33:27
皇马内讧!2大亿元巨星争吵 被批不传球后熊皇瞪眼怒喷贝林:闭嘴

皇马内讧!2大亿元巨星争吵 被批不传球后熊皇瞪眼怒喷贝林:闭嘴

我爱英超
2026-04-16 06:39:41
恭喜!中国女篮20岁1米93新星崛起:宫鲁鸣栽培她,契合李月汝?

恭喜!中国女篮20岁1米93新星崛起:宫鲁鸣栽培她,契合李月汝?

李喜林篮球绝杀
2026-04-16 17:00:10
比亚迪大火:千车焚毁燃烧5小时,非电池自燃却撕开行业安全隐痛

比亚迪大火:千车焚毁燃烧5小时,非电池自燃却撕开行业安全隐痛

复转这些年
2026-04-16 12:36:34
陪玩陪睡已淘汰!继关晓彤风波、注射不明物后,娱乐圈再曝潜规则

陪玩陪睡已淘汰!继关晓彤风波、注射不明物后,娱乐圈再曝潜规则

阿纂看事
2026-04-16 19:31:39
中国电动汽车就是燃煤汽车?美财长气急败坏,演播厅鸦雀无声

中国电动汽车就是燃煤汽车?美财长气急败坏,演播厅鸦雀无声

安安说
2026-04-16 11:05:59
世锦赛32强落位:2场中国德比!丁俊晖vs吉尔伯特 央视直播附赛程

世锦赛32强落位:2场中国德比!丁俊晖vs吉尔伯特 央视直播附赛程

球场没跑道
2026-04-16 16:08:40
马伊琍官宣喜讯不到24小时,文章高调求复合姚笛才是笑到最后

马伊琍官宣喜讯不到24小时,文章高调求复合姚笛才是笑到最后

智慧生活笔记
2026-04-12 16:43:48
“你真美,是不是嫌我老?”:手机被没收后,女子用手表录16分钟

“你真美,是不是嫌我老?”:手机被没收后,女子用手表录16分钟

江山挥笔
2026-04-14 10:48:18
去银行注销银行卡,柜员问销卡还是销户?一字之差后果完全不一样

去银行注销银行卡,柜员问销卡还是销户?一字之差后果完全不一样

复转这些年
2026-04-16 12:15:01
下一个长飞光纤是谁?光通信赛道里,谁最有机会复刻龙头呢?

下一个长飞光纤是谁?光通信赛道里,谁最有机会复刻龙头呢?

Thurman在昆明
2026-04-16 15:35:54
赶紧关掉!国安部警示:很多人手机都开着,隐私全漏光

赶紧关掉!国安部警示:很多人手机都开着,隐私全漏光

坠入二次元的海洋
2026-04-16 11:32:22
2026-04-17 06:16:49
DeepTech深科技 incentive-icons
DeepTech深科技
麻省理工科技评论独家合作
16585文章数 514884关注度
往期回顾 全部

科技要闻

赵明:智驾之战,看谁在大模型上更高效

头条要闻

特朗普:美伊下次会晤可能在本周末举行

头条要闻

特朗普:美伊下次会晤可能在本周末举行

体育要闻

皇马拜仁踢出名局,但最抢镜的还是他

娱乐要闻

丝芭传媒创始人王子杰去世,享年63岁

财经要闻

海尔与医美女王互撕 换血抗衰谁的生意?

汽车要闻

空间大五个乘客都满意?体验岚图泰山X8

态度原创

数码
旅游
艺术
健康
公开课

数码要闻

荣耀史上最短发布会,发布荣耀史上最强MagicBook数字系列

旅游要闻

社评:读懂“China Travel”持续圈粉的逻辑

艺术要闻

这 4 个红底黑字,藏着毛主席给一位普通母亲的最高赞誉,看完泪目

干细胞抗衰4大误区,90%的人都中招

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版