网易首页 > 网易号 > 正文 申请入驻

字节跳动新算法,直接把1/3的算力砍掉了

0
分享至


过去这两年,大语言模型走得实在太快,尤其在那些需要复杂逻辑推理的任务上,能力已经高到了一个我们以前不太敢想的水平。

我到现在还记得 ChatGPT-3.5 那个时代。那时候的 AI 顶多帮你做点简单数学题,写几行基础代码,稍微绕一点的问题就卡壳。没有联网搜索,更别提什么深度思考,它能回答你每一个问题,靠的全是预训练阶段塞进脑子里的那些“存货”,用完了就没了。

但现在不一样了。模型开始学会自己拆问题,一步一步推,生成超长的思维链,甚至在数学竞赛、编程挑战这种硬核任务里,做出了让人类都瞪大眼睛的成绩。

不过,Scaling Law这东西,带来了“大力出奇迹”的同时,也悄悄埋了一个问题:思考过剩。

你回想一下那两个经典的AI笑话,就特别能说明问题:

一个是美国人拿来测 AI 智商的:“Strawberry”这个单词里有几个字母“r”?这问题学前班小孩都能答出来。但一年前,ChatGPT 答错过,DeepSeek 答错过,豆包也答错过。像 R1 这种推理模型,甚至会翻来覆去想十分钟,自己跟自己辩论,最后慎重其事地告诉你:两个。


等 AI 终于把这个坑填平了,中国人又出了个新题:要去 50 米外洗车,应该开车去还是走路去?

AI 又乱了。有的秒回“走路去”,有的把时间、路程、成本全算了一遍,最后还是得出结论:“走路去”。


看到了吗?为了让准确率再高那么一点点,模型一开启深度思考,就会长出大量冗余的推理步骤。浪费算力、抬高成本、拖慢响应,这是实实在在的问题。

而且洗车那个例子也提醒我们,想得久,不代表想得对,有时候反而是因为想太多,自己把自己绕进去了。

所以大家开始问:一个能力已经溢出的模型,真的需要想那么久吗?它自己知不知道,什么时候该停下来?

字节跳动和北航最近发了篇论文,专门回答这个问题。


这篇论文名为《Does Your Reasoning Model Implicitly Know When to Stop Thinking?》,研究团队在这篇论文中提出了一套名为SAGE-RL的新方案,让大模型在保持甚至提升现有准确率的同时,还能大幅减少推理环节所需的token消耗量。

01

诊断环节:问题出在哪里?

对于AI企业来说,token就是最重要的资源。减少大量token的无用消耗,无异于大大节约了推理成本。

对 AI 企业而言,token 即核心资源。减少大量无谓的 token 消耗,无异于大幅节约推理成本。

研究团队在观察模型运行过程后发现,问题的关键出在采样策略。在现有采样范式下,模型的高效推理能力难以充分发挥。

一般来说,人们评估模型能力经常采用的是一种名为“Pass@1”的策略,也就是只取模型生成的一次结果,看它是否能够正确通过测试用例。

但在这种采样模式下,我们可以从DeepSeek等模型的显式思维链中明确看到:在得出正确答案后,模型通常不会立刻停止并告诉用户答案,而是会继续生成大量无效的验证或重复步骤。

我们做个测试,让AI计算20260226的平方,并强调直接输出结果,DeepSeek思考了38秒才给出了正确答案:


这还只是显式思维链中截取的一部分。事实上,在这38秒的思考过程中,模型在得出正确答案后还经过了检查位数、检查进位错误、检查末位数字等多个毫无用处的验证环节。

事实上,这不是DeepSeek独有的情况。根据现有的研究,人们已经注意到了这个反直觉的现象:

思维链长度的延伸与答案的正确性并非正相关关系,有时思维链更短反而准确率更高。

例如,在AIME 2025基准测试中,DeepSeek-R1的回复长度足足是Claude 3.7 Sonnet的5倍,但准确率却相差无几。

而对于同一个模型在同一个问题上分别生成正确和错误的答案,有72%的概率是更长的回复出错。

为了系统性地量化模型这种“过度思考”的现象,字节和北航的研究团队定义了一个新指标:

首次正确步骤比率(RFCS)=正确答案首次出现的步骤索引/总推理步骤数。


而大量统计数据显示:在超过一半的样本中,模型在得出正确答案后都生成了大量冗余的内容。


例如,DeepSeek的1.5B轻量级模型在某些问题上只需花费500个token即可得出正确答案,但受限于现有的采样策略,它要继续生成452个冗余token才能结束思考。

看起来,在现有的采样范式下,模型并不知道自己应该何时停止。

02

惊人发现:模型心里有数!

然而,研究团队却发现了一个反直觉的事实:

若是扩大采样空间至“Pass@K”,也就是让模型生成K个思维链,看其中是否有一个生成的答案能够正确通过测试用例,结果就截然不同。

为此,论文定义了两个指标和一个符号:

局部置信度(Next-token Probability):模型生成下一个词的概率;

路径置信度(Cumulative Log-Probability,即Φ):模型从头到尾生成这条思维链的平均累计概率;

:思维链的结束标识。


如果模型只根据局部置信度来决定是否该在下一个词输出“”来停止思考,它总是没什么信心,因为每次输出下一个词的概率都比输出结束标识的概率要高。

因此,思维链的长度就这样不断的延伸下去。

但若是根据路径置信度来判断是否该停止思考,则情况完全相反:

当模型探索出了一条非常简洁的正确思维链、到了该结束思考的时候,生成结束标识的概率将超过其他词,瞬间升至第一名,顺利结束思考。

这个现象非常惊人:模型其实非常确定这条简洁的思维链是正确的,而且想要立刻中止思考。

因此,模型并非不知道应该思考到什么时候停止,而是采样策略的短视,掩盖了模型具备全局视野的高效推理潜力。

03

SAGE算法:实现高效推理

在顺利找到问题根源和机制后,解决方案也就呼之欲出了。

上述研究表明,只要给予大模型足够的采样空间,让其更自由地探索多种解法,它就能凭借路径置信度准确选出那条“短小精悍”的正确思维链。

字节与北航团队据此提出SAGE 算法:自我认知引导的高效推理(Self-Aware Guided Efficient Reasoning)

考虑到词元级(Token-Level)评估的计算成本太高,对每个token都要计算概率直到生成结束符,SAGE算法使出了“降维打击”,改为步骤级(Step-wise)探索:

对于思维链中的每一个步骤,SAGE算法会利用底层的随机采样,让模型向外探索出多个完整的推理步骤;

而这些候选的步骤分支中,只要有一条顺利地以结束标识”结尾,SAGE立刻降下判决:模型已经想清楚了,可以立即停止思考。

然后,这条思维链路分支就会被作为高置信度结果保留。

为了更直观地展现SAGE算法的有效性,研究团队在论文中列出了对比实验的结果:


让最聪明的模型去做最难的奥数题时,SAGE算法能让模型找到更短的路径,显著提升解答准确率的同时,还避免了冗长的废话带来的幻觉;

让稍弱一些的模型面对较为简单的数据集(比如数字母)时,题目本身就处于模型的能力范围内,SAGE算法能让模型在计算出正确答案后迅速停止思考,大幅提升token利用率。

这就是SAGE算法的价值:

它无需人为强制截断思考过程,避免了模型思维链的无意义延伸,将模型本就具备的“自我认知”转换为实际推理效率的提升。

04

SAGE-RL:发挥商业价值

SAGE算法确实非常好用,但它的实质仍然是推理阶段的一种策略。

每次推理仍然需要生成多个思维链路分支,算力开销问题仍然存在。

算法终究是论文中的内容,只有把它应用到大模型真实的训练过程中,才会产生实际价值。

目前,对于DeepSeek等推理模型,业界最前沿的训练方法是以GRPO为代表的基于可验证奖励的强化学习。

用一个论文中的例子来说明标准GRPO的训练过程:

给模型一道题,让模型随机生成8个互不相同的解答,其中正确的解答将会得到奖励,以此更新模型的权重。行业内常说的“奖励模型”就是用来做这件事的。

不过,由于这8个解答都是通过标准的随机采样而产生的,“反复思考”的现象自然无法避免。最后的结果就会是:模型能够做对题目,但也学会了说一大堆废话。

为了让SAGE算法投入使用,研究团队开始对现有的GRPO算法进行替换:

同样是生成8个解答,其中的6个使用原有的随机采样,剩下的2个使用SAGE算法生成。

我们已经知道,SAGE算法给出的回答既正确,又简练,强化学习的奖励机制虽然不知道哪两个解答是SAGE算法生成的,却总是会给它们打高分。

如此循环下去,SAGE算法生成的答案逐渐成为“榜样”,模型逐步更新权重后就会一点点改正自己说废话的毛病,思维链的生成模式也逐渐向SAGE算法的高效模式转变。

这样一来,SAGE算法就成功烙印在大模型的DNA中,成为SAGE-RL运行机制。

最后,研究团队选择了MATH-500、AIME 2025等6个极高难度的AI数学基准测试来评估SAGE-RL的效果:

现有的一些缩减推理长度的算法为了压缩token消耗量会降低模型回答的准确率。

而基于GRPOSAGE-RL却能实现“降本增效”。


研究团队在7B级别模型的测试中发现,加入SAGE能将模型的平均回复长度从3219token压缩至2141个,大约减少了1/3的计算量。

同时,模型在MATH-500上的Pass@1准确率从92%提升到了93%,Token效率更是断崖式领先。

而此前介绍的新定义指标:首次正确步骤比率(RFCS)也显示,无效冗余步骤的比例大幅下降,模型终于改掉了“过度思考”的习惯,学会了“点到为止”

目前,市场上的AI企业普遍采用API计费模式。表面上,增加token的输出看似能够增加收入。

实际上,头部AI厂商做梦都想实现降低冗余token的消耗。能让服务器接收更多的并发请求获得的利润,远比让单个请求多说几句废话要多。

在AI智能代理投入实际工作流的今天,延迟已经成为产品的“斩杀线”,响应速度慢的模型无法实时满足用户的需求,必然会被用户无情地抛弃。

DeepSeek在一年前震惊硅谷,不仅是因为开源了强大的技术和先进的算法,更是因为他们把推理成本打到了不可思议的低价。

现有的模型若是无法改变生成答案时伴随大量冗余token的现状,API的综合成本就永远降不下来。

而掌握了类似SAGE这种高效推理技术的厂商,就可以凭借极少的算力达到相同甚至更高的准确率。在顶尖模型提升智能程度的边际收益锐减的情况下,这正是降价打价格战的底气。

以后,大模型也无需再靠长篇大论证明自己。最高级的智能,其实就藏在那个恰到好处的“”中。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
李岩益已任浙江省委常委、宣传部部长

李岩益已任浙江省委常委、宣传部部长

极目新闻
2026-02-27 09:04:10
“别吱声,我跟赵车长打好招呼了”,K692次列车被指安排“人情座”,女子在拥挤车厢内打电话请人安排座位,铁路部门:目前正在调查

“别吱声,我跟赵车长打好招呼了”,K692次列车被指安排“人情座”,女子在拥挤车厢内打电话请人安排座位,铁路部门:目前正在调查

扬子晚报
2026-02-26 11:28:40
连8岁孩子都不放过!武契奇险遭灭门,幕后黑手太狠了

连8岁孩子都不放过!武契奇险遭灭门,幕后黑手太狠了

头条爆料007
2026-02-26 10:43:43
笑喷!申裕斌被王曼昱打到21-19飙中文:太累了!鳗鱼连忙夸她打得好

笑喷!申裕斌被王曼昱打到21-19飙中文:太累了!鳗鱼连忙夸她打得好

818体育
2026-02-26 23:59:33
高市早苗有麻烦了

高市早苗有麻烦了

第一财经资讯
2026-02-26 21:47:44
巴拿马总统慌了,他才发现:强吞中国18亿资产,居然是自寻死路

巴拿马总统慌了,他才发现:强吞中国18亿资产,居然是自寻死路

北纬的咖啡豆
2026-02-26 19:33:11
中国驻符拉迪沃斯托克总领馆:18-65岁在俄长期居留男性 须同意在俄军事单位等至少服役1年

中国驻符拉迪沃斯托克总领馆:18-65岁在俄长期居留男性 须同意在俄军事单位等至少服役1年

闪电新闻
2026-02-26 12:56:09
宝妈中灵山坠崖案后续!7大疑点越扒越深,死因成谜父亲悲痛发声

宝妈中灵山坠崖案后续!7大疑点越扒越深,死因成谜父亲悲痛发声

阅微札记
2026-02-26 19:36:05
北京卖豆汁大爷爆火,小伙质疑里面掺粪,现场直接举报,当场带走

北京卖豆汁大爷爆火,小伙质疑里面掺粪,现场直接举报,当场带走

离离言几许
2026-02-26 16:20:55
日本媒体人:如果裁判完全公平的话,日本男篮可能会迎来惨败

日本媒体人:如果裁判完全公平的话,日本男篮可能会迎来惨败

懂球帝
2026-02-27 00:49:11
惨烈的仗,要打到2030年?

惨烈的仗,要打到2030年?

中国新闻周刊
2026-02-26 22:44:14
河南项城15岁女孩离家失联16天被找到,已不幸遇难,其母亲称孩子平时成绩优秀,性格开朗

河南项城15岁女孩离家失联16天被找到,已不幸遇难,其母亲称孩子平时成绩优秀,性格开朗

极目新闻
2026-02-26 18:32:28
乌军425团再立新功,俄对外籍公民划出硬核条件:要居住先入伍

乌军425团再立新功,俄对外籍公民划出硬核条件:要居住先入伍

史政先锋
2026-02-26 20:45:37
不留遗产,拒绝见面,没有微信,这一次,向华强撕碎了向佑的体面

不留遗产,拒绝见面,没有微信,这一次,向华强撕碎了向佑的体面

叨唠
2026-02-26 22:49:36
无缘3连冠!赵心童2-4爆冷出局,输球原因揭晓,8强出炉中国占3席

无缘3连冠!赵心童2-4爆冷出局,输球原因揭晓,8强出炉中国占3席

球场没跑道
2026-02-27 07:23:18
2026年,各国领导人都多少岁了,马克龙48,普京73,特朗普近80

2026年,各国领导人都多少岁了,马克龙48,普京73,特朗普近80

小陆搞笑日常
2026-02-26 18:24:58
舍得酒:郭广昌的提款机?

舍得酒:郭广昌的提款机?

新浪财经
2026-02-26 10:09:14
奔驰、宝马、奥迪开年集体降价,销售员:是否考虑新能源?

奔驰、宝马、奥迪开年集体降价,销售员:是否考虑新能源?

华夏时报
2026-02-26 16:28:14
西方打死也想不通:为什么秦始皇死了2000年,中国还在他的布局里

西方打死也想不通:为什么秦始皇死了2000年,中国还在他的布局里

凡人侃史
2026-02-26 15:26:20
演员于某在北京被抓

演员于某在北京被抓

感觉会火
2026-02-26 22:17:40
2026-02-27 09:39:00
硅基星芒AI
硅基星芒AI
锦缎旗下人工智能研究与媒体服务平台
13文章数 0关注度
往期回顾 全部

科技要闻

英伟达业绩亮眼仍跌5% 两大因素成核心隐忧

头条要闻

牛弹琴:中国的两个邻国大打出手 伤亡相当惨重

头条要闻

牛弹琴:中国的两个邻国大打出手 伤亡相当惨重

体育要闻

从排球少女到冰壶女神,她在米兰冬奥练出6块腹肌

娱乐要闻

向华强公开表态 财产留给儿媳妇郭碧婷

财经要闻

魅族手机,终成弃子?

汽车要闻

40岁的吉利,不惑于内外

态度原创

房产
健康
亲子
教育
艺术

房产要闻

2.2万/m²起!三亚主城性价比标杆 海垦·桃花源实景现房春节被疯抢

转头就晕的耳石症,能开车上班吗?

亲子要闻

不知道是真是假,社会百态与未来观点

教育要闻

语文考试议论文文言文,提分不难,这个方法焦老师亲测有效

艺术要闻

莫言获诺贝尔文学奖,争议背后的真相是什么?

无障碍浏览 进入关怀版