网易首页 > 网易号 > 正文 申请入驻

大模型「越用越快」!SpeedupLLM首次验证,大降56%推理预算

0
分享至

新智元报道

编辑:LRST

【新智元导读】LLM用得越久,速度越快!Emory大学提出SpeedupLLM框架,利用动态计算资源分配和记忆机制,使LLM在处理相似任务时推理成本降低56%,准确率提升,为AI模型发展提供新思路。

在人类的认知世界里,熟练意味着更快、更高效。

比如看似复杂的魔方,只需训练几十次后便能「盲拧」;而面对一道做过几遍的数学题,我们往往能在脑海中迅速复现思路,几秒内作答。

那,大语言模型也能这样吗?

Emory大学的研究者Bo Pan和Liang Zhao最近发布了一篇令人振奋的成果:大语言模型的性能,也和熟练度有关,确实能「越用越快」!

论文地址:https://arxiv.org/abs/2505.20643

论文首次系统性地验证了LLM在「有经验」的条件下,不仅性能不降,反而能大幅减少推理时间和计算资源,揭示了「AI也能熟能生巧」的全新范式。

如何让LLM变熟练?

为系统验证「熟练加速效应」,作者提出一个统一框架,构造并量化三类记忆机制下的「使用经验」。

该框架由两部分组成,一是推理时动态计算资源分配,二是记忆机制。

对于动态计算资源分配,该文章系统性将多种已有test-time scaling方法扩展成动态计算资源分配,从而允许LLM在熟练的问题上分配更少的计算资源。

对于记忆机制,该框架引入记忆机制,从而实现通过过往经验加速当前推理。

在多轮使用中,大模型是否能像人类一样「从经验中变快」?是否存在一种方法,能系统性地提升效率,而非单纯堆算力?

研究亮点1:用经验节省算力

在任务重复或相似的推理过程中,研究者发现LLM通过利用以往经验(包括 memory cache、in-context memory 等),可以实现减少高达56%的推理预算,保持甚至提升准确率。

这意味着模型在处理「熟悉」的任务时能少走很多弯路,不仅答得准,还答得快。

研究亮点2:系统性大规模实验

为了验证普适性,研究者考察了:

  1. 多种test-time scaling方法,包括Self-Refine、Best-of-N、Tree-of-Thoughts和当前最新的Long Chain-of-Thought(o1式思考)

  2. 多种记忆,包括监督学习(Supervised Fine-tuning)、检索过去经历、三种自我反思(Reflection)

  3. 多种问题相似度,包括LLM在1)完全相同、2)意思一样仅表述不同、3)题目一样,仅换数字、4)不同题目但需要相同知识回答。

不同机制均表现出显著的推理加速,展示了这一现象的广泛性。

实验结果

在「重复问答」、「分步推理」等任务中,越是「重复」,模型推理越快,效果越好。而且,这种趋势随着经验积累更加明显。

实验结果带来了以下八大关键发现

发现一:LLM真的可以「越用越快」!

实验结果表明,在配备适当记忆机制和计算预算调控策略的前提下,LLM在处理重复或相似任务时,平均可节省高达56%的推理开销,且这一行为在80组实验设置中有64组都出现了显著的加速现象,覆盖率高达80%,验证了「经验式加速」具有普适性。

发现二:越快≠越差,反而更准!

令人惊喜的是,推理成本的下降不仅没有牺牲准确率,反而普遍带来了准确率的提升。实验测得推理成本与准确率提升之间的Pearson相关系数为 -0.41(p=0.0002),这表明「更快」也意味着「更稳」「更准」。

发现三:相似度越高,提速越明显

研究设计了4个相似度等级,从完全重复(S1)到结构变化大(S4)。结果发现,S1和S2类问题下的加速最显著(分别节省16.0%和15.4%计算),而S4问题由于结构不同、记忆不具备直接迁移性,加速效果最弱。

发现四:问题相似度低时,记忆机制可能反噬

当问题间差异过大时,记忆机制可能误导模型走错方向,导致推理成本反升、准确率反降。这种现象在部分S4设置中显著,提示我们记忆并非越多越好,而应「选得准、用得巧」。

发现五:情节记忆 > 反思记忆,更能加速推理

在不同记忆机制对比中,情节式记忆(如SFT和In-Context)在推理加速上表现更佳。例如In-Context平均节省27.4%计算,而反思类记忆仅为3.6%~8.8%。这与心理学研究一致:人类在形成熟练技能时,最初依赖的是具体实例的情节记忆。

发现六:In-Context比SFT更高效

在低样本(1~3轮)场景下,In-Context学习相比SFT更具泛化能力、更少过拟合,尤其在本研究的推理速度上,In-Context 更快、更稳、更准,展现了非参数记忆的强大即时适应力。

发现七:文本记忆易「触顶」,参数记忆可持续提速

反思类与In-Context等文本记忆方法存在上下文窗口的「瓶颈」,在加入3个案例后效果逐渐饱和;相比之下,SFT通过权重更新记忆内容,不受窗口限制,推理速度随经验持续提升。

发现八:越「泛化」的反思,提速越明显

三种反思机制中,Reflect-Update表现最佳。原因在于它能持续总结抽象规则,而不是堆积具体数字或案例。这种「泛化性强」的反思更容易跨任务迁移、辅助加速,未来设计更好反思机制时值得关注。

让LLM拥有「记忆力」和「熟练度」

这项研究提出了一种值得重视的新范式:

推理效率不只是堆硬件,也能靠「学习历史」提升。

在客服、搜索、问诊等反复场景中,部署「记忆型LLM」将带来:更低的响应延迟、更少的算力消耗、更强的适应性和个性化。

这项研究不仅补足了现有推理加速研究的空白,更为构建「具备人类熟练性」的AI模型提供了新思路。

参考资料:

https://arxiv.org/abs/2505.20643

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
A股:尾盘加速跳水,释放了两个信号,明天或将这样走!

A股:尾盘加速跳水,释放了两个信号,明天或将这样走!

明心
2026-02-02 16:32:01
春运抢票高峰“上线”!记者探访12306售票监控中心

春运抢票高峰“上线”!记者探访12306售票监控中心

上观新闻
2026-02-02 07:25:31
“全面拆迁”来了?2026年住建部已明确,这两类房子或将统通拆迁

“全面拆迁”来了?2026年住建部已明确,这两类房子或将统通拆迁

趣文说娱
2026-01-31 19:23:15
广东一初中生背影火了,网友怒赞!

广东一初中生背影火了,网友怒赞!

深圳晚报
2026-01-31 23:00:48
哈登或将成为NBA一分球、两分球和三分球得分全部破万历史第一人

哈登或将成为NBA一分球、两分球和三分球得分全部破万历史第一人

大眼瞄世界
2026-02-01 22:41:38
1975年毛主席与儿女见面时,江青提议让李讷暂任北京市委书记,最终结果怎样?

1975年毛主席与儿女见面时,江青提议让李讷暂任北京市委书记,最终结果怎样?

寄史言志
2026-01-20 13:57:07
现货黄金日内跌幅扩大至7%,报4519.53美元/盎司

现货黄金日内跌幅扩大至7%,报4519.53美元/盎司

每日经济新闻
2026-02-02 14:00:12
221名女囚流放澳洲,下船时很多怀孕,这批女囚孕育出了一个国家

221名女囚流放澳洲,下船时很多怀孕,这批女囚孕育出了一个国家

千秋文化
2026-01-30 21:45:45
永远不可能被抹杀的历史:四野部队里的那三万日籍士兵

永远不可能被抹杀的历史:四野部队里的那三万日籍士兵

深度报
2026-01-21 21:25:16
难以置信!广东有人在李亚鹏直播间抢购34000多普洱,追问怎么喝

难以置信!广东有人在李亚鹏直播间抢购34000多普洱,追问怎么喝

火山诗话
2026-01-31 11:52:11
谁还敢得罪中国?全球不再疯抢芯片,而是中国20万一台的变压器

谁还敢得罪中国?全球不再疯抢芯片,而是中国20万一台的变压器

王新喜
2026-01-29 07:36:48
李敏与李讷是毛主席的亲生女儿,原总参文化部长李静则是被毛主席认作的 “女儿”

李敏与李讷是毛主席的亲生女儿,原总参文化部长李静则是被毛主席认作的 “女儿”

文史明鉴
2026-01-03 21:04:12
金价:大家不必再等待了!接下来,金价有可能会重演历史

金价:大家不必再等待了!接下来,金价有可能会重演历史

除夕烟火灿烂
2026-02-01 16:57:25
真狂!狄龙:面对快船我会使出全力,并想法让哈登单场拿不到9分

真狂!狄龙:面对快船我会使出全力,并想法让哈登单场拿不到9分

移动挡拆
2026-02-01 23:58:43
莫言:人是很奇怪的生物,你哭哭啼啼时,没有几个人真同情你,更多的是……

莫言:人是很奇怪的生物,你哭哭啼啼时,没有几个人真同情你,更多的是……

乔话
2026-01-31 22:52:04
什刹海大爷雕的抽象“玲娜贝儿”爆火,迪士尼法务部看了都沉默!

什刹海大爷雕的抽象“玲娜贝儿”爆火,迪士尼法务部看了都沉默!

广告案例精选
2026-01-31 19:38:10
颠覆认知!刚刚,美国重大突破或造出永不沉没的船只?

颠覆认知!刚刚,美国重大突破或造出永不沉没的船只?

徐德文科学频道
2026-02-01 19:47:05
俄方明确:美国若攻打伊朗,俄罗斯不会出兵

俄方明确:美国若攻打伊朗,俄罗斯不会出兵

桂系007
2026-02-02 03:18:48
NVIDIA发福利:突袭发售原价RTX 50公版卡!几分钟即被秒光

NVIDIA发福利:突袭发售原价RTX 50公版卡!几分钟即被秒光

快科技
2026-02-01 23:04:23
特朗普再次表态:将与古巴达成协议

特朗普再次表态:将与古巴达成协议

新京报
2026-02-02 07:28:03
2026-02-02 18:28:49
新智元 incentive-icons
新智元
AI产业主平台领航智能+时代
14462文章数 66563关注度
往期回顾 全部

科技要闻

阿里筑墙,腾讯寄生,字节偷家

头条要闻

小鹏机器人首秀摔了 此前因步态太拟真被疑"真人套壳"

头条要闻

小鹏机器人首秀摔了 此前因步态太拟真被疑"真人套壳"

体育要闻

澳网男单决赛,属于阿尔卡拉斯的加冕仪式

娱乐要闻

周杰伦带王俊凯陈奕迅聚餐 畅聊音乐

财经要闻

商品期货暴跌 全球股市遭遇"黑色星期一"

汽车要闻

雷克萨斯LC500将于今年底停产 "最美雷克萨斯"谢幕

态度原创

旅游
健康
时尚
数码
房产

旅游要闻

冬日探秘好去处 枣庄熊耳山奇石秘境等你来

耳石症分类型,症状大不同

普通人衣服没必要买太多,准备好这些单品,简单实用又耐看

数码要闻

ACEMAGIC推出M5迷你主机:第14代酷睿HX处理器+ DDR4

房产要闻

狂卖1548亿后,海南又上演疯狂抢地!

无障碍浏览 进入关怀版