网易首页 > 网易号 > 正文 申请入驻

睡觉也在卷!伯克利Letta新作「睡眠时计算」让推理效率飙升

0
分享至

新智元报道

编辑:英智

【新智元导读】AI也会偷偷努力了?Letta和UC伯克利的研究者提出「睡眠时计算」技术,能让LLM在空闲时间提前思考,大幅提升推理效率。

AI「睡觉」时也能思考了?

Letta和UC伯克利研究者提出了「睡眠时计算」(Sleep-time Compute)技术,旨在提高LLM推理效率,让模型在空闲时间思考。

过去一年,推理模型可太火了。回答问题之前,它会先自己琢磨琢磨。

然而,测试时扩展计算存在明显的弊端,会导致高延迟,推理成本也大幅增加。

睡眠时计算让模型在空闲时也「动动脑筋」。

简单来讲,模型在没有接收用户查询的空闲时间,提前分析和推理上下文信息。

通过预测用户可能提出的问题,预先算出有用结果,这样用户提问时,模型就能更快、更高效地给出答案。

这项技术在保持准确性的同时,降低了推理成本,给AI系统提供了全新的方向。

论文链接:https://arxiv.org/abs/2504.13171

研究发现:

  • 睡眠时计算能将达到相同准确率所需的测试时计算量减少约5倍。

  • 通过扩展睡眠时计算,模型性能可提升13%。在Stateful AIME任务中,提升幅度高达18%。

  • 通过分摊睡眠时计算的成本,可以将每个查询的平均成本降低2.5倍。

  • 睡眠时计算在查询从上下文可预测的场景中效果更好。

睡眠时计算

在标准的测试时计算中,用户输入提示(包含上下文c和查询q),模型进行推理并输出答案a,可表示为。

但在实际中,很多时候在q到来之前就已经有了c,此时模型通常处于空闲状态。

睡眠时计算是利用这段空闲时间,让模型仅基于上下文c进行推理,生成一个新的、更有利于回答查询的上下文c',这个过程表示为。

在测试时,用c'代替c,模型通过给出答案。

由于提前做了很多准备工作,此时所需的测试时预算b会远小于原来的B,大大减少了计算量。

打个比方,你是一个图书管理员(模型),有人来问图书馆的藏书(上下文)。

以往,有人问了,才去图书馆找答案,这样效率很低。而现在,你可以在空闲时,先整理分类书籍,预测读者可能会问的问题,并做好相应的笔记(预计算)。

这样读者提问时,就能根据笔记和整理好的书籍迅速回答。

实验结果

为验证睡眠时计算的有效性,研究人员进行了一系列实验。

Stateful GSM-Symbolic是从GSM-Symbolic的P1和P2拆分而来,增加了问题的难度。

Stateful AIME则从2024年和2025年美国数学邀请赛题目中选了60个问题,同样拆分成上下文和问题。

Multi-QueryGSM-Symbolic数据集是为了研究共享上下文的影响,每个上下文包含多个查询。

在GSM-Symbolic数据集上,用GPT-4o-mini和GPT-4o进行实验。在AIME数据集上,使用OpenAI的o1、o3-mini、Anthropic的Claude Sonnet 3.7 Extended Thinking以及Deepseek-R1等模型。

基线采用标准测试时计算,即测试时同时把上下文c和查询q提供给模型。

改善帕累托边界

睡眠时计算能否改变测试时计算与准确率之间的帕累托边界?

在Stateful GSM-Symbolic和Stateful AIME中,睡眠时计算展现出了强大的优势,它能将达到相同准确率所需的测试时计算量减少约5倍!

这意味着在资源有限时,用睡眠时计算可让模型保证准确率的同时,大幅减少计算资源消耗。

从图中可以看出,在低测试时预算下,睡眠时计算的性能远超过基线。

应用睡眠时计算后,测试时间和准确率有显著的帕累托偏移。

扩展睡眠时计算

扩展睡眠时计算规模,能否进一步优化帕累托边界?

Stateful GSM-Symbolic任务中,扩展睡眠时计算会使帕累托曲线外移,相似的测试时间预算下,性能最高提升13%。

在Stateful AIME任务中,扩展睡眠时计算,性能提升高达18%。

这表明通过合理增加睡眠时的计算资源投入,可以进一步优化模型性能。

分摊睡眠时计算

当单个上下文对应多个关联问题时,分摊测试时计算与睡眠时计算能否带来总体token效率提升?

研究人员想了解如何在每个上下文都有多个查询的设置中,应用睡眠时计算来改善推理的总成本。

Multi-Query GSM-Symbolic数据集中,当每个上下文有10个查询时,通过分摊睡眠时计算的成本,每个查询的平均成本降低2.5倍。

这对实际应用意义重大,处理大量相关查询时,能大幅降低计算成本。

可预测查询获益更多

研究人员还发现,睡眠时计算在查询可预测性高的场景中效果更好。

随着问题从上下文中变得更加可预测,睡眠时计算和标准测试时间计算之间的准确度差距不断扩大。

当问题更容易从上下文中预测时,睡眠时计算的效果就越好,模型的性能提升也更为明显。

软件工程中的应用

除了在数学推理任务中的出色表现,睡眠时计算在实际的软件工程任务中也进行了测试。

研究人员引入了SWE-Features这个软件工程基准,它聚焦于需要编辑多个文件和实现新功能的任务。

在这个场景中,研究人员将拉取请求(PR)作为查询q,相关的PR作为上下文c。

在睡眠时间,智能体可以探索存储库,提前总结对相关PR的理解,生成新上下文c'。

而标准测试时计算的基线设置中,智能体在测试时才同时收到上下文和查询信息。

评估方式是比较智能体预测的修改文件集和实际的修改文件集,通过计算F1分数衡量智能体表现。

结果显示,在较低测试时计算预算下,利用睡眠时计算可显著提高性能,测试时token数最多可减少约1.5倍。

但在高测试时计算预算下,仅用标准测试时计算表现更好,因为它能更早开始编辑文件,且总体编辑文件较少。

启用睡眠时计算的智能体虽然精度略低,但在处理复杂任务方面有一定优势。

参考资料:

https://x.com/Letta_AI/status/1914356940412772414

https://x.com/charlespacker/status/1914380650993569817

https://www.letta.com/blog/sleep-time-compute

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
20分32分42分!上海全员杀疯,一夜爆3门惨案,3-12名乱成一锅粥

20分32分42分!上海全员杀疯,一夜爆3门惨案,3-12名乱成一锅粥

后仰大风车
2026-03-26 06:05:05
五枚导弹,拦下四枚,就那漏网的一枚,不偏不倚,正好砸中…

五枚导弹,拦下四枚,就那漏网的一枚,不偏不倚,正好砸中…

福建平子
2026-03-25 10:14:49
突发大利好!重大利好!光模块传来重大利好!周四这概念要起飞吗

突发大利好!重大利好!光模块传来重大利好!周四这概念要起飞吗

Thurman在昆明
2026-03-26 01:53:49
新华社消息|伊朗官员:美以袭击已造成伊朗至少1750人死亡

新华社消息|伊朗官员:美以袭击已造成伊朗至少1750人死亡

新华社
2026-03-26 10:06:18
中国最有名的9条家训,读懂一条旺家三代,建议收藏反复背诵

中国最有名的9条家训,读懂一条旺家三代,建议收藏反复背诵

长风文史
2026-03-25 17:58:23
张雪峰的影响力,被严重低估了

张雪峰的影响力,被严重低估了

黔有虎
2026-03-26 14:32:34
随着雷霆12连胜被终结,湖人137-130,西部最新排名出炉!马刺第2

随着雷霆12连胜被终结,湖人137-130,西部最新排名出炉!马刺第2

薇说体育
2026-03-26 10:48:02
老师穿短裙蕾丝袜上课,学生连头都不敢抬!老师穿衣底线到底在哪

老师穿短裙蕾丝袜上课,学生连头都不敢抬!老师穿衣底线到底在哪

小羽叨叨叨
2026-03-26 13:24:34
多人被立案侦查!中山发布工矿商贸行业生产安全事故评估报告

多人被立案侦查!中山发布工矿商贸行业生产安全事故评估报告

南方都市报
2026-03-26 19:30:16
路透社:欧盟警告越南,敢用中国5G,就让外资撤光!

路透社:欧盟警告越南,敢用中国5G,就让外资撤光!

泠泠说史
2026-03-26 18:06:17
7旬男子陪老伴住院,医生看了他一眼发现其面部有猝死先兆,将其从死亡边缘拉回

7旬男子陪老伴住院,医生看了他一眼发现其面部有猝死先兆,将其从死亡边缘拉回

观威海
2026-03-26 09:55:04
“我用房子贷的款却进了他们口袋”,佛山一男子称遭遇套路贷;警方立案侦查,3人被批捕后取保候审

“我用房子贷的款却进了他们口袋”,佛山一男子称遭遇套路贷;警方立案侦查,3人被批捕后取保候审

大风新闻
2026-03-26 16:56:40
回加拿大生活的大山,60岁须发皆白很沧桑,重庆妻子仍风韵犹存

回加拿大生活的大山,60岁须发皆白很沧桑,重庆妻子仍风韵犹存

素衣读史
2026-03-25 21:05:22
保姆偷拿我两瓶茅台,我辞退未揭穿,临走她指我旧鞋,剪开后我懵了...

保姆偷拿我两瓶茅台,我辞退未揭穿,临走她指我旧鞋,剪开后我懵了...

感觉会火
2026-03-26 12:06:22
张雪峰家属:周六举行追悼会!平时没胸闷、没心脏病,能放心运动吗?医生提醒

张雪峰家属:周六举行追悼会!平时没胸闷、没心脏病,能放心运动吗?医生提醒

上观新闻
2026-03-26 14:45:10
快扔掉!戴一天,辐射量相当于拍117次胸片

快扔掉!戴一天,辐射量相当于拍117次胸片

FM93浙江交通之声
2025-10-28 00:01:43
603444,业绩大增!拟10派70元!

603444,业绩大增!拟10派70元!

证券时报e公司
2026-03-26 19:32:17
越扒越有!张雪峰去世早有预兆,他的2个不良爱好,或成催命符

越扒越有!张雪峰去世早有预兆,他的2个不良爱好,或成催命符

叨唠
2026-03-26 00:57:32
3-1夺冠!中国女乒29岁王牌复苏:组最强豪阵剑指世乒赛

3-1夺冠!中国女乒29岁王牌复苏:组最强豪阵剑指世乒赛

李喜林篮球绝杀
2026-03-26 20:29:48
伊朗发起的第81波打击

伊朗发起的第81波打击

舍长阿爷谈事
2026-03-26 23:38:25
2026-03-27 03:23:00
新智元 incentive-icons
新智元
AI产业主平台领航智能+时代
14821文章数 66720关注度
往期回顾 全部

科技要闻

美团发布外卖大战后成绩单:亏损超200亿

头条要闻

特朗普:伊朗允许10艘油轮通行霍尔木兹海峡

头条要闻

特朗普:伊朗允许10艘油轮通行霍尔木兹海峡

体育要闻

申京努力了,然而杜兰特啊

娱乐要闻

刘晓庆妹妹发声!称姐姐受身边人挑拨

财经要闻

油价"驯服"特朗普?一到100美元就TACO

汽车要闻

一汽奥迪A6L e-tron开启预售 CLTC最大续航815km

态度原创

数码
健康
旅游
亲子
公开课

数码要闻

英特尔发Q1.26版Arc Pro专业显卡驱动,支持B70 / B65显卡

转头就晕的耳石症,能开车上班吗?

旅游要闻

河南开封万岁山武侠城,游客买300元门票:给妻子拍照被保安阻拦

亲子要闻

试工育儿嫂被查出传染病,宝妈崩溃!家政服务“健康关”如何保障?

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版