网易首页 > 网易号 > 正文 申请入驻

睡觉也在卷!伯克利Letta新作「睡眠时计算」让推理效率飙升

0
分享至

新智元报道

编辑:英智

【新智元导读】AI也会偷偷努力了?Letta和UC伯克利的研究者提出「睡眠时计算」技术,能让LLM在空闲时间提前思考,大幅提升推理效率。

AI「睡觉」时也能思考了?

Letta和UC伯克利研究者提出了「睡眠时计算」(Sleep-time Compute)技术,旨在提高LLM推理效率,让模型在空闲时间思考。

过去一年,推理模型可太火了。回答问题之前,它会先自己琢磨琢磨。

然而,测试时扩展计算存在明显的弊端,会导致高延迟,推理成本也大幅增加。

睡眠时计算让模型在空闲时也「动动脑筋」。

简单来讲,模型在没有接收用户查询的空闲时间,提前分析和推理上下文信息。

通过预测用户可能提出的问题,预先算出有用结果,这样用户提问时,模型就能更快、更高效地给出答案。

这项技术在保持准确性的同时,降低了推理成本,给AI系统提供了全新的方向。

论文链接:https://arxiv.org/abs/2504.13171

研究发现:

  • 睡眠时计算能将达到相同准确率所需的测试时计算量减少约5倍。

  • 通过扩展睡眠时计算,模型性能可提升13%。在Stateful AIME任务中,提升幅度高达18%。

  • 通过分摊睡眠时计算的成本,可以将每个查询的平均成本降低2.5倍。

  • 睡眠时计算在查询从上下文可预测的场景中效果更好。

睡眠时计算

在标准的测试时计算中,用户输入提示(包含上下文c和查询q),模型进行推理并输出答案a,可表示为。

但在实际中,很多时候在q到来之前就已经有了c,此时模型通常处于空闲状态。

睡眠时计算是利用这段空闲时间,让模型仅基于上下文c进行推理,生成一个新的、更有利于回答查询的上下文c',这个过程表示为。

在测试时,用c'代替c,模型通过给出答案。

由于提前做了很多准备工作,此时所需的测试时预算b会远小于原来的B,大大减少了计算量。

打个比方,你是一个图书管理员(模型),有人来问图书馆的藏书(上下文)。

以往,有人问了,才去图书馆找答案,这样效率很低。而现在,你可以在空闲时,先整理分类书籍,预测读者可能会问的问题,并做好相应的笔记(预计算)。

这样读者提问时,就能根据笔记和整理好的书籍迅速回答。

实验结果

为验证睡眠时计算的有效性,研究人员进行了一系列实验。

Stateful GSM-Symbolic是从GSM-Symbolic的P1和P2拆分而来,增加了问题的难度。

Stateful AIME则从2024年和2025年美国数学邀请赛题目中选了60个问题,同样拆分成上下文和问题。

Multi-QueryGSM-Symbolic数据集是为了研究共享上下文的影响,每个上下文包含多个查询。

在GSM-Symbolic数据集上,用GPT-4o-mini和GPT-4o进行实验。在AIME数据集上,使用OpenAI的o1、o3-mini、Anthropic的Claude Sonnet 3.7 Extended Thinking以及Deepseek-R1等模型。

基线采用标准测试时计算,即测试时同时把上下文c和查询q提供给模型。

改善帕累托边界

睡眠时计算能否改变测试时计算与准确率之间的帕累托边界?

在Stateful GSM-Symbolic和Stateful AIME中,睡眠时计算展现出了强大的优势,它能将达到相同准确率所需的测试时计算量减少约5倍!

这意味着在资源有限时,用睡眠时计算可让模型保证准确率的同时,大幅减少计算资源消耗。

从图中可以看出,在低测试时预算下,睡眠时计算的性能远超过基线。

应用睡眠时计算后,测试时间和准确率有显著的帕累托偏移。

扩展睡眠时计算

扩展睡眠时计算规模,能否进一步优化帕累托边界?

Stateful GSM-Symbolic任务中,扩展睡眠时计算会使帕累托曲线外移,相似的测试时间预算下,性能最高提升13%。

在Stateful AIME任务中,扩展睡眠时计算,性能提升高达18%。

这表明通过合理增加睡眠时的计算资源投入,可以进一步优化模型性能。

分摊睡眠时计算

当单个上下文对应多个关联问题时,分摊测试时计算与睡眠时计算能否带来总体token效率提升?

研究人员想了解如何在每个上下文都有多个查询的设置中,应用睡眠时计算来改善推理的总成本。

Multi-Query GSM-Symbolic数据集中,当每个上下文有10个查询时,通过分摊睡眠时计算的成本,每个查询的平均成本降低2.5倍。

这对实际应用意义重大,处理大量相关查询时,能大幅降低计算成本。

可预测查询获益更多

研究人员还发现,睡眠时计算在查询可预测性高的场景中效果更好。

随着问题从上下文中变得更加可预测,睡眠时计算和标准测试时间计算之间的准确度差距不断扩大。

当问题更容易从上下文中预测时,睡眠时计算的效果就越好,模型的性能提升也更为明显。

软件工程中的应用

除了在数学推理任务中的出色表现,睡眠时计算在实际的软件工程任务中也进行了测试。

研究人员引入了SWE-Features这个软件工程基准,它聚焦于需要编辑多个文件和实现新功能的任务。

在这个场景中,研究人员将拉取请求(PR)作为查询q,相关的PR作为上下文c。

在睡眠时间,智能体可以探索存储库,提前总结对相关PR的理解,生成新上下文c'。

而标准测试时计算的基线设置中,智能体在测试时才同时收到上下文和查询信息。

评估方式是比较智能体预测的修改文件集和实际的修改文件集,通过计算F1分数衡量智能体表现。

结果显示,在较低测试时计算预算下,利用睡眠时计算可显著提高性能,测试时token数最多可减少约1.5倍。

但在高测试时计算预算下,仅用标准测试时计算表现更好,因为它能更早开始编辑文件,且总体编辑文件较少。

启用睡眠时计算的智能体虽然精度略低,但在处理复杂任务方面有一定优势。

参考资料:

https://x.com/Letta_AI/status/1914356940412772414

https://x.com/charlespacker/status/1914380650993569817

https://www.letta.com/blog/sleep-time-compute

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
春节档票房崩了!《飞驰人生3》暴跌7000万,张艺谋新片为何垫底

春节档票房崩了!《飞驰人生3》暴跌7000万,张艺谋新片为何垫底

小娱乐悠悠
2026-02-20 10:43:46
尼格买提没想到,官宣与自己离婚三年的帕夏,竟走了另一条上坡路

尼格买提没想到,官宣与自己离婚三年的帕夏,竟走了另一条上坡路

原来仙女不讲理
2026-02-20 11:03:04
有人说早年的张萌很耐看!

有人说早年的张萌很耐看!

阿废冷眼观察所
2026-02-20 18:38:06
徐志胜大年初二走亲戚,家宴吃馒头配豆角朴素,开13万的车子低调

徐志胜大年初二走亲戚,家宴吃馒头配豆角朴素,开13万的车子低调

离离言几许
2026-02-19 14:54:16
关键时刻内讧爆发,第一狠人带头投降,乌克兰将迎来自己的普京?

关键时刻内讧爆发,第一狠人带头投降,乌克兰将迎来自己的普京?

浮光惊掠影
2026-02-20 00:14:22
明星卸妆后,金晨嘴凸龅牙,陈数苍老了不少,王一博简直认不出

明星卸妆后,金晨嘴凸龅牙,陈数苍老了不少,王一博简直认不出

胡一舸南游y
2026-01-20 16:50:06
6亿打水漂?投资人揭《美人鱼2》不上映原因,劣迹艺人害惨周星驰

6亿打水漂?投资人揭《美人鱼2》不上映原因,劣迹艺人害惨周星驰

查尔菲的笔记
2025-09-02 00:48:54
美国保镖重庆摆擂,扬言打败所有华人,一老头跳上台:我一掌赢你

美国保镖重庆摆擂,扬言打败所有华人,一老头跳上台:我一掌赢你

李哥三观很正
2024-08-18 12:56:18
塔利班焚毁500件乐器:音乐导致“道德败坏”

塔利班焚毁500件乐器:音乐导致“道德败坏”

桂系007
2026-02-20 10:45:31
国行 iPhone,开启 AI 设置界面!

国行 iPhone,开启 AI 设置界面!

花果科技
2026-02-19 22:00:48
快船险胜!马瑟林38+5+4,赛后鲍尔默怒吼庆祝,穆雷直接走入通道

快船险胜!马瑟林38+5+4,赛后鲍尔默怒吼庆祝,穆雷直接走入通道

担酒
2026-02-20 14:18:15
打得太舒服了!哈登16+5+9+3!米切尔恐怖正负值,阿伦吃饼乐开花

打得太舒服了!哈登16+5+9+3!米切尔恐怖正负值,阿伦吃饼乐开花

Tracy的篮球博物馆
2026-02-20 10:30:13
马筱梅产期将近,张兰汪玺前后脚回台北,汪小菲带娃玩得风生水起

马筱梅产期将近,张兰汪玺前后脚回台北,汪小菲带娃玩得风生水起

夏末moent
2026-02-20 09:54:03
浙江一快递员跳河救落水小孩,弄湿客户名牌包被索赔8万,谁料孩子爷爷拿出一张卡,客户瞬间懵了!

浙江一快递员跳河救落水小孩,弄湿客户名牌包被索赔8万,谁料孩子爷爷拿出一张卡,客户瞬间懵了!

明智家庭教育
2026-02-20 20:15:56
突破性进展!微软研发出万年存储玻璃:单块可存4.84TB

突破性进展!微软研发出万年存储玻璃:单块可存4.84TB

快科技
2026-02-19 15:30:06
极限2换1,首秀来了,再见,库里

极限2换1,首秀来了,再见,库里

体育新角度
2026-02-20 21:36:20
春晚到底是哪个天才想出来要让演员余皑磊来饰演9月花神陶渊明的

春晚到底是哪个天才想出来要让演员余皑磊来饰演9月花神陶渊明的

动物奇奇怪怪
2026-02-18 21:22:34
黄岩岛以东发生激烈对峙!052D合肥舰不顾阻挠,强行加入美菲舰队

黄岩岛以东发生激烈对峙!052D合肥舰不顾阻挠,强行加入美菲舰队

林子说事
2026-02-19 18:07:00
香菇再次被关注!医生发现:癌症患者吃香菇,不用多久或有5改善

香菇再次被关注!医生发现:癌症患者吃香菇,不用多久或有5改善

读懂世界历史
2026-02-12 21:48:53
斯诺克比赛结果:6-3晋级4强,赵心童大满贯出局

斯诺克比赛结果:6-3晋级4强,赵心童大满贯出局

墨史轩
2026-02-20 06:22:06
2026-02-20 23:04:49
新智元 incentive-icons
新智元
AI产业主平台领航智能+时代
14560文章数 66631关注度
往期回顾 全部

科技要闻

莫迪举手欢呼 两大AI掌门人却握拳尴尬对峙

头条要闻

7名中国游客溺亡 目击者:司机强闯贝加尔湖冰面裂缝

头条要闻

7名中国游客溺亡 目击者:司机强闯贝加尔湖冰面裂缝

体育要闻

宁忠岩:我拿过那么多银牌和铜牌 现在终于赢了

娱乐要闻

苏翊鸣夺金朱易示爱,两人默契引热议

财经要闻

太疯狂!“顾客不问价直接出手”

汽车要闻

比亚迪的“颜值担当”来了 方程豹首款轿车路跑信息曝光

态度原创

亲子
健康
家居
房产
公开课

亲子要闻

婆婆向儿媳讨要孙女满月酒礼金,看儿媳如何霸气反击,结局真痛快

转头就晕的耳石症,能开车上班吗?

家居要闻

本真栖居 爱暖伴流年

房产要闻

春节三亚楼市再放大招!千亿巨头,重磅推出超性价比海景现房

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版