网易首页 > 网易号 > 正文 申请入驻

一个月烧掉5亿美元账单之后:Agent到底知不知道自己花了多少?

0
分享至



当大厂们开始为天价 Token 账单算账,一个更根本的问题浮出水面:智能体在执行任务时,自己知道接下来要花多少吗?来自Northwestern、O2 AI Lab 、Stanford 等机构的研究团队提出 BAGEN (Budget-Aware Agents),把"预算意识"定义为一项独立的智能体能力,并通过一套 rollout-replay 协议在四个环境、五个前沿模型上做了系统评测。结论是:会做任务,不代表知道自己要花多少。

当大厂开始为 Token 账单算账

最近一个月,关于 AI 成本的新闻一条比一条扎心。

据 Axios 报道,一家企业因为开通了企业授权却忘了设用量上限,一个月烧掉了 5 亿美元的 Claude 账单。Uber 的工程师只用 4 个月就烧光了全年的 Claude Code 预算,其 COO 公开表示,Token 消耗和最终交付的有价值产品之间,看不出明显的线性关系。亚马逊取消了内部 AI 使用排行榜,因为员工开始为了冲榜而疯狂刷 Token、执行大量没有实际价值的任务。微软则在收缩内部的 Claude Code 授权。

这些事件放在一起,标志着一个转向:过去一年企业最担心员工不用 AI,而现在,越来越多公司开始担心 AI 是不是用得太多。Token 本身不是价值,完成任务、交付产品才是。企业开始认真计算每一个 Token 背后的 ROI。

但这里有一个被忽略的前提:要想控制成本,不仅只是使用智能体的员工,智能体本身首先得知道自己在花什么、花了多少、还要花多少。如果连这一点都做不到,任何预算管理都无从谈起。

而恰恰是这个前提,几乎没有人系统地验证过。一项新研究正好补上了这一块。一个被忽略的问题:Agent 知道自己要花多少吗?

当下的 AI 智能体正在被部署到越来越长、越来越高风险的任务里。一个编程智能体每一步推理都在消耗 token,一个网页智能体每次检索都在花 API 调用,一个供应链智能体每做一笔采购决策,都在动用真实的资金和仓库容量。

它们花掉的预算分两类。一类是模型自己生成内容所消耗的,主要是 token,称为"内部预算"(internal budget);另一类是智能体在环境中行动所承诺出去的,包括钱、时间、库存,称为"外部预算"(external budget)。随着任务变长,这两类成本都在快速膨胀。

问题在于,现有的评测几乎都只在任务结束后才统计这笔账,很少有人去问一个更根本的问题:智能体在执行过程中,自己知道接下来要花多少吗?

来自 Northwestern University、O2 AI Lab、Stanford、All hands AI、密歇根大学、康奈尔大学等机构的研究团队,把这个能力正式提了出来,命名为"预算意识"(budget awareness),并构建了一套评测体系BAGEN(Budget-Aware Agent)。一句话概括他们的核心主张:预算不该只是事后记账的指标,而应该是智能体在执行中主动使用的控制信号。

论文标题为《BAGEN: Are LLM Agents Budget-Aware?》,项目主页、代码与数据集均已公开。该团队此前在智能体强化学习方向的工作 RAGEN-2 入选了 ICML 2026 Oral,本研究是其在"智能体自我认知"这一方向上的延续。

有趣的是,研究团队所取的名字藏着一个双关: I used to burn tokens; now I'm BAGEN (begging) the agents to stop (过去我在烧 token,现在我在求着智能体停下来)——在智能体学会自己喊停之前,只能求着它停。



  • 论文标题:
  • BAGEN: Are LLM Agents Budget-Aware?
  • 项目主页:
  • https://ragen-ai.github.io/bagen
  • 代码:
  • https://github.com/mll-lab-nu/BAGEN
  • 数据集:
  • https://huggingface.co/datasets/MLL-Lab/BAGEN

把"预算意识"形式化:

从单点估计到渐进式区间估计

研究团队首先做了一个看似简单的预备实验:在任务开始时,直接问模型"你大概要花多少 token",然后跟真实消耗对比。这种"单点估计"恰好是很多现有工作采用的做法。

结果暴露了两个问题。

第一是系统性乐观。五个模型在两个任务上,首轮预测都更倾向于低估真实消耗,而不是高估。更反直觉的是,这种偏差跟的不是任务难度,而是模型的自信程度:在同一个环境里,能力越弱的模型反而越乐观。

第二是首轮估计和后续估计对不上。同一个模型,在任务刚开始时的判断,和它看到部分进展后的判断,经常不一致,而且往哪个方向偏完全取决于具体的模型和任务,没有规律。

这两个问题说明,单点估计根本不够用。一个点估计无法表达模型自己的不确定性,也无法在任务变得不可能完成时发出警报。

于是,团队提出了"渐进式区间估计"(progressive interval estimation)。它的核心是:在执行的每一步,智能体不再给一个数,而是给一个区间(预算的上界和下界),并且每一步都更新这个区间;一旦判断任务已经不可能在预算内完成,就直接输出 impossible 来预警。



这个设计同时抓住了三个性质:用区间宽度表达不确定性,用逐轮更新表达进展带来的修正,用 impossible 选项表达"任务已经没救了"这个可以直接拿来行动的信号。

评测协议的巧思:

把"估算能力"和"完成能力"分开

这里有一个容易被忽略但很关键的工程问题:如果让智能体在跑任务的同时去估算预算,那估算本身也要消耗 token,会把"完成任务的成本"和"自我评估的成本"混在一起,污染结果。

团队的解法是一套两阶段的 rollout-replay 协议。第一阶段是 rollout 生成:让智能体在没有任何预算上限的情况下把任务跑完,完整记录下整条轨迹、每一轮的成本和最终结果。第二阶段是前缀回放与估计:对每一个非终止的轮次,把之前记录的轨迹前缀重新喂给智能体当作历史,再问它"从下一轮开始,还要花多少",拿这个预测去对比真实的剩余成本。

这样一来,估算这件事完全发生在任务执行之外,两种能力被干净地解耦开。

在此基础上,团队把预算意识拆成了三个子能力,分别打分:一是可行性预测,判断任务在剩余预算下能不能成功,用 Macro-F1 衡量;二是早期失败检测,对最终失败的任务,看智能体能不能早点拉响警报,用 Fail-F1 衡量;三是区间校准,对最终成功的任务,看预测区间又准又紧的程度,用覆盖率乘以紧致度衡量。



最难的部分:

一个用真实企业数据搭出来的供应链环境

BAGEN 一共覆盖四个环境。其中三个测的是内部 token 预算:Sokoban(8×8 推箱子规划任务,2500 token 上限)、Search-R1(多跳信息检索,3500 token 上限)、SWE-bench(解决真实 GitHub issue,160 轮上限)。

值得一提的是,这项工作中, 由 Northwestern 的 MLL Lab 与 O2 AI Lab 等合作完成,真正体现工程投入的是第四个环境 Warehouse。Warehouse 环境所依托的真实供应链数据与电子制造场景理解,也来自团队在产业一线的积累。它测的是外部预算,也是整套 benchmark 里最不容易构建的一块。这个环境模拟一家电子产品制造/分销公司,智能体要在一个 22 周(11 个决策轮)的周期里做经营决策:生产、补货、向供应商赊账、还债、应收账款保理融资,目标是在不违反任何预算约束的前提下让公司活下去并盈利。



它同时压着三个相互耦合的预算维度:钱(累计成本,美元)、时间(周)、空间(仓库占用,以"件·周"计)。这三者是真正纠缠在一起的:多囤货能提升销售,但会吃掉仓库容量;赊信用额度能改善短期现金流,但带来后续还款压力;推迟生产能省成本,却会拉低最终现金。

构建这个环境时,团队做了几件很费功夫的事,值得展开讲。

数据是真的。需求面板来自一家真实的美国中型消费电子分销商(匿名为 Acme)及其五个下游零售账户,涵盖五个高销量产品线(USB-C 集线器、4K 扩展坞、USB-C/HDMI 线、USB 显示适配器、差旅扩展坞),共 22 周连续的单品级周度销售数据。批发价、零售商仓储容量、账期(全线 Net-30)、缺货/积压罚金率取自真实的供应商协议,只做了轻度取整。关键是,周与周之间的波动、阶跃式变化、甚至偶尔出现的需求崩塌(比如某个 OfficePlus 单品),都原样保留在数据里。

论文专门用一节(Appendix C.3)交代了两个被刻意偏离"自然默认值"的关键决策。其一,初始库存设为 0。早期版本给仓库预先备了几周货,结果发现轨迹基本被初始条件主导,大约 11 轮里有 3 轮在"自动驾驶",策略选择还没开始起作用就过去了;于是改成所有库存从零开始,逼着结果完全由模型决策驱动。其二,国际运输和生产周期被压缩了。真实的深圳到美西门到门海运要 45 到 60 天,直接套进 11 轮、每轮 14 天的设定里,一笔海运订单要到第 11 轮才到货,等于绝大部分时间都在空转;团队把海运压到 32 天、空运压到 6 天、生产周期按单品设为 25 到 45 天,既让智能体能在一个周期内看到决策后果,又保留了时间压力这个核心张力。

奖励设计专门留了"信用分配"的坑。每一步的奖励只计入当期经营利润和缺货/积压罚金,而制造成本、运费、信贷利息、保理费这些都只影响现金、不进入奖励,因为它们是投资和融资成本,回报要到未来几轮的经营利润里才体现。这正是这个环境的核心难点:一个在第 t 轮下的生产决策,要到第 t+4 到 t+6 轮才通过收入回收。如果把这些成本也算进即时奖励,整个环境就会塌缩成一个近视的控制问题,丢掉了团队最想要的长周期协调挑战。

此外,由于 Warehouse 是一个连续优化任务(利润越多越好),不可直接估计“完成某个任务的budget”,团队又设计了"挑战条件化的可行性探针":每个实例配一组采样出来的目标(目标现金、时间、仓库、成本),并把可达与不可达的比例严格平衡在 50/50,这样可行性预测和校准指标在正反两侧才都可识别。团队特别说明,这个 50/50 是评测设计的选择,不代表真实供应链里有一半决策会失败。

仅就这一个环境的构建细节而言,就能看出 BAGEN 不是简单地把几个现成 benchmark 拼起来,而是为"外部预算"这个此前几乎没人系统评测过的维度,专门造了一套贴近真实工业场景的测试床。

评测规模与五个模型

评测对象是五个前沿模型:GPT-5.2 Instant、Claude Opus 4.7、Claude Sonnet 4.6、Gemini 3.1 Pro、Qwen3-235B。

规模上,团队在 Sokoban、Search-R1、Warehouse 上每个模型生成 128 条 rollout,在 SWE-bench 上生成 64 条;每一个非终止轮次通过 rollout-replay 协议产出一个估计样本,每个"模型-任务"组合累计 2000 到 3000 个估计样本。其中 SWE-bench 因为编程轨迹特别长,团队还专门设计了分桶采样策略,避免少数超长轨迹主导整个评测集。

四个核心发现

发现一:预算意识和任务能力是两回事。 任务成功率和估计质量只有很弱的相关性(r≈0.35)。最会做任务的模型,往往不是最会估算的那个。比如在 Search-R1 上,Opus 的任务成功率最高(75.8%),但 Sonnet 的区间估计更好(命中率 36.5% 对 23.1%);在 SWE-bench 上,三项能力的排名干脆裂成三家:Opus 领先任务成功率,Gemini 领先可行性预测,GPT-5.2 领先区间命中率。没有一个模型能在三项子能力上全面领先。团队进一步发现,真正区分"好估计者"的是校准能力,而不是可行性判断。



发现二:乐观偏差是普遍的。 在 20 个"模型-环境"组合里,有 17 个在每一个进度区间上,低估剩余预算的次数都多于高估。而且越弱的模型越乐观,不是越保守。这跟"乐观源于对难任务推理不足"的直觉正好相反,更像是一种"不知道自己不知道"的过度自信。



发现三:失败被发现得太晚,晚到来不及行动。 在最终失败的轨迹上,即便预算已经烧掉了 60%,模型预测"任务可行"的比例还在 70% 以上,要到最后 20% 才骤降。换句话说,模型往往一路自信地跑到接近耗尽,才反应过来任务早就没救了。这种"迟到的认知"白白浪费了大量算力。



发现四:这个信号既能用,也能训,但训练很脆弱。 一个简单的早停策略——只要模型输出 impossible 就终止任务——能在失败轨迹上省下 28% 到 64% 的 token,而总成功率只下降 1.6 到 4.2 个百分点。这说明信号本来就在模型的预测里,策略只是把它用起来而已。训练方面,团队在 Qwen-7B 上发现:二元可行性判断其实是个"校准问题",光靠 SFT 就能把准确率从 25.5% 提到约 90%,说明能力本就潜藏在模型里,只是缺一个对的输出格式;但区间估计是个"推理问题",SFT+RL 之后覆盖率也只到 47%,接近一半的区间仍然没能覆盖真实的剩余预算。而且 RL 必须从一个合适的 SFT 起点出发,纯 RL 会直接崩溃——模型要么把所有任务都标成 impossible,要么输出无效格式。



结论:

预算应该是控制信号,而不是事后账单

BAGEN 给出的整体图景是:对今天的前沿智能体来说,预算更像是一个它们目前还缺失的控制信号,而不只是一个用来事后算账的指标。随着智能体承担的任务越来越长、越来越贵、越来越自主,瓶颈正在从"能不能做这个任务",转向"做任务时能不能管好自己"。

回到开头那些天价账单——5 亿美元的 Claude 账单、烧光全年预算的 Uber、刷榜刷到失控的内部排行榜,它们的共同点是:成本失控往往不是因为单个任务贵,而是因为没人(包括智能体自己)在过程中知道钱正在流向哪里、什么时候该停。BAGEN 想说明的,正是这种"过程中的自我认知"目前还很欠缺。

团队也坦诚指出了仍未解决的核心难题:精确的区间校准依然很难,近一半的区间还会落空,这是他们认为最值得后续攻关的开放问题。

而把视角放长,BudgetBench 衡量的"事前估算"只是第一步。真正的挑战在于,当智能体在执行中发现自己做不完时,它该怎么办?这指向三个尚未被充分研究的方向:

第一,提前求援。智能体应当在预算快要见底、而非已经超支时,主动申请追加资源。这要求它对"还剩多少路要走"有持续的自我判断,而不是埋头干到钱烧光才发现问题。

第二,及时止损。当一个任务的预期回报已经撑不起继续投入时,智能体应当有能力切换到另一个更划算的任务,而不是在沉没成本里越陷越深。这背后是一个动态的任务价值再评估问题。

第三,向上移交。当任务超出自己的能力或预算边界时,智能体应当把它交给更强的智能体,并清楚地说明已经做到哪一步、还差什么。这要求它既能识别自身的边界,也能把中间状态完整地传递出去。

这三个方向的共同点是:它们都不再把预算当成一个事后才结算的数字,而是当成一个贯穿执行全程、需要被持续感知和响应的控制信号。BudgetBench 把"智能体能不能估准预算"立成了一个可衡量的问题,而它真正想推动的,是让智能体学会在预算这件事上管好自己。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
杨瀚森回国余嘉豪养伤!男篮内线名单呼之欲出,徐昕的去留要看一个人

杨瀚森回国余嘉豪养伤!男篮内线名单呼之欲出,徐昕的去留要看一个人

夕落秋山
2026-06-05 00:38:41
60岁李连杰削苹果惊艳全网:没有一招一式,却让千万网友破防了

60岁李连杰削苹果惊艳全网:没有一招一式,却让千万网友破防了

小椰的奶奶
2026-06-04 01:42:35
刘品言夫妇一家三口现身街头,半岁女儿首曝光,白白胖胖太萌了

刘品言夫妇一家三口现身街头,半岁女儿首曝光,白白胖胖太萌了

小椰的奶奶
2026-06-04 12:22:05
日媒突然发现一个扎心事实:中国人的生活里,日本货快找不着了

日媒突然发现一个扎心事实:中国人的生活里,日本货快找不着了

互联鱼
2026-06-02 19:32:57
北京时间6月4日上午,国乒公布王楚钦、孙颖莎、周启豪的重要消息

北京时间6月4日上午,国乒公布王楚钦、孙颖莎、周启豪的重要消息

兰亭墨未干
2026-06-04 13:43:04
从36跌到3.5,跌了整整8年,好不容易等到一个涨停,结果炸板了!

从36跌到3.5,跌了整整8年,好不容易等到一个涨停,结果炸板了!

丁丁鲤史纪
2026-05-30 17:08:34
传香港4.3万亿大基金,盯上标普500了,金管局正低调选机构

传香港4.3万亿大基金,盯上标普500了,金管局正低调选机构

财通社
2026-06-04 18:27:29
C罗带一家度假,八块腹肌,41岁夺冠,再战世界杯,乔治娜太性感

C罗带一家度假,八块腹肌,41岁夺冠,再战世界杯,乔治娜太性感

大西体育
2026-06-04 21:59:40
央视:我海军正在为辽宁号和山东号航母配备新型歼-35隐形战斗机

央视:我海军正在为辽宁号和山东号航母配备新型歼-35隐形战斗机

止戈军是我
2026-06-03 23:32:26
大模型产业“爆发”或是资本闹剧

大模型产业“爆发”或是资本闹剧

烽火瞭望者
2026-06-04 06:37:02
不陪特朗普玩了!伊朗发起斩首行动,美军司令部被炸?英法德失声

不陪特朗普玩了!伊朗发起斩首行动,美军司令部被炸?英法德失声

回家阿哥
2026-06-04 21:14:55
米体:弗拉霍维奇自由身离队,尤文未在年薪800万欧+签字费让步

米体:弗拉霍维奇自由身离队,尤文未在年薪800万欧+签字费让步

懂球帝
2026-06-04 23:05:25
李连杰一家三口拜见仁波切,64岁利智许久不见,颜值回春如昔日!

李连杰一家三口拜见仁波切,64岁利智许久不见,颜值回春如昔日!

娱乐团长
2026-06-02 15:09:12
35页PPT疯传:洛阳女子1女谈3男,每天卡时间,都已谈婚论嫁

35页PPT疯传:洛阳女子1女谈3男,每天卡时间,都已谈婚论嫁

烈史
2026-05-30 13:23:41
广州最该整治的,不是电鸡,是网约车!

广州最该整治的,不是电鸡,是网约车!

广州PLUS
2026-06-04 18:54:44
101万亿债务压顶!全民化债浪潮袭来,收入受影响普通人该咋办?

101万亿债务压顶!全民化债浪潮袭来,收入受影响普通人该咋办?

今朝牛马
2026-06-02 21:24:29
A股,尾盘传来“一个利好”信号,明天,或将迎来大变盘!

A股,尾盘传来“一个利好”信号,明天,或将迎来大变盘!

夜深爱杂谈
2026-06-04 22:07:23
国民党多人要参加海峡论坛后,台陆委会妄称:蓝营这人不准参加

国民党多人要参加海峡论坛后,台陆委会妄称:蓝营这人不准参加

爱看剧的阿峰
2026-06-04 18:48:53
一段录音炸穿白宫!美国第一夫人梅拉尼娅,被曝曾是爱泼斯坦伴游

一段录音炸穿白宫!美国第一夫人梅拉尼娅,被曝曾是爱泼斯坦伴游

共工之锚
2026-06-05 00:08:22
物流业稳步回暖 经济活力持续释放

物流业稳步回暖 经济活力持续释放

人民网
2026-06-04 14:34:33
2026-06-05 01:40:49
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
13172文章数 142660关注度
往期回顾 全部

科技要闻

历史最大IPO!马斯克下周冲击万亿富豪

头条要闻

美财长:我说过要“揍他一顿”

头条要闻

美财长:我说过要“揍他一顿”

体育要闻

欧冠决赛躺赢?他也曾是大巴黎的英雄

娱乐要闻

难怪奚梦瑶能嫁入豪门

财经要闻

AI公司的顶部在哪?

汽车要闻

北京现代5月销量强势反弹:国内17065辆 出口环比翻倍

态度原创

数码
本地
手机
公开课
军事航空

数码要闻

华硕PRIME LC II 360 ARGB水冷散热器发售,799元起

本地新闻

用杨柳青年画的方式,打开天津

手机要闻

小米18 Pro Max与vivo X500 Pro Max,均迎来曝光!

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

美众议院要求特朗普停止对伊动武并撤军

无障碍浏览 进入关怀版