![]()
这项由伊利诺伊大学香槟分校发布的研究成果以预印本形式发表于2026年5月,论文编号为arXiv:2605.01214,感兴趣的读者可通过该编号查阅完整原文。
每当你向AI助手发出一条指令,比如"帮我修一下这段代码",你可能以为系统只是简单地把你的话翻译成了一个答案。但事实上,在你的请求被处理的短短几秒内,系统已经悄悄做出了四个完全不同性质的"花钱决策":该派哪位"员工"来接单?这位员工该怎么安排自己的工作时间?公司的生产线该如何分配算力资源?这次的工作经验值不值得被写进"员工手册"供以后学习?这四个问题,今天的AI系统往往各自为政地回答,而这篇论文的核心观点正是:这样做,会造成系统性的资源浪费。
研究者的核心主张可以用一句话概括:所有的智能体AI系统,本质上都是一个"边际算力分配经济体",而非单纯的文字生成机器。这个听起来有点绕口的概念,换成大白话其实是:每一个计算单元(即每一个"词元",也就是AI生成文字时的最小单位)的使用,都应该像一家公司精打细算地分配预算一样,问清楚"这笔钱花在这里,到底值不值"。
一、四个人各管一摊,却不知道对方在做什么
以一个开发者向AI编程助手说"CI测试里auth/login这个功能挂了,帮我修一下"为例,这条请求在进入系统之后,会经历四道关卡,而每道关卡的"管事人"都只看得到整件事的一小块。
第一道关卡是"路由器",它负责决定让哪个模型来回答这个问题。是派一个便宜但可能不够聪明的小模型,还是派一个贵但更可靠的大模型?路由器看的是"钱"——每百万词元的成本——和"质量",但它看不到后续的风险。第二道关卡是"智能体策略",它负责决定被选中的模型该怎么用自己的"时间":是先读遍整个代码仓库,还是直接动手写,还是先规划再行动,还是遇到不确定的情况就向用户确认?这道关卡关注的是"风险"——一个自主操作的错误代价有多大。第三道关卡是"推理服务层",它负责实际把一个个词元生产出来,要协调好"预填充"(处理输入)和"解码"(生成输出)两种不同的计算模式,还要管理内存缓存,以免排队堵塞。这道关卡关注的是"延迟"——用户得等多久。第四道关卡是"训练流水线",它负责在这次任务结束后评估:这次的操作记录值不值得拿去训练模型,以提升未来的能力?这道关卡关注的是"未来的收益"——现在花的学习成本能不能换来长期的能力提升。
这四道关卡的管事人分别是:用户(知道这件事有多值钱)、运营商(知道GPU算力有多贵)、SLA服务协议(知道排队延迟有多大影响)、以及安全团队(知道一个错误操作的后果有多严重)。问题就在于,没有任何一道关卡能同时看到这四个维度的信息,于是每道关卡都在自己的小天地里"最优",但合在一起却往往"失优"。
二、一个公式,统一四个世界
研究者提出了一个统一的决策公式,用来描述系统在每一步应该怎样决定"下一个词元该花在哪里"。这个公式的逻辑说起来其实很朴素:每花出去一个词元,它应该带来的质量提升,必须等于它的计算成本,再加上它造成的等待成本,再加上它引入的风险成本。只有当这三项"支出"和质量"收益"正好相等时,资源才被最优地分配了。
研究者用一个小例子来说明这件事有多敏感。假设系统有两个模型可选:一个便宜的,质量70分,成本1分钱;一个贵的,质量90分,成本5分钱。对于一个低价值的任务,便宜模型更合算;对于一个高价值任务,贵模型才值得。两者之间有一个"翻转点",算下来大约是任务价值等于20。然而,一旦把风险因素加进来——比如便宜模型出错的概率是5%,贵模型只有1%,而每次出错的代价是50分——这个翻转点就从20骤降到约10。也就是说,风险定价的小小改变,会让最优决策彻底翻转。而这个计算,每道关卡今天都没有完整地做。
更深层的经济学道理是:这个公式里的四个"价格"(质量价值、计算成本、延迟成本、风险成本),其实是整个系统的约束条件所决定的"影子价格",用经济学的话说叫"拉格朗日乘数"。这意味着这些价格不是人为拍脑袋定出来的,而是由系统自身的算力预算、延迟上限和风险容忍度内生地决定的。当所有四道关卡都能看到同一套价格并据此行动时,由经济学中的"福利定理"可以保证:整个系统的资源分配将是帕累托有效的,即没有任何一方能在不损害他人利益的前提下进一步改善。今天的系统之所以失效,恰恰是因为四道关卡分别只看得到这套价格的一个碎片。
三、路由器:一个看不透你底细的"接单分配员"
回到那个编程助手的故事。请求进来后,第一个面对它的是路由器。路由器要猜:这个任务难不难?值不值得用大模型?但用户知道自己这个任务有多关键,路由器却不知道。这在经济学里叫做"信息不对称",就像一个二手车市场里,卖家知道车的真实状况,买家不知道,结果好车坏车都按同一个价格卖,好车卖家吃亏就撤出了市场,最后市场上只剩下坏车——这是乔治·阿克洛夫在1970年提出的"柠檬市场"理论。路由器遇到的是同一问题的镜像版本:用户隐藏的不是"车的质量",而是"任务的难度和价值",结果路由器容易把困难任务分给便宜模型,最后系统不得不付两次费用——一次是错误模型的尝试,一次是重新用大模型的修复。
更精妙的是,懂行的用户完全可以"修饰"自己的请求,让路由器误以为任务更高端,从而争到更好的模型——就像斯宾塞的"信号博弈"理论所描述的,求职者用学历来向雇主传递自己能力的信号,即便这个学历本身不直接提升工作能力。一个理想的路由器设计,应该像一家餐厅的套餐菜单一样,给用户提供一个"自我选择菜单":高价套餐对应高价值任务,低价套餐对应低价值任务,让用户根据自己真实的需求自行选择,而不是系统去猜。研究者指出,当前几乎所有生产系统的路由器都没有这样设计——它们在悄悄猜,而这种猜测在长尾任务上系统性地出错。
路由器的评价标准也因此应该改变。现在人们评价路由器靠的是"准确率"或"节省了多少钱",但研究者认为真正的指标应该是"遗憾值"——也就是系统实际选了哪个模型,和事后来看最优模型之间的差距,而且这个差距必须包含风险维度,不能只看质量和成本。
四、智能体策略:一个在"自主"与"请示汇报"之间走钢丝的工头
路由器选好了模型,接下来这个模型要决定怎么干活。这里涉及"自主程度"的问题。自主程度越高,模型越少打扰用户,但出了错也越难补救;自主程度越低,用户越累,但风险越小。研究者用一个"自主合同"的框架来分析这个问题。
用户的期望收益,等于任务成功的价值,减去算力成本,减去自主操作出错的期望损失,减去人工监督的负担。最优的自主程度,出现在"多一点自主所节省的监督成本"恰好等于"多一点自主所增加的出错风险"的那个点上。听起来简单,但"出错风险"这个项目极度右偏——绝大多数时候风险很小,但偶尔一次灾难性的错误代价极高。一个只看平均风险的系统,会严重低估"自主"的实际危险。
在模型确定了自主程度之后,还有一个"内部分工"的问题:同样的词元预算,应该多少花在"读代码"上,多少花在"规划"上,多少花在"写代码"上,多少花在"跑测试验证"上?研究者指出,这四类操作是互相配合的,而不是互相替代的。就像做一道菜,食材、刀工、火候、调味缺一不可,省掉任何一个环节都会让整道菜变差,而不只是变"便宜"了。特别是"验证"这个步骤,现在很多系统倾向于跳过,以节省词元。但跳过验证节省的钱,往往要被用户后续发现错误、再次提交请求的成本所抵消,甚至更糟。
还有一个维度是"可逆性"。读一个文件,是可以撤回的操作;提交一个代码变更,是不可逆的。越是不可逆的操作,越值得多花一点词元来确认,就像签一份合同前要反复审阅,而不是发一条消息前都要审阅。研究者建议,智能体系统应该发布一个明确的"自主权清单",把不同类型的操作映射到不同的确认要求上:读取文件可以自由进行,起草内容可以自由进行,提交代码需要确认,部署上线或转账操作需要多方确认。这相当于一家公司的"授权矩阵",而当前几乎没有智能体系统明确发布这样的清单。
五、推理服务层:一条同时服务所有人的生产线
当模型知道了该做什么,实际生产词元的工作就交给了推理服务层。这一层面对的是一个经典的"多阶段生产+资源竞争"问题。
现代大模型推理有两个截然不同的阶段:一是"预填充",处理用户输入的内容,非常占用GPU的并行计算能力;二是"解码",逐词生成输出,更受内存带宽限制。两者的资源需求特征完全不同,就像一家工厂里的冲压车间和精加工车间,硬塞在一条流水线上会互相拖累。研究者引用了工业界已有的一些系统研究成果,指出在把这两个阶段拆分之前,很多服务系统的资源利用率远偏离最优。
更复杂的是多用户共用同一套服务时的"拥挤问题"。一个占用了大量上下文缓存(KV缓存)的长文本请求,会拖慢所有其他用户的响应速度,就像高速公路上一辆缓慢的大货车占据了所有车道。最优的解决方案,是让每个请求为它实际造成的"额外等待时间"付费——就像高峰期道路拥堵收费的逻辑。但今天绝大多数API都按词元数量收一个统一的平价,这就意味着长文本用户享受了"补贴",短文本用户承担了"隐形税"。
研究者还把"推测解码"这项技术——用一个小模型先生成候选词元,再由大模型快速验证——类比为一种"外包决策"。这种外包在接受率高的时候很划算,但一旦接受率下降(比如遇到特别复杂的上下文),外包成本就超过了自产成本,这时候更理性的做法是放弃外包,回到大模型直接生成。这个判断,今天很多系统做得不够灵活。
研究者的建议是,推理服务层应该把预填充、解码和缓存三类资源各自对应的"影子价格"暴露出来,让上游的路由器和智能体策略能够实时看到这些价格,从而在做决策时就把推理成本纳入考量,而不是等到服务层出现拥堵才被动反应。
六、训练流水线:把今天的工作经验变成明天的能力资本
当一次任务结束后,这次任务的完整记录有可能成为训练数据,提升模型未来的能力。这就是第四个关卡——训练流水线,它管的是一种特殊的"投资"。
研究者把强化学习训练中的各类词元开销——用于探索的"推演词元"、用于评估的"验证词元"、用于更新模型的"梯度词元"——类比为一种资本投资组合。在这个类比框架下,监督微调(SFT)是风险最低的投资,就像买国债,收益稳定但天花板低;在线强化学习是风险最高的投资,就像买成长股,可能大赚也可能大亏,收益高度依赖于"验证器"的质量;而DPO(直接偏好优化)介于两者之间。验证词元在这个框架里扮演着"风险资本"的角色——削减验证词元,就像一家金融公司削减风险管理部门的预算,表面上省了钱,实际上让整个组合的尾部风险急剧上升。
还有缓存作为另一种资本形式。一次任务处理过后,模型可能会把一些中间结果缓存起来,供后续类似任务复用。但缓存本身会"折旧"——随着时间推移,代码库更新了,用户需求变了,之前缓存的上下文可能已经不再适用。研究者指出,今天的系统普遍跟踪缓存命中率,却几乎不测量缓存的"折旧速度",也不区分"这次缓存复用对应的任务价值"是否和"原始任务价值"相匹配。一个为低价值任务生成的缓存,被高价值任务复用,可能会引入错误,这个代价被完全忽视了。
研究者给出的建议是,训练流水线和缓存系统都应该像一份财务报告一样,明确报告三件事:这类投资的折旧速率、缓存命中率按任务价值的分布、以及每单位投资词元带来的边际能力提升估算。只有这样,这两种"资本账户"才是经济意义上的资本,而不只是技术意义上的优化手段。
七、失败模式大全:四个价格错了一个,全链路都出问题
有了这个统一框架,研究者得以系统地梳理当前AI系统里反复出现的七类失败模式,而且每一类都能精确地指出是哪个"价格"被算错了。
第一类叫"过度路由":明明用廉价模型就够了,却把请求发给了贵模型,原因是路由器的质量阈值设得太高。第二类叫"路由不足":明明需要强模型,路由器却派了弱模型,通常出现在只关心节省成本的系统里。第三类叫"过度委托":智能体在应该请示用户的时候自作主张,风险价格被严重低估,常见于自动执行代码或邮件的系统里。第四类叫"验证不足":智能体本来应该花词元跑测试检验自己的输出,却为了节省成本直接跳过,风险代价被完全忽视,表现为"跳过测试"的流水线。第五类叫"服务拥堵":延迟成本没有被纳入定价,所有请求被统一排队,长文本请求拖慢所有人,常见于按词元统一计价的API。第六类叫"过时推演数据":强化学习训练里的推演数据产生时间和使用时间之间间隔太长,这段时间里模型能力或任务分布已经变化,这些推演词元带来的能力提升已经大幅衰减,但训练流水线仍然把它们当新鲜数据使用。第七类叫"缓存滥用":把一个任务的中间缓存复用到与之价值完全不匹配的另一个任务上,产生静默的质量问题。
这七类失败模式在形式上看起来各不相同,但本质上都是同一个方程的某个项被设置为零或无穷大——每一种都是局部理性导致全局失效的具体案例。研究者还指出,在多租户系统(即多个用户共享同一套AI服务基础设施)里,这些失败模式还会互相叠加:一个霸占大量缓存的用户拉高了所有人的延迟价格,一个频繁自主操作的智能体拉高了整个系统的声誉风险,一个大规模强化学习任务抢占了推理计算资源,让其他人排更长的队。真正理想的状态,是让所有租户看到同一套价格并据此竞争资源,形成一个均衡——这是经济学意义上最有效率的多方资源分配机制,但今天几乎没有任何生产系统实现了这一点。
八、反驳与边界:这套理论能走多远?
研究者也坦诚地回应了几个反对意见,并明确划定了理论的边界。
有人会说,"词元经济"不过是个比喻,不是真正的理论。研究者的回答是:这些比喻不是修辞,每一层都落实到了具体的一阶条件公式,而且这些公式是可以用系统日志数据来检验的。一个违反了对应一阶条件的系统,应该能被另一个满足该条件的系统帕累托主导——这是一个可以用实验验证的预测,而不只是一个隐喻。
有人会说,更好的基本单位是FLOPs(浮点运算次数),而不是词元——毕竟大模型的训练成本优化就是以FLOPs为单位来做的。研究者同意,对于预训练,FLOPs是合适的单位。但对于智能体系统,绑定约束已经不是原始算力,而是延迟、风险和验证质量,而词元(而非FLOPs)恰恰保留了这些维度的区分:一个花在预填充上的FLOPs和一个花在工具调用上的FLOPs,在经济意义上完全不同,词元这个单位可以标记这种差异,FLOPs不行。
还有人会说,把所有这些都装进一个强化学习的奖励函数,让梯度下降来解决,不就完了吗?研究者的回答是:强化学习是实现手段,经济学框架是问题规格说明书。你必须先知道该优化哪个奖励、什么算市场失灵,才能写出正确的目标函数。没有这个规格说明,你可以极其高效地优化一个错误的目标——这在现实中已经反复发生,典型症状就是词元数量被压缩了,但风险调整后的实际收益却下降了。
研究者也诚实地列出了理论的局限。这套框架以单步边际条件为核心,不适用于那些价值只有在很长时间之后才能显现的任务,比如持续数月的软件工程项目或长期科研工作。它也假设任务价值至少部分可观测,而实际上很多任务的价值根本没有被任何系统层级捕获。此外,把计算成本、延迟和风险统一折算成同一个货币单位,在面对绝对性约束(比如法律上的数据不可出境、物理上的能耗上限)时会失效,这时候需要的是更复杂的多维度优先序,而不是简单的加权求和。
说到底,这篇论文做的事情,与其说是提出了一套新技术,不如说是提出了一套新语言——一种让AI系统的四个"部门"能够彼此对话、看到同一张价格单的共同语言。路由器、智能体、服务层、训练流水线,它们今天各说各话,结果是整体系统的资源分配漏洞百出。研究者的核心诊断是:这不是任何一个部门能力不够的问题,而是四个部门之间缺乏一套共同账本的问题。
归根结底,下一代AI系统的竞争力,可能不在于模型参数有多大,也不只在于每个词元有多便宜,而在于系统是否有能力在四个不同维度的"价格"之间做出真正聪明的权衡——就像一个好的工程师,不只懂代码,还懂得在时间、质量和风险之间找到那个刚刚好的平衡点。
你可能已经注意到一件有点讽刺的事:这篇讨论"如何聪明地花算力"的论文,本身也是用算力生成的。如果未来的AI系统真的按照这套框架设计,它们在处理这篇论文时,也许会非常仔细地权衡一下:为了理解"边际词元分配"这个概念,值不值得多花几个词元?答案大概是:值得。
对此感兴趣的读者可以通过arXiv论文编号2605.01214找到这篇由伊利诺伊大学香槟分校发布的完整论文,原文提供了更多数学推导细节和具体的系统设计建议。
Q&A
Q1:什么是"边际词元分配",为什么说它比"节省词元"更重要?
A:边际词元分配关注的是"每多花一个词元,带来的收益是否值得",而不是笼统地少用词元。举个例子,如果削减测试验证步骤能省10个词元,但导致输出结果出错,用户重新提交请求又花了100个词元修复,那这次"节省"其实是亏的。只看总词元数量的系统容易掉入这个陷阱,而边际分析能精确找出哪些词元值得花、哪些真的可以省。
Q2:智能体AI系统里的"自主权清单"是什么,为什么需要它?
A:自主权清单是一套规定不同操作需要什么级别确认的规则,类似公司的财务审批权限表。读取文件可以直接做,起草文本可以直接做,但提交代码变更需要用户确认,部署上线或执行不可逆操作则需要多方审核。这套清单的意义在于把"风险"和"操作类型"明确绑定,避免智能体在应该停下来问的时候自作主张,酿成难以挽回的错误。目前几乎没有商业智能体系统公开发布这样的清单。
Q3:强化学习训练里的"验证词元"为什么被比作风险资本,削减它有什么后果?
A:在训练过程中,验证词元用于评估模型输出的质量,帮助判断哪些学习路径值得强化。它类似金融机构里的风险管理部门:平时成本显眼,但一旦撤掉,整个系统的"出错概率"会悄悄攀升。削减验证词元能在账面上降低训练成本,但会让模型更容易学到错误的行为模式,最终在实际应用中产生更多错误,修复代价远超节省金额。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.