伊利诺伊大学香槟分校揭示智能体系统的隐性经济学|路由器|新论文

分享至

这项由伊利诺伊大学香槟分校发布的研究成果以预印本形式发表于2026年5月，论文编号为arXiv:2605.01214，感兴趣的读者可通过该编号查阅完整原文。

每当你向AI助手发出一条指令，比如"帮我修一下这段代码"，你可能以为系统只是简单地把你的话翻译成了一个答案。但事实上，在你的请求被处理的短短几秒内，系统已经悄悄做出了四个完全不同性质的"花钱决策"：该派哪位"员工"来接单？这位员工该怎么安排自己的工作时间？公司的生产线该如何分配算力资源？这次的工作经验值不值得被写进"员工手册"供以后学习？这四个问题，今天的AI系统往往各自为政地回答，而这篇论文的核心观点正是：这样做，会造成系统性的资源浪费。

研究者的核心主张可以用一句话概括：所有的智能体AI系统，本质上都是一个"边际算力分配经济体"，而非单纯的文字生成机器。这个听起来有点绕口的概念，换成大白话其实是：每一个计算单元（即每一个"词元"，也就是AI生成文字时的最小单位）的使用，都应该像一家公司精打细算地分配预算一样，问清楚"这笔钱花在这里，到底值不值"。

一、四个人各管一摊，却不知道对方在做什么

以一个开发者向AI编程助手说"CI测试里auth/login这个功能挂了，帮我修一下"为例，这条请求在进入系统之后，会经历四道关卡，而每道关卡的"管事人"都只看得到整件事的一小块。

第一道关卡是"路由器"，它负责决定让哪个模型来回答这个问题。是派一个便宜但可能不够聪明的小模型，还是派一个贵但更可靠的大模型？路由器看的是"钱"——每百万词元的成本——和"质量"，但它看不到后续的风险。第二道关卡是"智能体策略"，它负责决定被选中的模型该怎么用自己的"时间"：是先读遍整个代码仓库，还是直接动手写，还是先规划再行动，还是遇到不确定的情况就向用户确认？这道关卡关注的是"风险"——一个自主操作的错误代价有多大。第三道关卡是"推理服务层"，它负责实际把一个个词元生产出来，要协调好"预填充"（处理输入）和"解码"（生成输出）两种不同的计算模式，还要管理内存缓存，以免排队堵塞。这道关卡关注的是"延迟"——用户得等多久。第四道关卡是"训练流水线"，它负责在这次任务结束后评估：这次的操作记录值不值得拿去训练模型，以提升未来的能力？这道关卡关注的是"未来的收益"——现在花的学习成本能不能换来长期的能力提升。

这四道关卡的管事人分别是：用户（知道这件事有多值钱）、运营商（知道GPU算力有多贵）、SLA服务协议（知道排队延迟有多大影响）、以及安全团队（知道一个错误操作的后果有多严重）。问题就在于，没有任何一道关卡能同时看到这四个维度的信息，于是每道关卡都在自己的小天地里"最优"，但合在一起却往往"失优"。

二、一个公式，统一四个世界

研究者提出了一个统一的决策公式，用来描述系统在每一步应该怎样决定"下一个词元该花在哪里"。这个公式的逻辑说起来其实很朴素：每花出去一个词元，它应该带来的质量提升，必须等于它的计算成本，再加上它造成的等待成本，再加上它引入的风险成本。只有当这三项"支出"和质量"收益"正好相等时，资源才被最优地分配了。

研究者用一个小例子来说明这件事有多敏感。假设系统有两个模型可选：一个便宜的，质量70分，成本1分钱；一个贵的，质量90分，成本5分钱。对于一个低价值的任务，便宜模型更合算；对于一个高价值任务，贵模型才值得。两者之间有一个"翻转点"，算下来大约是任务价值等于20。然而，一旦把风险因素加进来——比如便宜模型出错的概率是5%，贵模型只有1%，而每次出错的代价是50分——这个翻转点就从20骤降到约10。也就是说，风险定价的小小改变，会让最优决策彻底翻转。而这个计算，每道关卡今天都没有完整地做。

更深层的经济学道理是：这个公式里的四个"价格"（质量价值、计算成本、延迟成本、风险成本），其实是整个系统的约束条件所决定的"影子价格"，用经济学的话说叫"拉格朗日乘数"。这意味着这些价格不是人为拍脑袋定出来的，而是由系统自身的算力预算、延迟上限和风险容忍度内生地决定的。当所有四道关卡都能看到同一套价格并据此行动时，由经济学中的"福利定理"可以保证：整个系统的资源分配将是帕累托有效的，即没有任何一方能在不损害他人利益的前提下进一步改善。今天的系统之所以失效，恰恰是因为四道关卡分别只看得到这套价格的一个碎片。

三、路由器：一个看不透你底细的"接单分配员"

回到那个编程助手的故事。请求进来后，第一个面对它的是路由器。路由器要猜：这个任务难不难？值不值得用大模型？但用户知道自己这个任务有多关键，路由器却不知道。这在经济学里叫做"信息不对称"，就像一个二手车市场里，卖家知道车的真实状况，买家不知道，结果好车坏车都按同一个价格卖，好车卖家吃亏就撤出了市场，最后市场上只剩下坏车——这是乔治·阿克洛夫在1970年提出的"柠檬市场"理论。路由器遇到的是同一问题的镜像版本：用户隐藏的不是"车的质量"，而是"任务的难度和价值"，结果路由器容易把困难任务分给便宜模型，最后系统不得不付两次费用——一次是错误模型的尝试，一次是重新用大模型的修复。

更精妙的是，懂行的用户完全可以"修饰"自己的请求，让路由器误以为任务更高端，从而争到更好的模型——就像斯宾塞的"信号博弈"理论所描述的，求职者用学历来向雇主传递自己能力的信号，即便这个学历本身不直接提升工作能力。一个理想的路由器设计，应该像一家餐厅的套餐菜单一样，给用户提供一个"自我选择菜单"：高价套餐对应高价值任务，低价套餐对应低价值任务，让用户根据自己真实的需求自行选择，而不是系统去猜。研究者指出，当前几乎所有生产系统的路由器都没有这样设计——它们在悄悄猜，而这种猜测在长尾任务上系统性地出错。

路由器的评价标准也因此应该改变。现在人们评价路由器靠的是"准确率"或"节省了多少钱"，但研究者认为真正的指标应该是"遗憾值"——也就是系统实际选了哪个模型，和事后来看最优模型之间的差距，而且这个差距必须包含风险维度，不能只看质量和成本。

四、智能体策略：一个在"自主"与"请示汇报"之间走钢丝的工头

路由器选好了模型，接下来这个模型要决定怎么干活。这里涉及"自主程度"的问题。自主程度越高，模型越少打扰用户，但出了错也越难补救；自主程度越低，用户越累，但风险越小。研究者用一个"自主合同"的框架来分析这个问题。

用户的期望收益，等于任务成功的价值，减去算力成本，减去自主操作出错的期望损失，减去人工监督的负担。最优的自主程度，出现在"多一点自主所节省的监督成本"恰好等于"多一点自主所增加的出错风险"的那个点上。听起来简单，但"出错风险"这个项目极度右偏——绝大多数时候风险很小，但偶尔一次灾难性的错误代价极高。一个只看平均风险的系统，会严重低估"自主"的实际危险。

在模型确定了自主程度之后，还有一个"内部分工"的问题：同样的词元预算，应该多少花在"读代码"上，多少花在"规划"上，多少花在"写代码"上，多少花在"跑测试验证"上？研究者指出，这四类操作是互相配合的，而不是互相替代的。就像做一道菜，食材、刀工、火候、调味缺一不可，省掉任何一个环节都会让整道菜变差，而不只是变"便宜"了。特别是"验证"这个步骤，现在很多系统倾向于跳过，以节省词元。但跳过验证节省的钱，往往要被用户后续发现错误、再次提交请求的成本所抵消，甚至更糟。

还有一个维度是"可逆性"。读一个文件，是可以撤回的操作；提交一个代码变更，是不可逆的。越是不可逆的操作，越值得多花一点词元来确认，就像签一份合同前要反复审阅，而不是发一条消息前都要审阅。研究者建议，智能体系统应该发布一个明确的"自主权清单"，把不同类型的操作映射到不同的确认要求上：读取文件可以自由进行，起草内容可以自由进行，提交代码需要确认，部署上线或转账操作需要多方确认。这相当于一家公司的"授权矩阵"，而当前几乎没有智能体系统明确发布这样的清单。

五、推理服务层：一条同时服务所有人的生产线

当模型知道了该做什么，实际生产词元的工作就交给了推理服务层。这一层面对的是一个经典的"多阶段生产+资源竞争"问题。

现代大模型推理有两个截然不同的阶段：一是"预填充"，处理用户输入的内容，非常占用GPU的并行计算能力；二是"解码"，逐词生成输出，更受内存带宽限制。两者的资源需求特征完全不同，就像一家工厂里的冲压车间和精加工车间，硬塞在一条流水线上会互相拖累。研究者引用了工业界已有的一些系统研究成果，指出在把这两个阶段拆分之前，很多服务系统的资源利用率远偏离最优。

更复杂的是多用户共用同一套服务时的"拥挤问题"。一个占用了大量上下文缓存（KV缓存）的长文本请求，会拖慢所有其他用户的响应速度，就像高速公路上一辆缓慢的大货车占据了所有车道。最优的解决方案，是让每个请求为它实际造成的"额外等待时间"付费——就像高峰期道路拥堵收费的逻辑。但今天绝大多数API都按词元数量收一个统一的平价，这就意味着长文本用户享受了"补贴"，短文本用户承担了"隐形税"。

研究者还把"推测解码"这项技术——用一个小模型先生成候选词元，再由大模型快速验证——类比为一种"外包决策"。这种外包在接受率高的时候很划算，但一旦接受率下降（比如遇到特别复杂的上下文），外包成本就超过了自产成本，这时候更理性的做法是放弃外包，回到大模型直接生成。这个判断，今天很多系统做得不够灵活。

研究者的建议是，推理服务层应该把预填充、解码和缓存三类资源各自对应的"影子价格"暴露出来，让上游的路由器和智能体策略能够实时看到这些价格，从而在做决策时就把推理成本纳入考量，而不是等到服务层出现拥堵才被动反应。

六、训练流水线：把今天的工作经验变成明天的能力资本

当一次任务结束后，这次任务的完整记录有可能成为训练数据，提升模型未来的能力。这就是第四个关卡——训练流水线，它管的是一种特殊的"投资"。

研究者把强化学习训练中的各类词元开销——用于探索的"推演词元"、用于评估的"验证词元"、用于更新模型的"梯度词元"——类比为一种资本投资组合。在这个类比框架下，监督微调（SFT）是风险最低的投资，就像买国债，收益稳定但天花板低；在线强化学习是风险最高的投资，就像买成长股，可能大赚也可能大亏，收益高度依赖于"验证器"的质量；而DPO（直接偏好优化）介于两者之间。验证词元在这个框架里扮演着"风险资本"的角色——削减验证词元，就像一家金融公司削减风险管理部门的预算，表面上省了钱，实际上让整个组合的尾部风险急剧上升。

还有缓存作为另一种资本形式。一次任务处理过后，模型可能会把一些中间结果缓存起来，供后续类似任务复用。但缓存本身会"折旧"——随着时间推移，代码库更新了，用户需求变了，之前缓存的上下文可能已经不再适用。研究者指出，今天的系统普遍跟踪缓存命中率，却几乎不测量缓存的"折旧速度"，也不区分"这次缓存复用对应的任务价值"是否和"原始任务价值"相匹配。一个为低价值任务生成的缓存，被高价值任务复用，可能会引入错误，这个代价被完全忽视了。

研究者给出的建议是，训练流水线和缓存系统都应该像一份财务报告一样，明确报告三件事：这类投资的折旧速率、缓存命中率按任务价值的分布、以及每单位投资词元带来的边际能力提升估算。只有这样，这两种"资本账户"才是经济意义上的资本，而不只是技术意义上的优化手段。

七、失败模式大全：四个价格错了一个，全链路都出问题

有了这个统一框架，研究者得以系统地梳理当前AI系统里反复出现的七类失败模式，而且每一类都能精确地指出是哪个"价格"被算错了。

第一类叫"过度路由"：明明用廉价模型就够了，却把请求发给了贵模型，原因是路由器的质量阈值设得太高。第二类叫"路由不足"：明明需要强模型，路由器却派了弱模型，通常出现在只关心节省成本的系统里。第三类叫"过度委托"：智能体在应该请示用户的时候自作主张，风险价格被严重低估，常见于自动执行代码或邮件的系统里。第四类叫"验证不足"：智能体本来应该花词元跑测试检验自己的输出，却为了节省成本直接跳过，风险代价被完全忽视，表现为"跳过测试"的流水线。第五类叫"服务拥堵"：延迟成本没有被纳入定价，所有请求被统一排队，长文本请求拖慢所有人，常见于按词元统一计价的API。第六类叫"过时推演数据"：强化学习训练里的推演数据产生时间和使用时间之间间隔太长，这段时间里模型能力或任务分布已经变化，这些推演词元带来的能力提升已经大幅衰减，但训练流水线仍然把它们当新鲜数据使用。第七类叫"缓存滥用"：把一个任务的中间缓存复用到与之价值完全不匹配的另一个任务上，产生静默的质量问题。

这七类失败模式在形式上看起来各不相同，但本质上都是同一个方程的某个项被设置为零或无穷大——每一种都是局部理性导致全局失效的具体案例。研究者还指出，在多租户系统（即多个用户共享同一套AI服务基础设施）里，这些失败模式还会互相叠加：一个霸占大量缓存的用户拉高了所有人的延迟价格，一个频繁自主操作的智能体拉高了整个系统的声誉风险，一个大规模强化学习任务抢占了推理计算资源，让其他人排更长的队。真正理想的状态，是让所有租户看到同一套价格并据此竞争资源，形成一个均衡——这是经济学意义上最有效率的多方资源分配机制，但今天几乎没有任何生产系统实现了这一点。

八、反驳与边界：这套理论能走多远？

研究者也坦诚地回应了几个反对意见，并明确划定了理论的边界。

有人会说，"词元经济"不过是个比喻，不是真正的理论。研究者的回答是：这些比喻不是修辞，每一层都落实到了具体的一阶条件公式，而且这些公式是可以用系统日志数据来检验的。一个违反了对应一阶条件的系统，应该能被另一个满足该条件的系统帕累托主导——这是一个可以用实验验证的预测，而不只是一个隐喻。

有人会说，更好的基本单位是FLOPs（浮点运算次数），而不是词元——毕竟大模型的训练成本优化就是以FLOPs为单位来做的。研究者同意，对于预训练，FLOPs是合适的单位。但对于智能体系统，绑定约束已经不是原始算力，而是延迟、风险和验证质量，而词元（而非FLOPs）恰恰保留了这些维度的区分：一个花在预填充上的FLOPs和一个花在工具调用上的FLOPs，在经济意义上完全不同，词元这个单位可以标记这种差异，FLOPs不行。

还有人会说，把所有这些都装进一个强化学习的奖励函数，让梯度下降来解决，不就完了吗？研究者的回答是：强化学习是实现手段，经济学框架是问题规格说明书。你必须先知道该优化哪个奖励、什么算市场失灵，才能写出正确的目标函数。没有这个规格说明，你可以极其高效地优化一个错误的目标——这在现实中已经反复发生，典型症状就是词元数量被压缩了，但风险调整后的实际收益却下降了。

研究者也诚实地列出了理论的局限。这套框架以单步边际条件为核心，不适用于那些价值只有在很长时间之后才能显现的任务，比如持续数月的软件工程项目或长期科研工作。它也假设任务价值至少部分可观测，而实际上很多任务的价值根本没有被任何系统层级捕获。此外，把计算成本、延迟和风险统一折算成同一个货币单位，在面对绝对性约束（比如法律上的数据不可出境、物理上的能耗上限）时会失效，这时候需要的是更复杂的多维度优先序，而不是简单的加权求和。

说到底，这篇论文做的事情，与其说是提出了一套新技术，不如说是提出了一套新语言——一种让AI系统的四个"部门"能够彼此对话、看到同一张价格单的共同语言。路由器、智能体、服务层、训练流水线，它们今天各说各话，结果是整体系统的资源分配漏洞百出。研究者的核心诊断是：这不是任何一个部门能力不够的问题，而是四个部门之间缺乏一套共同账本的问题。

归根结底，下一代AI系统的竞争力，可能不在于模型参数有多大，也不只在于每个词元有多便宜，而在于系统是否有能力在四个不同维度的"价格"之间做出真正聪明的权衡——就像一个好的工程师，不只懂代码，还懂得在时间、质量和风险之间找到那个刚刚好的平衡点。

你可能已经注意到一件有点讽刺的事：这篇讨论"如何聪明地花算力"的论文，本身也是用算力生成的。如果未来的AI系统真的按照这套框架设计，它们在处理这篇论文时，也许会非常仔细地权衡一下：为了理解"边际词元分配"这个概念，值不值得多花几个词元？答案大概是：值得。

对此感兴趣的读者可以通过arXiv论文编号2605.01214找到这篇由伊利诺伊大学香槟分校发布的完整论文，原文提供了更多数学推导细节和具体的系统设计建议。

Q&A

Q1：什么是"边际词元分配"，为什么说它比"节省词元"更重要？

A：边际词元分配关注的是"每多花一个词元，带来的收益是否值得"，而不是笼统地少用词元。举个例子，如果削减测试验证步骤能省10个词元，但导致输出结果出错，用户重新提交请求又花了100个词元修复，那这次"节省"其实是亏的。只看总词元数量的系统容易掉入这个陷阱，而边际分析能精确找出哪些词元值得花、哪些真的可以省。

Q2：智能体AI系统里的"自主权清单"是什么，为什么需要它？

A：自主权清单是一套规定不同操作需要什么级别确认的规则，类似公司的财务审批权限表。读取文件可以直接做，起草文本可以直接做，但提交代码变更需要用户确认，部署上线或执行不可逆操作则需要多方审核。这套清单的意义在于把"风险"和"操作类型"明确绑定，避免智能体在应该停下来问的时候自作主张，酿成难以挽回的错误。目前几乎没有商业智能体系统公开发布这样的清单。

Q3：强化学习训练里的"验证词元"为什么被比作风险资本，削减它有什么后果？

A：在训练过程中，验证词元用于评估模型输出的质量，帮助判断哪些学习路径值得强化。它类似金融机构里的风险管理部门：平时成本显眼，但一旦撤掉，整个系统的"出错概率"会悄悄攀升。削减验证词元能在账面上降低训练成本，但会让模型更容易学到错误的行为模式，最终在实际应用中产生更多错误，修复代价远超节省金额。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.