网易首页 > 网易号 > 正文 申请入驻

复杂请求烧20万词元,便宜模型救不了预算

0
分享至

一个中等复杂度的智能体请求,在推理链上就会消耗2万到6万个词元(token);当碰到非平凡的工程任务时,每个问题甚至能烧掉15万到20万个词元。而实际情况是,这类消耗正在以工程团队无法忽视的速度膨胀。发现最具性价比的模型一直是所有人的目标,但随着智能体(Agent)应用走向多步推理、多组件协同,选择最便宜的模型已经不再是预算的最终答案——真正要命的,是系统里无休无止的词元流动。

开发者们逐渐看清一个事实:选对模型当然重要,但比这更紧迫的问题在于,如何在整个智能体工作流中限制不必要的词元搬移。一个请求从输入到输出,中间经过的每一次思考、每一次交接,都在默默吃掉大量上下文窗口,最后看到的账单往往远超出模型单价能解释的范围。


同样的任务,如果只交给单个智能体完成,大概会消耗5万个词元;而当任务被拆给多个专业化的智能体协同处理时,动辄就要吃掉几十万个词元。原因很简单:每个智能体都需要足够的上下文才能干活。以典型的智能体交互为例,为了输出区区500个词元的回复,它可能要吞下3万个词元的上下文——输入和输出之间已经拉出了60倍的差距。而且,这种交换在整个工作流里会反复叠加,每一次交接相当于都在缴一笔“输入税”,这笔税会随着循环迭代持续滚雪球。

多智能体架构下,这个问题尤其扎眼。当一个智能体把任务委派给下游智能体时,它必须把自己的当前状态、任务指令等统统编码进接收方的上下文窗口;接收方处理完所有信息后,把结果返回来;然后编排智能体再把这份结果连同自己正在追踪的其他信息一起吞回去。一遍遍的交换、回传、再消化,每一轮都在叠加额外开销,词元预算就这样被一层层抬上去。

一些团队已经开始想办法用更少的词元完成同样的任务。目前比较突出的实践方向有两个:一是压缩上下文但保留推理链路,二是用分层路由把低难度任务分流到更便宜的模型。

压缩上下文的最直接思路,就是不让智能体带着越滚越长的交互历史四处跑,更不用在每个任务执行前都把全部历史重播一遍。系统可以在传递之前,先把前期的对话或者工作记忆做摘要,只保留最关键的片段。另一种做法是主动缩小智能体的视野:与其把整个代码库或全部文档集合都塞给它,不如只暴露和当前任务直接相关的那一小部分。不过这中间有个度,视野切得太窄,智能体就可能丢掉后续需要的重要背景。为了补上这个缺口,系统需要搭配一个紧凑的记忆层,用来锁定关键事实和决策节点。最终要达到的状态是:智能体不用每次都重读整条推理链,但依然能随时回忆起链条上的关键环节。

分层路由的策略则更偏向“经济模型分工”。工程师们可以利用分层路由,把解析一个JSON响应、格式化一条日志条目、检查某个文件是否存在这类轻量操作,交给更便宜的小模型来处理,而不是统统搬出那个用来做系统架构规划的主力模型。通过把高频低难度的任务剥离出去,大模型的调用次数和每次携带的上下文量都会明显下降,整个工作流的词元消耗随之大幅收窄。这背后反映的思路其实很朴素:不是所有思考都需要同一种“脑力”,把消耗降下来,有时比把一个模型的能力拉到顶更重要。

说到底,选择越来越便宜的模型,

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
河北一老师怀孕胎停后突发脑梗,智力变3岁,丈夫陪妻子“重新长大”900多天,被问及丈夫身份,妻子迟疑地说出一句话,丈夫愣住了

河北一老师怀孕胎停后突发脑梗,智力变3岁,丈夫陪妻子“重新长大”900多天,被问及丈夫身份,妻子迟疑地说出一句话,丈夫愣住了

不二大叔
2026-07-03 00:31:14
中国人民大学通报:未发现蒋方舟论文学术不端,认定部分注释存不规范,但未构成不端;暂停导师招生资格一年!

中国人民大学通报:未发现蒋方舟论文学术不端,认定部分注释存不规范,但未构成不端;暂停导师招生资格一年!

双一流高校
2026-07-06 00:15:13
保剑锋撤诉!承认和黄慧颐结过婚,私下已达成和解,原因特别现实

保剑锋撤诉!承认和黄慧颐结过婚,私下已达成和解,原因特别现实

小椰的奶奶
2026-07-04 05:10:09
世界杯预测:巴西3-2/1-2挪威,墨西哥2-3/1-1英格兰

世界杯预测:巴西3-2/1-2挪威,墨西哥2-3/1-1英格兰

刘哥谈体育
2026-07-05 16:02:45
一斤胜过10只鸡,清热解毒,夏天一定要多吃它,提升免疫

一斤胜过10只鸡,清热解毒,夏天一定要多吃它,提升免疫

你在偷看谁
2026-07-03 17:08:18
对于明天周一A股,我只说3句话:第一,3927点或将牢不可破!

对于明天周一A股,我只说3句话:第一,3927点或将牢不可破!

趋势清风侠
2026-07-05 10:02:47
美媒评级30队今夏运作:76人爵士评A并列第一 湖勇B-火箭B开拓者D

美媒评级30队今夏运作:76人爵士评A并列第一 湖勇B-火箭B开拓者D

罗说NBA
2026-07-05 06:23:56
葬礼上,梅德韦杰夫连出三记毒招,给中国挖坑,伊朗接招必死

葬礼上,梅德韦杰夫连出三记毒招,给中国挖坑,伊朗接招必死

阿芒娱乐说
2026-07-05 21:27:28
我发现,60后和70后还能顺利退休,80后、90后和00后很难熬到退休

我发现,60后和70后还能顺利退休,80后、90后和00后很难熬到退休

舒山有鹿
2026-07-05 10:43:52
黄晓明和Angelababy的新瓜,有点炸

黄晓明和Angelababy的新瓜,有点炸

LULU生活家
2026-07-05 14:47:31
半导体要不要跑?重仓半导体基金的新手,当下别盲目割肉也别硬扛

半导体要不要跑?重仓半导体基金的新手,当下别盲目割肉也别硬扛

趣味萌宠的日常
2026-07-05 19:54:49
凌晨4点世界杯15亿对决!巴西vs黑马:2大巨星必有1人出局

凌晨4点世界杯15亿对决!巴西vs黑马:2大巨星必有1人出局

叶青足球世界
2026-07-05 11:20:23
秦海璐变卖房产,清空全部资产,凑出近亿身家,绝境兜底救下刘涛

秦海璐变卖房产,清空全部资产,凑出近亿身家,绝境兜底救下刘涛

做一个合格的吃瓜群众
2026-06-14 07:14:40
印尼失算了,中企三周拆空2年建的产线,一颗螺丝钉都不留给印尼

印尼失算了,中企三周拆空2年建的产线,一颗螺丝钉都不留给印尼

潋滟晴方DAY
2026-07-05 08:39:35
火箭若不想争冠应交易杜兰特!活塞等队有意,对双方都是最好选择

火箭若不想争冠应交易杜兰特!活塞等队有意,对双方都是最好选择

阿心文史
2026-07-06 00:58:12
班主任直言:高中阶段,比补课更重要的,是逼孩子养成这2个习惯

班主任直言:高中阶段,比补课更重要的,是逼孩子养成这2个习惯

华庭讲美食
2026-07-06 00:15:06
肝脂降30%!日本研究发现:这种主食降糖减脂,4个月肝指标好转

肝脂降30%!日本研究发现:这种主食降糖减脂,4个月肝指标好转

药师华子
2026-07-05 10:00:23
45岁母亲雾天开车买菜失踪,10年后女儿打车上班,发现是妈妈的爱车

45岁母亲雾天开车买菜失踪,10年后女儿打车上班,发现是妈妈的爱车

今天说故事
2025-07-02 17:31:55
47岁曹格演唱会“肌肉崩了”,全场笑疯!

47岁曹格演唱会“肌肉崩了”,全场笑疯!

南万说娱26
2026-06-18 16:35:09
挥泪斩马谡!皇马同意,亿元先生转投曼联!1.8亿“顶星”空降

挥泪斩马谡!皇马同意,亿元先生转投曼联!1.8亿“顶星”空降

头狼追球
2026-07-04 17:34:56
2026-07-06 01:28:49
字节漫游指南
字节漫游指南
有态度网友ytd
310文章数 93关注度
往期回顾 全部

科技要闻

华为:逻辑折叠将大幅提升麒麟CPU核心频率

头条要闻

医院给老人一次拔12颗牙种10颗 官方:将顶格行政处罚

头条要闻

医院给老人一次拔12颗牙种10颗 官方:将顶格行政处罚

体育要闻

姆巴佩点走巴拉圭:巴黎三代左锋传承

娱乐要闻

霉霉婚礼照片泄露 有四人违规

财经要闻

揭秘跨境“对敲”换汇黑产

汽车要闻

方程豹钛9内饰曝光 用上了长联屏设计/下半年上市

态度原创

旅游
教育
房产
数码
公开课

旅游要闻

去抚仙湖别只看湖水,这条龙街的人间烟火,才是滇中最治愈的模样

教育要闻

630分以上518人!江宁、高淳、溧水区三区2026年中考分段表出炉!

房产要闻

总裁空缺17个月、现金缺口超1000亿:金融局“局外人”入局万科

数码要闻

Intel Xe3P核显越来越近!Linux曝光新进展

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版