网易首页 > 网易号 > 正文 申请入驻

多模型切换时,你的上下文正在偷偷"缩水"

0
分享至

同一句话,OpenAI数出1200个词元,Claude却算出1450个。这不是bug,是每家大模型厂商的"方言"差异。当系统需要在对话中途切换模型时,这种差异会让你的上下文窗口无声崩溃。

Backboard.io联合创始人Jonathan Murray团队最近公开了他们解决这个问题的思路。这件事的有趣之处在于:它暴露了一个被行业长期忽视的底层矛盾——我们以为"词元"是通用货币,实际上每家都在发自己的钞。


词元不是通用语言

大模型厂商的词元切分规则各不相同。同一个英文单词,有的模型拆成3个片段,有的拆成2个;中文差异更大,标点、空格、特殊符号的处理几乎每家都有独特逻辑。

这种差异直接冲击实际业务。假设你在做一个需要长期记忆的客户服务机器人,对话进行到第20轮时系统决定从GPT-4切换到Claude 3——为了节省成本,或者因为前者暂时不可用。

新模型需要完整重读前19轮对话。但Claude的词元计数比OpenAI多出20%左右,原本"刚好满"的上下文窗口,现在直接溢出。结果要么是请求失败,要么是被迫截断早期对话,用户突然发现自己的"记忆"被删除了。

Murray团队最初的想法很直觉:建立一个统一的词元估算器,加个安全余量。实测后发现这条路走不通。余量设太小,切换时照样崩溃;设太大,又会在不该截断的时候提前删减,对话质量无故受损。

「单一估算会在两个方向上都出错」,Murray在文中写道。低估导致失败,高估导致浪费,没有中间地带。

让路由器学会"说方言"

他们的解法是把词元计数做成模型感知型。上下文管理层不再维护一个通用数字,而是针对每个目标模型,用该模型自己的规则重新计算。

具体实现上,系统在路由决策前完成三步:

第一,实时监测对话逼近目标模型窗口边界的进度。不是看"还剩多少词元",而是看"按这家模型的数法还剩多少"。

第二,智能压缩历史记录。需要删减时,不是机械地从最前面砍掉固定比例,而是根据内容重要性做选择性压缩。早期寒暄可以缩,关键决策节点必须留。

第三,屏蔽切换复杂度。用户端保持对话连贯,系统端处理"每家词元方言不同"的脏活。

这个设计的核心洞察是:词元计数不是静态属性,而是模型相关的动态测量。把它当成通用基础设施,就会在多模型场景下持续踩坑。

路由层的隐藏地基

词元计数问题之所以值得单独拿出来解决,是因为它支撑着一个更大的架构目标:让LLM路由对用户完全透明。

Murray团队正在构建的路由层,允许产品在运行中切换底层模型——基于成本、能力或可用性——而不把这套复杂度暴露给终端体验。模型感知型词元计数是这个能力的地基性组件。没有它,切换就是俄罗斯轮盘赌。

这个方向的行业意义在于:它把"多模型策略"从架构层的妥协方案,变成了产品层的主动设计选择。

过去,选一个模型绑定到底是最省心的做法。现在,系统可以在单次对话里动态组合不同厂商的优势:用Claude处理长上下文分析,切到GPT-4做代码生成,再换到Gemini处理多模态输出——全程用户无感知。

这种灵活性正在从" nice to have"变成" must have"。模型能力迭代速度差异、定价策略波动、区域性可用性限制,都在推动产品架构向"模型无关"演进。

但演进的前提是解决好词元计数这类底层兼容问题。Murray的坦白很说明问题:「我们做这个,这样你就不用做了。」暗示这是每个做多模型系统的团队都会撞上的墙,只是大多数人没公开讨论过。

被低估的工程债务

这个词元计数案例折射出AI基础设施领域的一个普遍现象:表层API的统一性掩盖了底层实现的碎片化。

OpenAI、Anthropic、Google都提供"聊天补全"接口,返回值结构相似,调用方式雷同。但词元切分规则、速率限制计算方式、错误重试策略、工具调用格式——这些真正决定系统稳定性的细节——几乎没有两家一致。

结果是,很多团队在"接入了5家模型API"之后才发现,真正的工程工作量不在于调用本身,而在于处理它们之间的微妙不兼容。词元计数只是最隐蔽的一个,因为错误不会立即暴露,而是在特定长度、特定切换时机才触发。

Backboard.io选择把这个问题组件化、服务化,本质上是在押注一个趋势:未来大多数AI应用都会是多模型的,但不会有太多团队愿意自己维护这套适配层。

这和云计算早期的演变逻辑相似。AWS最初只是"能租服务器",后来逐渐长出负载均衡、自动扩缩容、多可用区部署——这些能力你也可以自己用开源软件搭,但维护成本让"买服务"成为更理性的选择。

AI基础设施可能正在经历类似的层化过程。最底层是算力和基础模型,中间层是路由、记忆、词元管理等跨模型能力,最上层才是垂直应用。Murray团队卡位的是中间层,而词元计数是他们验证这个层位价值的首个切口。

一个值得观察的信号是:如果更多团队开始公开讨论"我们如何解决X模型和Y模型的Z不兼容问题",说明多模型架构正在从先锋实验变成主流实践。届时,专门解决这类兼容性问题的中间件价值会快速上升。

反之,如果行业迅速收敛到某一家模型的生态主导,这类基础设施的投资回报就会大打折扣。目前看,前者概率更高——没有一家模型在所有场景都领先,而成本压力正在加速模型切换的常态化。

给技术决策者的参考

如果你正在评估多模型策略,Murray的案例提供了几个检查点:

你的上下文管理系统是否硬编码了单一模型的词元计算规则?如果是,切换模型时准备如何处理计数差异?

历史对话的截断策略是固定比例,还是内容感知?后者需要额外的摘要或重要性评分机制,但能在模型切换时保留更多有效信息。

词元计数错误是被当作可接受的边缘情况处理,还是有专门的降级路径?前者在toC场景可能勉强过关,toB场景的客户不会接受"偶尔丢记忆"。

最后,这个组件是自己维护还是采购?判断标准不是"能不能做",而是"是不是核心差异化能力"。对大多数产品团队,词元计数的正确性属于"必须对但不必自己做"的范畴。

Murray在文末用了个笑脸表情:「我们做这个,这样你就不用做了。」这句话的潜台词是,他们已经踩过坑、付过学费,现在把这个能力打包成服务。对正在做多模型架构的团队,这既是一个可选项,也是一个警示——如果你没遇到这个词元计数问题,可能只是因为还没切换到足够多的模型,或者还没在足够长的对话里测试边界情况。

毕竟,词元不会说谎,但每家数词元的方式都在说不同的谎。你的系统准备好翻译这些方言了吗?

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
曼城深陷所有权危机:曼苏尔遭人权组织投诉,或重演切尔西悲剧

曼城深陷所有权危机:曼苏尔遭人权组织投诉,或重演切尔西悲剧

星耀国际足坛
2026-05-10 22:35:59
重锤!武汉协和医院大扩建!

重锤!武汉协和医院大扩建!

越乔
2026-05-10 22:40:23
他离开司令员岗位,生活急转直下,为了改善生活,让儿女南下打拼

他离开司令员岗位,生活急转直下,为了改善生活,让儿女南下打拼

微野谈写作
2026-05-10 13:00:08
2:1,特朗普再次败诉,美国法院已裁定,他无权对中国加征关税

2:1,特朗普再次败诉,美国法院已裁定,他无权对中国加征关税

近史谈
2026-05-10 13:19:58
全网猜疯!张韶涵诡异造型+争议手势,真加入了传闻中的组织?

全网猜疯!张韶涵诡异造型+争议手势,真加入了传闻中的组织?

TVB的四小花
2026-05-08 10:02:45
5月11日至13日,南海部分海域进行火箭发射,禁止驶入

5月11日至13日,南海部分海域进行火箭发射,禁止驶入

观察者网
2026-05-10 22:23:21
国乒女团为何能赢日本夺冠?孙颖莎拿MVP发言,马琳王曼昱憋眼泪

国乒女团为何能赢日本夺冠?孙颖莎拿MVP发言,马琳王曼昱憋眼泪

体育大学僧
2026-05-10 22:34:26
鲜为人知的白奴贸易:上百万白人被抓到非洲,白人女子沦为玩物

鲜为人知的白奴贸易:上百万白人被抓到非洲,白人女子沦为玩物

抽象派大师
2026-05-02 00:10:00
心理学有个残忍发现:让一个人终身困在焦虑里、无法自拔,从不是缺爱缺安全感,而是这两道“埋在意识底层的心理门槛”

心理学有个残忍发现:让一个人终身困在焦虑里、无法自拔,从不是缺爱缺安全感,而是这两道“埋在意识底层的心理门槛”

心理观察局
2026-05-09 09:10:05
毫无格局!杜锋赛后发言引争议,知名大V怒批,粤迷也不认同

毫无格局!杜锋赛后发言引争议,知名大V怒批,粤迷也不认同

小徐讲八卦
2026-05-10 05:56:53
华为Mate90 Pro Max全面曝光!3nm麒麟+7500mAh固态电池

华为Mate90 Pro Max全面曝光!3nm麒麟+7500mAh固态电池

小柱解说游戏
2026-05-10 03:54:13
浙江东阳,33 岁的男子,在母亲长眠的公墓旁,在车里结束了生命

浙江东阳,33 岁的男子,在母亲长眠的公墓旁,在车里结束了生命

魔都姐姐杂谈
2026-03-30 19:25:57
陕西男子3次报警,民警拒不派警,致两家四口被杀,法院咋判的?

陕西男子3次报警,民警拒不派警,致两家四口被杀,法院咋判的?

就一点
2026-04-29 17:28:35
赖着不走、不达目的绝不返程!美国国会代表团在华超长滞留

赖着不走、不达目的绝不返程!美国国会代表团在华超长滞留

健身狂人
2026-05-10 19:30:43
研究表明:性经验越多的男性,阳痿、早泄勃起等问题越少!

研究表明:性经验越多的男性,阳痿、早泄勃起等问题越少!

灯锦年
2026-05-04 14:09:21
2K高清屏+7600mAh!新机官宣:5月10日,全渠开售!

2K高清屏+7600mAh!新机官宣:5月10日,全渠开售!

科技堡垒
2026-05-10 11:20:45
王瑜任太仓市代理市长

王瑜任太仓市代理市长

上观新闻
2026-05-10 20:34:48
任何一个男人到了六十岁后,只要还对异性怀有欣赏与追求,往往因为这两件事

任何一个男人到了六十岁后,只要还对异性怀有欣赏与追求,往往因为这两件事

心理观察局
2026-05-04 08:51:11
CNN创始人去世,28亿家产没给儿女,全给了野牛和草地

CNN创始人去世,28亿家产没给儿女,全给了野牛和草地

纪中百大事
2026-05-10 09:31:51
“戏混子”没走,比资本家丑孩子更可怕的是“星二代”开始世袭了

“戏混子”没走,比资本家丑孩子更可怕的是“星二代”开始世袭了

流史岁月
2026-01-26 10:58:30
2026-05-11 00:08:49
我是一个养虾人
我是一个养虾人
有态度网友ytd
2395文章数 28关注度
往期回顾 全部

科技要闻

DeepSeek融资,改写所有人的估值

头条要闻

儿子车祸受伤生存希望不足0.1% 母亲请中医熬"还魂汤"

头条要闻

儿子车祸受伤生存希望不足0.1% 母亲请中医熬"还魂汤"

体育要闻

那个曾让詹姆斯抱头的兄弟,40岁从大学毕业了

娱乐要闻

赵露思老实人豁出去了 没舞蹈天赋硬跳

财经要闻

白酒大逃杀

汽车要闻

轴距加长/智驾拉满 阿维塔07L定位大五座SUV

态度原创

旅游
艺术
数码
手机
公开课

旅游要闻

重庆新增一夜景打卡点!磁器口步行街看大学生“脑洞”建筑

艺术要闻

31亿,207米!中国第一大民企的深圳总部,封顶!

数码要闻

古尔曼:苹果macOS 27将进一步完善液态玻璃设计

手机要闻

联想拯救者手机Y70新一代现身Geekbench

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版