Token买卖的水，比韭菜地还深|路由|token|高吞吐量内核

Token买卖的水，比韭菜地还深

2026-05-30 06:42:38　来源: 码上闲叙

北京举报

分享至

开场：同款模型，智商差距从哪来？

今年以来，用AI的人明显分成了两个阵营。一边是网上大神，把DeepSeek V4用得像请了个专家顾问，另一边是普通用户，感觉自己招了个事事要反复交代的实习生。部署Agent也是，有人分分钟搞定，有人卡在模型参数不适配、协议格式不兼容的bug里出不来。咬咬牙买了服务商套餐图个省心，结果对方承诺99.9%可用，到自己这儿问个问题要等好几分钟才回复。很多人开始自我怀疑：是不是提示词写得不够好？功能开发不到位？上下文管理没学透？

这些确实重要，但背后可能藏着一层更深的行业潜规则。

减配模型：你买的不是原版

清程极智联合创始人师天麾博士，近日在中科创星硬科技媒体行活动中，拆解了一些服务商的惯用操作。他提到一个案例：一个新模型发布时，团队给几十家部署服务商做了评测，发现有些服务商的模型明显更“笨”。调查之后才明白，有厂家为了省成本，把原来FP8精度的模型，降级用INT4精度部署，效果自然打了折扣。更坑的是，这些减配模型在报价单里，关键指标往往跟原厂模型长得一模一样，而至关重要的精度信息根本不写进去。缺少评测能力的购买者，压根不知道自己买到的不是原版。

这也就解释了为什么同款大模型，在不同渠道、不同场景下能出现悬殊的使用体验，甚至明显“降智”。问题指向的是随着“Token经济”爆发而愈发壮大的Token服务商群体。他们的运营模式是采购算力、部署大模型，然后把模型能力按Token计费对外售卖。目前国内Token服务商林立，除了自研模型的原厂，转售三方模型的云厂商、靠API代理赚差价的代理商都在做这门生意，传统电信运营商和专注模型部署调优的创业公司也积极入局。摊子越铺越大，竞争越打越狠，“坑”也越挖越多，严重者无异于对购买者的“诈骗”。

价格战里的隐形消耗

师天麾透露，在Token还没像现在这么紧缺的时候，服务商主要在价格上拼刺刀。同样的模型，报价有高有低，有的企业为节约成本选了单价更低的服务商。但不少低价服务商在KV Cache命中率等方面存在明显短板，耗费大量Token却根本拿不到理想的结果，最终总成本反而比高单价版本高出好几倍。

除了模型质量和价格，响应速度上也有门道。在一些Token服务商提供的服务中，高达20%的请求会出现延迟异常，原本三五秒该返回的内容，硬是拖到几十甚至几百秒。师天麾用“慢响应”来总结这个现象，而承诺“99.9%可用”的厂商，依然会把明显异常的延迟界定为“可用”，直接影响用户体验。

清华大学计算机系教授翟季冬给出的一组数据更直观：部分服务商的慢响应比例接近20%，意味着每五次服务就有一次出问题。大多数服务商的慢响应比例也高于1%，对于需要快速、稳定响应的场景来说，仍然难令人满意。师天麾观察到一个更严峻的趋势：慢响应问题并没有随着行业发展而缓解，当前情况反而比去年末今年初还严重。这成了Token产业迅猛增长，但供给侧鱼龙混杂、指标混乱、服务质量参差不齐的一个缩影。

Token大爆发，供需开始打架

Token迎来了自己的大时代，冲击也远胜以往。师天麾对作者分析，慢响应等问题之所以愈发严重，本质上还是供需不平衡。一个标志性事件，就是以“龙虾OpenClaw”为代表的Agent大火。它带来的最大区别，是个人的Token使用量大幅增长。“去年普通人用AI，主要还是跟豆包、元宝聊个天，这不怎么烧Token。但‘龙虾’出现后，又是多轮对话，又是长上下文，Token就烧得非常快。”他解释。

用AI的人变多了，而AI Agent需要的Token也越来越多，需求侧迅速膨胀。二季度以来，此前连准确翻译都难有共识的专业词汇Token加速破圈，“Token短缺焦虑”“Token太贵”频频引发热议。中信证券此前研报指出，今年4月OpenRouter平台周度累计Token消耗量同比提升了7倍有余。根据国家数据局统计，截至今年3月，中国日均Token调用量已突破140万亿，两年增长1400倍，相较2025年底也高出至少40%。而今年3月，正是“龙虾热”在国内最红火的时候。

与此同时，供给侧算力增长有限，远远跟不上需求增速。这不仅导致模型和相关服务开始涨价，也让前文所述的乱象扎堆冒头，部分服务商的Token服务质量不升反降，使用者越来越容易“踩坑”。4月中旬，OpenRouter统计的中国AI大模型周调用量曾连续下滑，并被美国反超，其中调用成本高、服务质量不稳定被视为重要影响因素。虽然4月末DeepSeek V4发布并持续优惠、降价后，国产大模型调用量再次上升，但供需问题仍未得到实质性解决，Token服务质量亦未见明显提升。AI产业仍在向前狂奔，隐忧并未消散。

避坑：让价格和效果透明起来

行业正在想办法。在提升Token服务质量方面，目前的努力方向主要集中在“可视化”和“透明化”上。第三方可构建智能路由实行统一调度，企业端可在现有API网关之上构建一层企业级AI网关，开发团队也可自建评测与开源工具。行业中已有相关案例，核心都是让Token的价格、效果更加透明可见。

师天麾所在的清程极智近期推出的AI Ping平台就属于第一类。根据产品介绍，AI Ping是一站式大模型服务评测与API智能路由平台，主要功能是信息汇总、客观评测和智能路由。目前接入了30余家主流Token服务商和600余个大模型服务，监测的核心指标包括实时输出延迟、吞吐、可靠性、价格等。在测评之外，智能路由负责Token调度，能够以统一API接口为用户自动匹配最优服务商，完成一键调用。公司称，相关功能目前能实现成本降低超37%，吞吐提升超90%，延迟降低超20%。实际上，这让相关平台也具备了Token服务商的角色。

师天麾对作者介绍，AI Ping既能服务开发者，在To B端的营收也很可观。长期来看，公司希望更靠近中小企业和普通开发者，因为大厂往往有强大的评测和采购团队，可以逐一测试几十家服务商，但对其他群体来说几乎不可能做到，这也成了公司产品最能发挥作用的领域。据悉，清程极智成立于2023年12月，是AI Infra领域初创公司，核心团队来自清华大学计算机系高性能计算所，目前已完成天使轮、PreA、PreA+三轮融资，除中科创星、联想创投等机构外，同为“清华系”的AI明星上市公司智谱亦参与投资。

在Token产业维度，该公司还强调，长期来看，解决供需问题还需聚焦国产算力、国产模型的发展与协同，解决诸如国产推理环节长期依赖海外引擎、难以充分释放国产硬件性能等问题。这与其另一项主要业务相关。该公司的赤兔推理引擎主打“完全自主研发的国产推理引擎”，联合创始人唐适之称，海外推理引擎用在国产算力上，如同“把西式烤面包的技术直接用来蒸馒头”，其中必然存在不适配问题，影响最终效果。而国产推理引擎能在居中的AI Infra层解决问题，提升国产算力在模型部署中的效率和精度，从根上解决“模型变笨”等问题。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.