开场:同款模型,智商差距从哪来?
今年以来,用AI的人明显分成了两个阵营。一边是网上大神,把DeepSeek V4用得像请了个专家顾问,另一边是普通用户,感觉自己招了个事事要反复交代的实习生。部署Agent也是,有人分分钟搞定,有人卡在模型参数不适配、协议格式不兼容的bug里出不来。咬咬牙买了服务商套餐图个省心,结果对方承诺99.9%可用,到自己这儿问个问题要等好几分钟才回复。很多人开始自我怀疑:是不是提示词写得不够好?功能开发不到位?上下文管理没学透?
![]()
这些确实重要,但背后可能藏着一层更深的行业潜规则。
减配模型:你买的不是原版
清程极智联合创始人师天麾博士,近日在中科创星硬科技媒体行活动中,拆解了一些服务商的惯用操作。他提到一个案例:一个新模型发布时,团队给几十家部署服务商做了评测,发现有些服务商的模型明显更“笨”。调查之后才明白,有厂家为了省成本,把原来FP8精度的模型,降级用INT4精度部署,效果自然打了折扣。更坑的是,这些减配模型在报价单里,关键指标往往跟原厂模型长得一模一样,而至关重要的精度信息根本不写进去。缺少评测能力的购买者,压根不知道自己买到的不是原版。
这也就解释了为什么同款大模型,在不同渠道、不同场景下能出现悬殊的使用体验,甚至明显“降智”。问题指向的是随着“Token经济”爆发而愈发壮大的Token服务商群体。他们的运营模式是采购算力、部署大模型,然后把模型能力按Token计费对外售卖。目前国内Token服务商林立,除了自研模型的原厂,转售三方模型的云厂商、靠API代理赚差价的代理商都在做这门生意,传统电信运营商和专注模型部署调优的创业公司也积极入局。摊子越铺越大,竞争越打越狠,“坑”也越挖越多,严重者无异于对购买者的“诈骗”。
价格战里的隐形消耗
师天麾透露,在Token还没像现在这么紧缺的时候,服务商主要在价格上拼刺刀。同样的模型,报价有高有低,有的企业为节约成本选了单价更低的服务商。但不少低价服务商在KV Cache命中率等方面存在明显短板,耗费大量Token却根本拿不到理想的结果,最终总成本反而比高单价版本高出好几倍。
除了模型质量和价格,响应速度上也有门道。在一些Token服务商提供的服务中,高达20%的请求会出现延迟异常,原本三五秒该返回的内容,硬是拖到几十甚至几百秒。师天麾用“慢响应”来总结这个现象,而承诺“99.9%可用”的厂商,依然会把明显异常的延迟界定为“可用”,直接影响用户体验。
清华大学计算机系教授翟季冬给出的一组数据更直观:部分服务商的慢响应比例接近20%,意味着每五次服务就有一次出问题。大多数服务商的慢响应比例也高于1%,对于需要快速、稳定响应的场景来说,仍然难令人满意。师天麾观察到一个更严峻的趋势:慢响应问题并没有随着行业发展而缓解,当前情况反而比去年末今年初还严重。这成了Token产业迅猛增长,但供给侧鱼龙混杂、指标混乱、服务质量参差不齐的一个缩影。
Token大爆发,供需开始打架
Token迎来了自己的大时代,冲击也远胜以往。师天麾对作者分析,慢响应等问题之所以愈发严重,本质上还是供需不平衡。一个标志性事件,就是以“龙虾OpenClaw”为代表的Agent大火。它带来的最大区别,是个人的Token使用量大幅增长。“去年普通人用AI,主要还是跟豆包、元宝聊个天,这不怎么烧Token。但‘龙虾’出现后,又是多轮对话,又是长上下文,Token就烧得非常快。”他解释。
用AI的人变多了,而AI Agent需要的Token也越来越多,需求侧迅速膨胀。二季度以来,此前连准确翻译都难有共识的专业词汇Token加速破圈,“Token短缺焦虑”“Token太贵”频频引发热议。中信证券此前研报指出,今年4月OpenRouter平台周度累计Token消耗量同比提升了7倍有余。根据国家数据局统计,截至今年3月,中国日均Token调用量已突破140万亿,两年增长1400倍,相较2025年底也高出至少40%。而今年3月,正是“龙虾热”在国内最红火的时候。
与此同时,供给侧算力增长有限,远远跟不上需求增速。这不仅导致模型和相关服务开始涨价,也让前文所述的乱象扎堆冒头,部分服务商的Token服务质量不升反降,使用者越来越容易“踩坑”。4月中旬,OpenRouter统计的中国AI大模型周调用量曾连续下滑,并被美国反超,其中调用成本高、服务质量不稳定被视为重要影响因素。虽然4月末DeepSeek V4发布并持续优惠、降价后,国产大模型调用量再次上升,但供需问题仍未得到实质性解决,Token服务质量亦未见明显提升。AI产业仍在向前狂奔,隐忧并未消散。
避坑:让价格和效果透明起来
行业正在想办法。在提升Token服务质量方面,目前的努力方向主要集中在“可视化”和“透明化”上。第三方可构建智能路由实行统一调度,企业端可在现有API网关之上构建一层企业级AI网关,开发团队也可自建评测与开源工具。行业中已有相关案例,核心都是让Token的价格、效果更加透明可见。
师天麾所在的清程极智近期推出的AI Ping平台就属于第一类。根据产品介绍,AI Ping是一站式大模型服务评测与API智能路由平台,主要功能是信息汇总、客观评测和智能路由。目前接入了30余家主流Token服务商和600余个大模型服务,监测的核心指标包括实时输出延迟、吞吐、可靠性、价格等。在测评之外,智能路由负责Token调度,能够以统一API接口为用户自动匹配最优服务商,完成一键调用。公司称,相关功能目前能实现成本降低超37%,吞吐提升超90%,延迟降低超20%。实际上,这让相关平台也具备了Token服务商的角色。
师天麾对作者介绍,AI Ping既能服务开发者,在To B端的营收也很可观。长期来看,公司希望更靠近中小企业和普通开发者,因为大厂往往有强大的评测和采购团队,可以逐一测试几十家服务商,但对其他群体来说几乎不可能做到,这也成了公司产品最能发挥作用的领域。据悉,清程极智成立于2023年12月,是AI Infra领域初创公司,核心团队来自清华大学计算机系高性能计算所,目前已完成天使轮、PreA、PreA+三轮融资,除中科创星、联想创投等机构外,同为“清华系”的AI明星上市公司智谱亦参与投资。
在Token产业维度,该公司还强调,长期来看,解决供需问题还需聚焦国产算力、国产模型的发展与协同,解决诸如国产推理环节长期依赖海外引擎、难以充分释放国产硬件性能等问题。这与其另一项主要业务相关。该公司的赤兔推理引擎主打“完全自主研发的国产推理引擎”,联合创始人唐适之称,海外推理引擎用在国产算力上,如同“把西式烤面包的技术直接用来蒸馒头”,其中必然存在不适配问题,影响最终效果。而国产推理引擎能在居中的AI Infra层解决问题,提升国产算力在模型部署中的效率和精度,从根上解决“模型变笨”等问题。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.