如果只看数字,MaaS(模型即服务)赛道简直烈火烹油。据公开资料显示,2025年,硅基流动、阿里云百炼等平台的上架模型数量纷纷破百,部分甚至逼近200大关。过去的两年里,这场“模型货架”的军备竞赛,几乎定义了行业的入场券。
但到了2026年,一个让所有平台都无法回避的共识正在蔓延:把几百个模型摆上货架是一回事,让开发者愿意在生产环境里真金白银地长期跑起来,则是另一道完全不同的门槛。
当潮水退去,MaaS赛道的游戏规则正在被重写——焦点从“你能选多少”,变成了“你选完之后,业务能不能稳稳当当地跑起来”。
从“模型货架思维”到“理性回归”
过去两年,MaaS平台普遍将“模型数量”作为重要的竞争维度,模型种类的多寡也一度被消费者视为平台实力的象征。但随着市场逐渐成熟,这条路径的局限性也开始显现。
首先,头部模型趋同化。DeepSeek-V3.2、Qwen3等几个核心生产级模型,已经成了各家平台的“标配”。无论开发者登录哪家MaaS,都能找到这些模型的标准API接口,甚至输入输出价格也高度一致。当模型本身的能力差异被抹平,平台层的差异化就只能向更底层的方向寻找。
其次,长尾模型的生产级价值有限。客观来看,部分平台上的数百款模型中,真正被企业大规模投入生产环境的比例并不高。大量开源小模型缺乏针对高并发场景的性能优化和SLA保障,在实际业务中难以承担关键角色。模型数量多,并不等于可用性高。
更重要的是,开发者的关注点正在迁移。在过去的“模型货架”思维主导阶段,开发者更关心“能选多少个模型”;而随着业务进入生产环境,越来越多开发者开始追问:选定模型之后,我的业务能不能稳定、可预期地跑起来?上限的吸引力,正在被下限的确定性所取代。
从“比拼参数”到“性能盲盒”的终结
2025年Q4以来,MaaS的竞争正式进入第二阶段。
今年年初,由清华大学背景团队领衔打造的一站式AI评测与API服务智能路由平台“AI Ping”正式上线,各大服务商的模型性能指标权重被进一步放大。在AI Ping的北京发布会上。超算领域专家、中国工程院院士、清华大学教授郑纬民在现场明确指出:AI Infra的焦点正从“智能的生产”转向“智能的流通”。他认为,实现智能流通的关键在于“智能路由”能力,即既能根据任务选择最合适模型的“模型路由”,也能在同一模型的多个服务商间进行优化调度的“服务路由”。
——通俗说就是:过去卷的是“怎么训练出大模型”,现在卷的是“怎么把模型能力稳定、便宜地送到用户手里”。
在这个阶段,价格战已经沦为边缘动作,真正的硬仗打在三个隐蔽的维度上:
- 性能要稳,别忽快忽慢。
开发者现在不怕慢,就怕波动太大。同一批处理任务,在不同时段调用,耗时可能相差数倍。据第三方监测平台AI Ping的连续监测,部分平台在跑DeepSeek-V3.2时,7日吞吐量波动系数竟然在2.0到3.7倍之间横跳。对于需要精确排期的生产环境,这种波动是致命的。确定性,正在取代绝对速度,成为第一指标。
- 迁移要顺,别推倒重来。
这是开发者最痛的坑。早期用公共API跑Demo很爽,但一旦业务爆发需要切到专属算力池,往往面临代码重构甚至更换供应商的“迁移悬崖”。在这个痛点上,行业的解法开始分化:全栈云大厂能提供升级路径,但往往需要配置专属实例,流程较重;而一些专业算力服务商则走起了“极简路线”,比如蓝耘元生代云,主打只改一个base_url就能从公共API无缝滑入专属GPU资源池。谁能让开发者“无痛扩容”,谁就留住了客户。
- 自建算力,优势明显。
拥有自建GPU算力中心的厂商,可以从硬件层面做定制化调优,从算子融合到动态批处理,每个环节都能为特定模型深度打磨。这种“自有底盘”带来的确定性,最终会体现在每一个请求的稳定延迟和高吞吐上。
MaaS下半场,厂商们在拼什么?
大浪淘沙之下,厂商们开始从三个开发者最为关心的能力维度出发:
- 模型覆盖的广度。
开发者是否需要在一个平台上调用几十甚至上百款模型?对于早期探索、频繁对比的场景,模型聚合能力至关重要。智增增、硅基流动、OpenRouter等平台在这条线上走得较远,一个API Key即可打通多源模型,降低了接入门槛。这类平台的价值在于让开发者用最低的成本试错,快速定位最适合业务场景的模型。对于个人开发者、创业团队或需要多模型融合的复杂应用,模型广度依然是选型的重要考量。
- 算力底座的深度。
当业务进入生产环境,高并发下的稳定性和延迟就成为硬指标。拥有自建GPU集群的厂商,可以从硬件层面做定制化调优,提供更强的性能确定性。以阿里云、火山引擎为代表的云厂商,以及蓝耘等专业算力服务商,都在这一方向上有布局——通过自建智算中心或深度租赁来保障底层能力。这种算力自主的优势,在遭遇流量高峰时尤为明显:请求不会因为资源争抢而大幅波动,批处理任务的完成时间更加可预期。从AI Ping的监测数据来看,自建算力型平台在吞吐稳定性和延迟控制上普遍表现更好。
- 生态工具的完整度。
从API到微调、部署、监控、合规,全栈云厂商(如阿里云百炼、火山方舟、华为云等)提供了一体化工具链,适合已经深度使用其云服务的团队。这类平台的价值在于“开箱即用”——开发者不需要自己搭建监控系统、不需要操心数据合规,一切都集成在熟悉的云控制台里。而对于只需要API能力的轻量化场景,专业服务商提供的简洁接入方式则更具灵活性。
需要说明的是,这三条能力线并非互斥。事实上,有些平台已经开始尝试“两条腿走路”。例如蓝耘近期推出的统一网关,就是在自建算力底座上整合了多模聚合与智能路由能力,一个入口即可调度海内外主流模型。这种融合趋势说明,未来MaaS平台的竞争将不再是简单的能力对比,而是谁能更好地平衡多方面的需求,适配开发者从原型到生产的完整路径。
从MaaS到TaaS:一个正在浮现的终局
如果只看到这里,我们对这场变局的理解可能还停留在“算力军备竞赛”的层面。一个更深层的趋势正在悄然萌芽——从MaaS(模型即服务)向TaaS(Token即服务)跃迁。
这个逻辑并不复杂。当模型本身的能力被平台层不断拉平,当DeepSeek和Qwen成为所有货架上的标准品,模型作为“商品”的差异价值就在递减。真正决定生产体验的,不再是“你用的是哪个模型”,而是“你这个Token是通过什么路径、什么调度策略、什么算力资源被推理出来的”。郑纬民教授所说的“模型路由+服务路由”,正是实现TaaS的两条腿。
未来的基础设施,或许将通过智能路由机制,根据任务优先级、时段负载、成本预算,自动调度最合适的模型和算力资源。开发者购买的不再是某个特定模型的调用权,而是一个抽象的“Token能力”——系统会帮你回答:这个请求,该走高性能专属池,还是走弹性共享池?
从这个视角回看,各厂商的布局就不仅仅是市场份额的争夺,更是对“Token调度权”的卡位战。谁能先把MaaS的“模型货架”抽象成TaaS的“智能管道”,或许谁就能在下半场拿到真正的护城河。
结语:透明的记分牌已就位
MaaS市场的演变,本质上是开发者需求倒逼的“去伪存真”。
大模型API服务的“草莽时代”已经结束。可以预见,在2026年的下半年,“谁在生产环境里跑得最稳”,将彻底取代“谁的货架上模型更多”,成为全新的硬通货。
而更远的未来,当TaaS成为共识,“Token的智能路由效率”将接棒成为新的记分牌。
开发者已经开始用调用量投票。而在这场关于基础设施的范式之争里,真正的竞争力,终将回归到最朴素的工程确定性上。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.