最近,我们刷到一个千万级大模型大单↓
一套AI计算集群,中标价2000多万。
猛一看,采购的是AI服务器,这不奇怪,当下AI服务器就是很抢手,大单频出。

可细一看,很多吃瓜人士就开始好奇——
“除了服务器,这里面的KunLun AI Space,是个啥玩意?”
此时,懂行的老司机发话了:嘿嘿,这其实是MaaS!

什么是MaaS,为啥MaaS能卖这么贵?
先讲个真实现状吧:
上半年,你不搞大模型,客户会觉得你Out了,项目都懒得跟你谈。
下半年,你搞大模型没MaaS,客户就会觉得你不是真正搞大模型的,还是懒得跟你谈。
![]()
![]()
为啥呢?
因为现在开源大模型那么多,你想获得一个大模型其实没啥难度,甚至客户自己都能搞定。
![]()
可是,你想真的把大模型优化好、部署好、用好,得到更高的推理效率,更好地适配业务,就没那么简单了。
所以,你就会发现,很多客户虽然有了大模型,却只能“供着”。
![]()
要想把大模型真正用起来,就离不开MaaS。
MaaS,就是大模型服务平台(Model as a Service),向下对接算、存、网等AI硬件基础设施,向上对接AI应用开发。
MaaS就像AI时代的奶牛,吃的是草(算力),挤出来的是奶(tokens)。
![]()
企业要想用好大模型,对这头奶牛要求可不低↓
第一,客户买了这头“奶牛”,希望它在吃相同草料的情况下(算力),能更快更多的产奶(tokens)。

此时,就需要考量TPOT、TTFT、并发、极限吞吐这些推理性能指标。
但实际上,市面上“奶牛”良莠不齐,能力差别很大,很多“产奶”指标都是测试理想值。
![]()
第二,客户还希望这头奶牛好饲养,国产草料、进口草料都能吃,还有配套的饲养员、兽医。
比如,有的牛特别挑食,只偏爱某一两种草料(算力),换了草料就不干活。

再比如,牛有头疼脑热或者水土不服(故障、bug或者部署、适配优化问题),客户就希望厂家能提供兽医或者饲养员团队帮忙(原厂优化适配专家)。
![]()
第三,客户需要的不止是鲜奶(Tokens),他们的最终目标是把奶变成各种可口的食物(AI应用)。
光有牛还不够,还要有配套的奶制品生产线,也就是AI应用开发和智能体开发平台。
![]()
产奶效率高、不挑草料、有资深饲养员和兽医提供服务,还提供配套的奶产品加工生产需求。
一番盘点下来,这样的“超能牛”可不太好找。
![]()
嘿嘿,众里寻“牛”千百度,踏破铁鞋无觅处。
蓦然回首,你会发现,中标公告里的KunLun AI Space,原来就是那头“超能牛”。
![]()
KunLun AI Space这头“牛”到底有多牛?
第一牛,吃更少的“草料”,却能更快更多“产奶”。
不仅省饲料,产奶效率还奇高,这样的牛谁不爱呢?

凭啥有这种效率?一句话,软硬协同!
KunLun AI Space实现了从“算力卡”到“Token输出”端到端软硬协同优化。
也就是说,从饲料投喂(算力池化调度)、进食阶段(算子加速)、消化阶段(模型适配)、产奶阶段(推理加速),每个环节,都进行了优化。

KunLun为什么要这么干?
只因要想达到最优的“产奶”效率,必须解决四大难题:计算效率、访存效率、存储效率和通信效率。
这四大难题,如同四道“叹息之墙”,很多牛人第一道墙都过不了。

而KunLun AI Space正是通过端到端的软硬协同优化,成功突破了这四道墙,把性能拉满,最终实现最佳推理效率。

具体怎么破,我来给大家讲讲↓
①算子优化:通过算子融合、算子定制开发、软FP4/FP8等手段,提升计算、访存和通信效率。
算子,是深度学习里的“动作单元”,正是依靠一个个算子的高效“动作”,才组合成流畅高效的推理流程,算子级的优化是性能提升的关键。

KunLun AI Space通过算子融合,将多个独立“小算子”融合一个“大算子”,功能等价但性能更优。
好比将多个步骤的动作,合成一个大动作,达到同样目的,但是更省劲。

同时,针对当下大量模型采用FP8甚至FP4的推理精度,而市面上很多算力卡却不支持该精度的问题,KunLun AI Space提供软FP8/FP4方案。
采用该方案,资源门槛下降50%,性能可提升10%(比如跑满血大模型,原来需要32张卡,现在只需要16张)。

②KV Cache优化:通过KV Cache压缩、分级卸载等手段,节省存储和计算开销,并提升长下文处理能力和并发性能。
KV Cache相当于大模型推理里的记忆缓存机制,用于存放之前算过的「注意力特征」。
参考理解一下牛的「反刍」,你就秒懂了,都是已经嚼过(算过)的东西。
![]()
具体怎么优化呢?学问很大!
首先,采用KV Cache多级缓存池,相似或重复问题直接从缓存读取,减少重复计算,降低GPU和显存消耗。
同时,通过内存和SSD分级存储,降低缓存成本。
![]()
接下来,采用高性能压缩算法和硬件,对KV Cache进行压缩,并提供智能冷热数据分级,把存储成本打下来。
通过这一系列操作,以存促算,多轮对话TTFT降低80%,KV Cache存储空间(显存+内存+SSD)降低一半以上。

③推理调度优化:采用异构PD分离、智能路由等技术提升计算效率,并使用统一存储来平衡PD阶段的资源利用率、延迟,提升吞吐。
现在大家都知道通过PD分离部署来避免资源争抢、提升推理效率,但是面对不同的推理场景、不同算力卡资源,如何优化PD配比,其实很有学问。

KunLun AI Space有自己一套逻辑↓
采用混合/半分离设计,PD计算过程分开,但统一存储,与KV Cache分级缓存相结合,实现跨节点共享数据。
同时利用智能路由策略,灵活分配负载,且P实例可以弹性伸缩,满足突发请求。

通过这番操作,又可以让首Token时延降低45%,吞吐量提升25%。
从算子优化到KV Cache优化再到推理调度优化,KunLun AI Space实现了通信效率、存储效率、访存效率、计算效率的集体提升。
最终这一系列的乘积也把推理效率彻底拉满!

第二牛,这牛胃口好、不挑食,而且配备优秀的“养牛专家”提供服务。
大模型落地到企业场景,遇到五花八门的“草料”(算力)是不可避免的。
此时选KunLun AI Space就太省心了,国产草料、进口草料来者不拒。
![]()
不止如此,KunLun还配备了资深“养牛专家”提供服务,他们专治各种水土不服的“牛脾气”。
算、存、网、集群、整体优化,哪里不服治哪里,针对客户特殊场景,还可以做定制化的算子开发,这没点软硬协同的本领可做不到。
![]()
![]()
第三牛,AI Space不止是MaaS,还包含了应用使能模块。
KunLun AI Space其实包含两大部分↓
第一部分叫做「AI Space Wings」,这个是MaaS(也就是牛),另一部分叫做「AI Space Prime」,属于应用使能模块(相当于奶制品加工厂)。
![]()
道理很简单,用大模型做推理,生产再多Tokens也没用,核心是要把他们变成AI应用,就像把鲜奶变成美味奶制品,形成落地闭环。
AI Space Prime提供了MCP、Agent编排/提示词工程/插件管理、RAG等一系列“生产线”,帮助客户把Tokens快速变成生产力工具。
![]()
KunLun AI Space的成绩单,和它背后的“养牛人”
目前,KunLun AI Space早已不是实验室里的产品,而是大模型实战中牛气冲天的“小战神”。
1、落地200+项目,覆盖互联网、运营商、金融、政企等头部客户;
2、解决500+大模型生态适配问题;
3、模型推理性能提升50%,token成本大幅下降。
这些成绩意味着:客户花出去的每一分钱,都能换回更高的算力价值。
所以KunLun能拿下篇头那个2000万+的大单,就不足为奇了。
![]()
有人问,牛归牛,但KunLun这名字看着挺生的,怕不是个新公司吧?
嘿嘿,这个成立3年的新公司,却有着20年的老道行。
昆仑技术,2022年10月正式成立,核心团队来自原鲲鹏+昇腾体系,是最懂国产算力生态的那拨人…
如今,这些最强“养牛人”,依托通用和AI计算领域的技术积累、实战经验、服务体系,正在刮起一波大模型时代的“牛旋风”!
![]()
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.