网易首页 > 网易号 > 正文 申请入驻

千万级大模型项目,惊现“奇怪”采购

0
分享至

最近,我们刷到一个千万级大模型大单↓

一套AI计算集群,中标价2000多万。

猛一看,采购的是AI服务器,这不奇怪,当下AI服务器就是很抢手,大单频出。



可细一看,很多吃瓜人士就开始好奇——

“除了服务器,这里面的KunLun AI Space,是个啥玩意?”

此时,懂行的老司机发话了:嘿嘿,这其实是MaaS!



什么是MaaS,为啥MaaS能卖这么贵?

先讲个真实现状吧:

上半年,你不搞大模型,客户会觉得你Out了,项目都懒得跟你谈。

下半年,你搞大模型没MaaS,客户就会觉得你不是真正搞大模型的,还是懒得跟你谈。





为啥呢?

因为现在开源大模型那么多,你想获得一个大模型其实没啥难度,甚至客户自己都能搞定。



可是,你想真的把大模型优化好、部署好、用好,得到更高的推理效率,更好地适配业务,就没那么简单了。

所以,你就会发现,很多客户虽然有了大模型,却只能“供着”。



要想把大模型真正用起来,就离不开MaaS。

MaaS,就是大模型服务平台(Model as a Service),向下对接算、存、网等AI硬件基础设施,向上对接AI应用开发。

MaaS就像AI时代的奶牛,吃的是草(算力),挤出来的是奶(tokens)。



企业要想用好大模型,对这头奶牛要求可不低↓

第一,客户买了这头“奶牛”,希望它在吃相同草料的情况下(算力),能更快更多的产奶(tokens)。



此时,就需要考量TPOT、TTFT、并发、极限吞吐这些推理性能指标。

但实际上,市面上“奶牛”良莠不齐,能力差别很大,很多“产奶”指标都是测试理想值。



第二,客户还希望这头奶牛好饲养,国产草料、进口草料都能吃,还有配套的饲养员、兽医。

比如,有的牛特别挑食,只偏爱某一两种草料(算力),换了草料就不干活。



再比如,牛有头疼脑热或者水土不服(故障、bug或者部署、适配优化问题),客户就希望厂家能提供兽医或者饲养员团队帮忙(原厂优化适配专家)。



第三,客户需要的不止是鲜奶(Tokens),他们的最终目标是把奶变成各种可口的食物(AI应用)。

光有牛还不够,还要有配套的奶制品生产线,也就是AI应用开发和智能体开发平台。



产奶效率高、不挑草料、有资深饲养员和兽医提供服务,还提供配套的奶产品加工生产需求。

一番盘点下来,这样的“超能牛”可不太好找。



嘿嘿,众里寻“牛”千百度,踏破铁鞋无觅处。

蓦然回首,你会发现,中标公告里的KunLun AI Space,原来就是那头“超能牛”。



KunLun AI Space这头“牛”到底有多牛?

第一牛,吃更少的“草料”,却能更快更多“产奶”。

不仅省饲料,产奶效率还奇高,这样的牛谁不爱呢?



凭啥有这种效率?一句话,软硬协同!

KunLun AI Space实现了从“算力卡”到“Token输出”端到端软硬协同优化。

也就是说,从饲料投喂(算力池化调度)、进食阶段(算子加速)、消化阶段(模型适配)、产奶阶段(推理加速),每个环节,都进行了优化。



KunLun为什么要这么干?

只因要想达到最优的“产奶”效率,必须解决四大难题:计算效率、访存效率、存储效率和通信效率

这四大难题,如同四道“叹息之墙”,很多牛人第一道墙都过不了。



而KunLun AI Space正是通过端到端的软硬协同优化,成功突破了这四道墙,把性能拉满,最终实现最佳推理效率。



具体怎么破,我来给大家讲讲↓

①算子优化:通过算子融合、算子定制开发、软FP4/FP8等手段,提升计算、访存和通信效率。

算子,是深度学习里的“动作单元”,正是依靠一个个算子的高效“动作”,才组合成流畅高效的推理流程,算子级的优化是性能提升的关键。



KunLun AI Space通过算子融合,将多个独立“小算子”融合一个“大算子”,功能等价但性能更优。

好比将多个步骤的动作,合成一个大动作,达到同样目的,但是更省劲。



同时,针对当下大量模型采用FP8甚至FP4的推理精度,而市面上很多算力卡却不支持该精度的问题,KunLun AI Space提供软FP8/FP4方案。

采用该方案,资源门槛下降50%,性能可提升10%(比如跑满血大模型,原来需要32张卡,现在只需要16张)。



②KV Cache优化:通过KV Cache压缩、分级卸载等手段,节省存储和计算开销,并提升长下文处理能力和并发性能。

KV Cache相当于大模型推理里的记忆缓存机制,用于存放之前算过的「注意力特征」。

参考理解一下牛的「反刍」,你就秒懂了,都是已经嚼过(算过)的东西。



具体怎么优化呢?学问很大!

首先,采用KV Cache多级缓存池,相似或重复问题直接从缓存读取,减少重复计算,降低GPU和显存消耗。

同时,通过内存和SSD分级存储,降低缓存成本。



接下来,采用高性能压缩算法和硬件,对KV Cache进行压缩,并提供智能冷热数据分级,把存储成本打下来。

通过这一系列操作,以存促算,多轮对话TTFT降低80%,KV Cache存储空间(显存+内存+SSD)降低一半以上。



③推理调度优化:采用异构PD分离、智能路由等技术提升计算效率,并使用统一存储来平衡PD阶段的资源利用率、延迟,提升吞吐。

现在大家都知道通过PD分离部署来避免资源争抢、提升推理效率,但是面对不同的推理场景、不同算力卡资源,如何优化PD配比,其实很有学问。



KunLun AI Space有自己一套逻辑↓

采用混合/半分离设计,PD计算过程分开,但统一存储,与KV Cache分级缓存相结合,实现跨节点共享数据。

同时利用智能路由策略,灵活分配负载,且P实例可以弹性伸缩,满足突发请求。



通过这番操作,又可以让首Token时延降低45%,吞吐量提升25%。

从算子优化到KV Cache优化再到推理调度优化,KunLun AI Space实现了通信效率、存储效率、访存效率、计算效率的集体提升。

最终这一系列的乘积也把推理效率彻底拉满!



第二牛,这牛胃口好、不挑食,而且配备优秀的“养牛专家”提供服务。

大模型落地到企业场景,遇到五花八门的“草料”(算力)是不可避免的。

此时选KunLun AI Space就太省心了,国产草料、进口草料来者不拒。



不止如此,KunLun还配备了资深“养牛专家”提供服务,他们专治各种水土不服的“牛脾气”。

算、存、网、集群、整体优化,哪里不服治哪里,针对客户特殊场景,还可以做定制化的算子开发,这没点软硬协同的本领可做不到。





第三牛,AI Space不止是MaaS,还包含了应用使能模块。

KunLun AI Space其实包含两大部分↓

第一部分叫做「AI Space Wings」,这个是MaaS(也就是牛),另一部分叫做「AI Space Prime」,属于应用使能模块(相当于奶制品加工厂)。



道理很简单,用大模型做推理,生产再多Tokens也没用,核心是要把他们变成AI应用,就像把鲜奶变成美味奶制品,形成落地闭环。

AI Space Prime提供了MCP、Agent编排/提示词工程/插件管理、RAG等一系列“生产线”,帮助客户把Tokens快速变成生产力工具。



KunLun AI Space的成绩单,和它背后的“养牛人”

目前,KunLun AI Space早已不是实验室里的产品,而是大模型实战中牛气冲天的“小战神”。

1、落地200+项目,覆盖互联网、运营商、金融、政企等头部客户;
2、解决500+大模型生态适配问题;
3、模型推理性能提升50%,token成本大幅下降。

这些成绩意味着:客户花出去的每一分钱,都能换回更高的算力价值。

所以KunLun能拿下篇头那个2000万+的大单,就不足为奇了。



有人问,牛归牛,但KunLun这名字看着挺生的,怕不是个新公司吧?

嘿嘿,这个成立3年的新公司,却有着20年的老道行。

昆仑技术,2022年10月正式成立,核心团队来自原鲲鹏+昇腾体系,是最懂国产算力生态的那拨人…

如今,这些最强“养牛人”,依托通用和AI计算领域的技术积累、实战经验、服务体系,正在刮起一波大模型时代的“牛旋风”!



特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
特大消息!“国家队”最新持仓被曝光!不出意外,明天A股这样走

特大消息!“国家队”最新持仓被曝光!不出意外,明天A股这样走

虎哥闲聊
2025-11-02 12:00:53
猛料越扒越有!释永信在少林寺有多过分,可能远超世人的想象

猛料越扒越有!释永信在少林寺有多过分,可能远超世人的想象

天行舰
2025-08-21 00:00:06
面子里子都丢了!离婚半月前妻爆料调解细节,撕下猴哥仅剩的体面

面子里子都丢了!离婚半月前妻爆料调解细节,撕下猴哥仅剩的体面

千言娱乐记
2025-10-23 21:21:23
新毒株来袭!戴口罩!戴口罩!戴口罩!

新毒株来袭!戴口罩!戴口罩!戴口罩!

青城之窗
2025-10-31 11:18:54
国乒没悬念了?李隼:谁夺全运会女单冠军有规律!去年已浮出水面

国乒没悬念了?李隼:谁夺全运会女单冠军有规律!去年已浮出水面

三十年莱斯特城球迷
2025-11-02 21:08:02
大动作:英伟达将在韩国部署26万枚GPU!为什么黄仁勋押注韩国?

大动作:英伟达将在韩国部署26万枚GPU!为什么黄仁勋押注韩国?

王爷说图表
2025-10-31 17:02:15
申裕斌爆冷出局,WTT女单决赛对决王艺迪,黑马崛起引关注

申裕斌爆冷出局,WTT女单决赛对决王艺迪,黑马崛起引关注

眼底星碎
2025-11-02 23:09:37
“前央视主持复出任爱奇艺总裁,56岁新挑战”

“前央视主持复出任爱奇艺总裁,56岁新挑战”

君笙的拂兮
2025-11-02 23:33:12
这些行为都是上了年纪的症状!网友:以为我变健康了,原来是老了

这些行为都是上了年纪的症状!网友:以为我变健康了,原来是老了

墙头草
2025-11-02 11:03:46
吉林女子驾车不慎撞死一头黑熊,交警称驾驶员没事且不涉及处罚,律师:意外撞死野生保护动物无需担责

吉林女子驾车不慎撞死一头黑熊,交警称驾驶员没事且不涉及处罚,律师:意外撞死野生保护动物无需担责

极目新闻
2025-11-02 13:51:27
已确认!新毒株来了!普遍易感染

已确认!新毒株来了!普遍易感染

北仑发布
2025-10-31 18:12:36
乒乓球法国冠军赛-7局夺冠巾帼孤胆英雄,王艺迪艰难战胜德国名将

乒乓球法国冠军赛-7局夺冠巾帼孤胆英雄,王艺迪艰难战胜德国名将

越岭寻踪
2025-11-03 00:17:47
3-0,34岁曼联旧将维尔贝克利剑出鞘,率队反超利物浦升至第8

3-0,34岁曼联旧将维尔贝克利剑出鞘,率队反超利物浦升至第8

凌空倒钩
2025-11-02 01:41:34
特朗普光环下的选战!奥巴马出山救场,两州州长宝座争夺白热化

特朗普光环下的选战!奥巴马出山救场,两州州长宝座争夺白热化

史虇的生活科普
2025-11-02 00:55:15
央视曝光!日用品查出神经毒素,检出超90%,很多人现在还在用

央视曝光!日用品查出神经毒素,检出超90%,很多人现在还在用

温辞韫
2025-11-02 14:52:41
“死对头”终于倒了!特朗普高兴坏了,“矛头”对准下一个目标

“死对头”终于倒了!特朗普高兴坏了,“矛头”对准下一个目标

花花娱界
2025-11-02 17:55:34
为治老伴痛风,老人在展会买了一袋中药粉,女儿回来一看直呼天价!

为治老伴痛风,老人在展会买了一袋中药粉,女儿回来一看直呼天价!

极目新闻
2025-11-02 16:22:44
赖清德当局会逮捕郑丽文吗?吴子嘉:郑丽文有可能被台当局抓起来

赖清德当局会逮捕郑丽文吗?吴子嘉:郑丽文有可能被台当局抓起来

达文西看世界
2025-11-01 18:33:15
中俄东北虎数量差距断崖:俄罗斯700只,中国的数量令人意外!

中俄东北虎数量差距断崖:俄罗斯700只,中国的数量令人意外!

历来纵横
2025-10-31 16:08:09
医生聊完都想去看心理医生:有些母亲的杀伤力,远超想象

医生聊完都想去看心理医生:有些母亲的杀伤力,远超想象

柚妈充电屋
2025-11-01 17:59:04
2025-11-03 01:28:49
AI全球总部
AI全球总部
全球最新、最酷AI解决方案
1068文章数 715关注度
往期回顾 全部

科技要闻

10月零跑突破7万辆,小鹏、蔚来超4万辆

头条要闻

和章泽天出席会议被抓拍 刘强东发文调侃称"没了自信"

头条要闻

和章泽天出席会议被抓拍 刘强东发文调侃称"没了自信"

体育要闻

这个日本人,凭啥值3.25亿美元?

娱乐要闻

陈道明被王家卫说他是阴阳同体的极品

财经要闻

段永平捐了1500万元茅台股票!本人回应

汽车要闻

神龙汽车推出“发动机终身质保”政策

态度原创

健康
数码
教育
艺术
军事航空

核磁VS肌骨超声,谁更胜一筹?

数码要闻

麒麟9030处理器突然曝光:1+4+4六核狂飙,可惜工艺不详!

教育要闻

英国QS前百学校发Offer的态度!

艺术要闻

陈丹青 无论画风与文风,都具有一种优雅而朴素,睿智而率真的气质

军事要闻

俄在日本海演习击沉假想敌潜艇

无障碍浏览 进入关怀版