网易首页 > 网易号 > 正文 申请入驻

千万级大模型项目,惊现“奇怪”采购

0
分享至

最近,我们刷到一个千万级大模型大单↓

一套AI计算集群,中标价2000多万。

猛一看,采购的是AI服务器,这不奇怪,当下AI服务器就是很抢手,大单频出。



可细一看,很多吃瓜人士就开始好奇——

“除了服务器,这里面的KunLun AI Space,是个啥玩意?”

此时,懂行的老司机发话了:嘿嘿,这其实是MaaS!



什么是MaaS,为啥MaaS能卖这么贵?

先讲个真实现状吧:

上半年,你不搞大模型,客户会觉得你Out了,项目都懒得跟你谈。

下半年,你搞大模型没MaaS,客户就会觉得你不是真正搞大模型的,还是懒得跟你谈。





为啥呢?

因为现在开源大模型那么多,你想获得一个大模型其实没啥难度,甚至客户自己都能搞定。



可是,你想真的把大模型优化好、部署好、用好,得到更高的推理效率,更好地适配业务,就没那么简单了。

所以,你就会发现,很多客户虽然有了大模型,却只能“供着”。



要想把大模型真正用起来,就离不开MaaS。

MaaS,就是大模型服务平台(Model as a Service),向下对接算、存、网等AI硬件基础设施,向上对接AI应用开发。

MaaS就像AI时代的奶牛,吃的是草(算力),挤出来的是奶(tokens)。



企业要想用好大模型,对这头奶牛要求可不低↓

第一,客户买了这头“奶牛”,希望它在吃相同草料的情况下(算力),能更快更多的产奶(tokens)。



此时,就需要考量TPOT、TTFT、并发、极限吞吐这些推理性能指标。

但实际上,市面上“奶牛”良莠不齐,能力差别很大,很多“产奶”指标都是测试理想值。



第二,客户还希望这头奶牛好饲养,国产草料、进口草料都能吃,还有配套的饲养员、兽医。

比如,有的牛特别挑食,只偏爱某一两种草料(算力),换了草料就不干活。



再比如,牛有头疼脑热或者水土不服(故障、bug或者部署、适配优化问题),客户就希望厂家能提供兽医或者饲养员团队帮忙(原厂优化适配专家)。



第三,客户需要的不止是鲜奶(Tokens),他们的最终目标是把奶变成各种可口的食物(AI应用)。

光有牛还不够,还要有配套的奶制品生产线,也就是AI应用开发和智能体开发平台。



产奶效率高、不挑草料、有资深饲养员和兽医提供服务,还提供配套的奶产品加工生产需求。

一番盘点下来,这样的“超能牛”可不太好找。



嘿嘿,众里寻“牛”千百度,踏破铁鞋无觅处。

蓦然回首,你会发现,中标公告里的KunLun AI Space,原来就是那头“超能牛”。



KunLun AI Space这头“牛”到底有多牛?

第一牛,吃更少的“草料”,却能更快更多“产奶”。

不仅省饲料,产奶效率还奇高,这样的牛谁不爱呢?



凭啥有这种效率?一句话,软硬协同!

KunLun AI Space实现了从“算力卡”到“Token输出”端到端软硬协同优化。

也就是说,从饲料投喂(算力池化调度)、进食阶段(算子加速)、消化阶段(模型适配)、产奶阶段(推理加速),每个环节,都进行了优化。



KunLun为什么要这么干?

只因要想达到最优的“产奶”效率,必须解决四大难题:计算效率、访存效率、存储效率和通信效率

这四大难题,如同四道“叹息之墙”,很多牛人第一道墙都过不了。



而KunLun AI Space正是通过端到端的软硬协同优化,成功突破了这四道墙,把性能拉满,最终实现最佳推理效率。



具体怎么破,我来给大家讲讲↓

①算子优化:通过算子融合、算子定制开发、软FP4/FP8等手段,提升计算、访存和通信效率。

算子,是深度学习里的“动作单元”,正是依靠一个个算子的高效“动作”,才组合成流畅高效的推理流程,算子级的优化是性能提升的关键。



KunLun AI Space通过算子融合,将多个独立“小算子”融合一个“大算子”,功能等价但性能更优。

好比将多个步骤的动作,合成一个大动作,达到同样目的,但是更省劲。



同时,针对当下大量模型采用FP8甚至FP4的推理精度,而市面上很多算力卡却不支持该精度的问题,KunLun AI Space提供软FP8/FP4方案。

采用该方案,资源门槛下降50%,性能可提升10%(比如跑满血大模型,原来需要32张卡,现在只需要16张)。



②KV Cache优化:通过KV Cache压缩、分级卸载等手段,节省存储和计算开销,并提升长下文处理能力和并发性能。

KV Cache相当于大模型推理里的记忆缓存机制,用于存放之前算过的「注意力特征」。

参考理解一下牛的「反刍」,你就秒懂了,都是已经嚼过(算过)的东西。



具体怎么优化呢?学问很大!

首先,采用KV Cache多级缓存池,相似或重复问题直接从缓存读取,减少重复计算,降低GPU和显存消耗。

同时,通过内存和SSD分级存储,降低缓存成本。



接下来,采用高性能压缩算法和硬件,对KV Cache进行压缩,并提供智能冷热数据分级,把存储成本打下来。

通过这一系列操作,以存促算,多轮对话TTFT降低80%,KV Cache存储空间(显存+内存+SSD)降低一半以上。



③推理调度优化:采用异构PD分离、智能路由等技术提升计算效率,并使用统一存储来平衡PD阶段的资源利用率、延迟,提升吞吐。

现在大家都知道通过PD分离部署来避免资源争抢、提升推理效率,但是面对不同的推理场景、不同算力卡资源,如何优化PD配比,其实很有学问。



KunLun AI Space有自己一套逻辑↓

采用混合/半分离设计,PD计算过程分开,但统一存储,与KV Cache分级缓存相结合,实现跨节点共享数据。

同时利用智能路由策略,灵活分配负载,且P实例可以弹性伸缩,满足突发请求。



通过这番操作,又可以让首Token时延降低45%,吞吐量提升25%。

从算子优化到KV Cache优化再到推理调度优化,KunLun AI Space实现了通信效率、存储效率、访存效率、计算效率的集体提升。

最终这一系列的乘积也把推理效率彻底拉满!



第二牛,这牛胃口好、不挑食,而且配备优秀的“养牛专家”提供服务。

大模型落地到企业场景,遇到五花八门的“草料”(算力)是不可避免的。

此时选KunLun AI Space就太省心了,国产草料、进口草料来者不拒。



不止如此,KunLun还配备了资深“养牛专家”提供服务,他们专治各种水土不服的“牛脾气”。

算、存、网、集群、整体优化,哪里不服治哪里,针对客户特殊场景,还可以做定制化的算子开发,这没点软硬协同的本领可做不到。





第三牛,AI Space不止是MaaS,还包含了应用使能模块。

KunLun AI Space其实包含两大部分↓

第一部分叫做「AI Space Wings」,这个是MaaS(也就是牛),另一部分叫做「AI Space Prime」,属于应用使能模块(相当于奶制品加工厂)。



道理很简单,用大模型做推理,生产再多Tokens也没用,核心是要把他们变成AI应用,就像把鲜奶变成美味奶制品,形成落地闭环。

AI Space Prime提供了MCP、Agent编排/提示词工程/插件管理、RAG等一系列“生产线”,帮助客户把Tokens快速变成生产力工具。



KunLun AI Space的成绩单,和它背后的“养牛人”

目前,KunLun AI Space早已不是实验室里的产品,而是大模型实战中牛气冲天的“小战神”。

1、落地200+项目,覆盖互联网、运营商、金融、政企等头部客户;
2、解决500+大模型生态适配问题;
3、模型推理性能提升50%,token成本大幅下降。

这些成绩意味着:客户花出去的每一分钱,都能换回更高的算力价值。

所以KunLun能拿下篇头那个2000万+的大单,就不足为奇了。



有人问,牛归牛,但KunLun这名字看着挺生的,怕不是个新公司吧?

嘿嘿,这个成立3年的新公司,却有着20年的老道行。

昆仑技术,2022年10月正式成立,核心团队来自原鲲鹏+昇腾体系,是最懂国产算力生态的那拨人…

如今,这些最强“养牛人”,依托通用和AI计算领域的技术积累、实战经验、服务体系,正在刮起一波大模型时代的“牛旋风”!



特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
美方承认在打击伊朗的行动中使用了“卢卡斯”自杀式无人机,由伊朗的沙赫德-136仿制而来

美方承认在打击伊朗的行动中使用了“卢卡斯”自杀式无人机,由伊朗的沙赫德-136仿制而来

都市快报橙柿互动
2026-03-01 14:13:00
记者:曼城愿5000万出售皇马目标!切尔西年度亏损3.55亿创纪录!

记者:曼城愿5000万出售皇马目标!切尔西年度亏损3.55亿创纪录!

足球侦探
2026-03-02 18:25:22
中国退无可退,美军已选好他们的主战场,正逼着我们跳进战争陷阱

中国退无可退,美军已选好他们的主战场,正逼着我们跳进战争陷阱

南权先生
2026-03-02 15:26:15
3月5日,最顶的电视来了!时代旗舰海信UX2026款定档发布

3月5日,最顶的电视来了!时代旗舰海信UX2026款定档发布

科技小汪
2026-03-02 11:00:49
唐嫣在国外很豪放!穿连体衣下面不系扣,难道不好好穿衣就时髦?

唐嫣在国外很豪放!穿连体衣下面不系扣,难道不好好穿衣就时髦?

蓓小西
2026-01-05 09:12:05
射程2000公里,命中精度约30米,伊朗动用“最强导弹”打击以色列!内塔尼亚胡行踪被曝光,海湾多国传出爆炸声

射程2000公里,命中精度约30米,伊朗动用“最强导弹”打击以色列!内塔尼亚胡行踪被曝光,海湾多国传出爆炸声

每日经济新闻
2026-03-02 18:26:07
在哈梅内伊死后,“俄罗斯国师”发出预警,普京现在恐怕非常危险

在哈梅内伊死后,“俄罗斯国师”发出预警,普京现在恐怕非常危险

凡知
2026-03-03 02:58:14
再年轻也没用!江苏22岁樊宸铄去世,死因曝光,母亲含泪写悼文!

再年轻也没用!江苏22岁樊宸铄去世,死因曝光,母亲含泪写悼文!

米果说识
2026-03-01 17:17:12
美股军工、石油天然气板块大涨,金价冲高回落,白银直线跳水!卡塔尔能源公司宣布暂停生产,欧洲天然气价格暴涨|美股开盘

美股军工、石油天然气板块大涨,金价冲高回落,白银直线跳水!卡塔尔能源公司宣布暂停生产,欧洲天然气价格暴涨|美股开盘

每日经济新闻
2026-03-02 23:32:04
男子约16岁女孩酒店开房,欲发生关系,女方喊疼,男子停动作离开

男子约16岁女孩酒店开房,欲发生关系,女方喊疼,男子停动作离开

百态人间
2025-08-08 16:21:01
大批美国游客涌入中国,回国后坦言:客观对比,中国比美国强多了

大批美国游客涌入中国,回国后坦言:客观对比,中国比美国强多了

通文知史
2026-02-26 22:00:04
iPhone 17e发布:4499元起,e系列首次搭载灵动岛

iPhone 17e发布:4499元起,e系列首次搭载灵动岛

PChome电脑之家
2026-03-02 23:47:30
国产芯片传来喜讯!中国已成功研制出世界上最小、最精密的晶体管

国产芯片传来喜讯!中国已成功研制出世界上最小、最精密的晶体管

纵拥千千晚星
2026-03-01 07:15:15
胡塞武装、黎巴嫩真主党和哈马斯就哈梅内伊遇害发声

胡塞武装、黎巴嫩真主党和哈马斯就哈梅内伊遇害发声

参考消息
2026-03-01 20:06:21
从《生化2》到《生化危机9》 画质进化堪称疯狂

从《生化2》到《生化危机9》 画质进化堪称疯狂

3DM游戏
2026-03-02 22:07:44
美国十大领域全球领跑,差距还在拉大,正视实力才是真清醒!

美国十大领域全球领跑,差距还在拉大,正视实力才是真清醒!

保德全
2026-02-03 19:30:03
“芯片战”输得彻底?日媒:芯片崛起,全球芯片商压力山大

“芯片战”输得彻底?日媒:芯片崛起,全球芯片商压力山大

疯狂小菠萝
2026-03-01 23:15:17
39岁李思思离开央视两年,商演小县城不摆架子

39岁李思思离开央视两年,商演小县城不摆架子

范櫳舍长
2026-03-02 20:28:08
一触即发!双航母就位,美国呼吁所有在伊公民立即离境,特朗普:有时候不得不打! 伊朗同意不拥有“可制造核弹的核材料”,金价油价大涨

一触即发!双航母就位,美国呼吁所有在伊公民立即离境,特朗普:有时候不得不打! 伊朗同意不拥有“可制造核弹的核材料”,金价油价大涨

每日经济新闻
2026-02-28 10:13:55
女婿当众搂腰挽留丈母娘,10天后评论区还在吵:这算亲?还是越界

女婿当众搂腰挽留丈母娘,10天后评论区还在吵:这算亲?还是越界

大熊欢乐坊
2026-02-28 01:40:08
2026-03-03 04:08:49
AI全球总部
AI全球总部
全球最新、最酷AI解决方案
1128文章数 715关注度
往期回顾 全部

科技要闻

苹果中国官网上线iPhone 17e,4499元起

头条要闻

特朗普:对伊朗打击或持续4至5周 已击沉其10艘舰艇

头条要闻

特朗普:对伊朗打击或持续4至5周 已击沉其10艘舰艇

体育要闻

“想要我签名吗” 梅西逆转后嘲讽对手主帅

娱乐要闻

李亚鹏与哥哥和解 只有一条真心话短信

财经要闻

油价飙升 美伊冲突将如何搅动全球经济

汽车要闻

国民SUV再添一员 瑞虎7L静态体验

态度原创

房产
时尚
健康
家居
公开课

房产要闻

方案突然曝光!海口北师大附校,又有书包大盘杀出!

今年春天一定要拥有的4件衣服,太好看了!

转头就晕的耳石症,能开车上班吗?

家居要闻

万物互联 享科技福祉

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版