网易首页 > 网易号 > 正文 申请入驻

业界首个!超A 100

0
分享至

近日,记忆张量联合商汤大装置宣布,在国产GPGPU上率先跑通业内首个以“记忆—计算—调度”一体化为核心的PD分离商用推理集群。在真实C端负载下实现了单卡并发效率提升20%、吞吐提升75%,综合推理性价比达到同代NVIDIA A100的150%。这一成果标志着国产算力体系在大模型商业化路径上首次具备“体系级”竞争力,为高性能模型的大规模落地打开了全新的降本增效空间。



结构共振
让 PD 分离从优化技巧走向推理范式

记忆张量旗下核心产品MemOS作为业内唯一一家以记忆为中心,覆盖从底层推理、到记忆模型,再到应用工程进行系统设计的记忆基础设施,将大模型的认知结构划分为三类记忆,并形成了一条跨时间尺度的调度链路,可以进行精细的决策:哪些计算应该前移到Prefill,哪些必须留在Decode,以及任务的保留、降级或淘汰等。

显然,MemOS更适合和PD分离进行结合——它拥有一整套可以“决定如何用这条通道”的调度逻辑,从而把PD分离原本有限的收益空间尽可能压榨到极致。

在本次联合方案中,商汤大装置提供了让MemOS 三层记忆结构拥有物理载体的顶层系统级基础设施。依托商汤大装置IaaS的高效算力池、智能算力调度等为模型推理提供稳定的基础设施支撑;并借助Ignite框架提供多后端推理适配、KV Cache管理优化、关键算子加速、跨节点通信调优等性能增强,形成体系化的推理优化链路;同时,商汤万象MaaS平台的统一调度策略确保Prefill与Decode服务在高并发场景下始终稳定运行。

在商汤大装置的某国产GPGPU集群上,MemOS的记忆结构被映射成了非常清晰的物理分工



P域(Prefill Domain)变成真正的“记忆工厂”,集中承载影子上下文的预测与KV Cache的批量预生成,在P域以高并行、高利用率的方式运行;

D域(Decode Domain)则被打造为纯粹的“实时交互前台”,专注处理真实用户请求的解码过程,在保持超低TTFT的前提下,承担起R1这一类大模型在C端场景的连续输出与稳定响应;

跨节点KV Cache则通过高带宽互联与零拷路径实现“即产即用”,MemOS的激活记忆机制与商汤大装置在某国产GPGPU上打磨出的通信能力形成天然互补,使Prefill产生的KV Cache不再成为传输瓶颈,而是以极低开销进入D域的解码流程中。

这次合作是一次体系级的结构共振:PD分离为MemOS打开了一条真正意义上的高速算力通道,而MemOS则为PD分离提供了精细到记忆单元级别的调度逻辑和业务上下文,基于此,PD分离第一次从一个工程团队内部的“性能小技巧”,变成一套可以被完整描述、完整度量、并在生产环境中长期运行的新推理范式

综合推理性价比
达到同代NVIDIA A100的150%左右

在严格的生产级评测口径下——包括2k输入、1k输出、TTFT<2s 的SLA约束、72小时以上稳态运行、统一的限流与负载生成策略——记忆张量与商汤大装置联合打造的国产GPGPU集群交出了这样一张答卷:

集群整体吞吐量提升超过75%,从Naive部署下的107.85 tokens/s提升到189.23 tokens/s,Prefill与Decode真正做到了算/存解耦;

单卡并发能力提升约20%,从25.00并发/卡提升至29.42并发/卡,高峰期排队与溢出的风险明显降低;

● 并且,得益于 Prefill 全量前移和 D 域职责的单一化,TTFT全程稳定小于2秒KV Cache在热门场景中的命中率提升70%+,这使得需要高频、多轮交互的C端应用,具备了极高的预计算复用率,推理成本被进一步摊薄。

在统一财务与技术口径下,综合推理性价比达到同代NVIDIA A100的150%左右,在严格SLA与相同负载结构下,某国产GPGPU在这一套“记忆原生×PD分离×业务调度”的框架中,第一次实现了对A100的体系级正面超越。

打造记忆原生时代的
国产AI基础设施新范式

未来,记忆张量与商汤将在这一范式之上继续深化合作:

● 一方面,围绕更大规模的国产GPGPU集群,构建真正意义上的记忆驱动流水线推理底座,让“影子上下文—激活记忆—PD分离—多级缓存—AIOps”成为一套可观测、可回滚、可演进的基础设施能力;

● 另一方面,在Prefill行为预测自治化、多级激活记忆管理、跨任务长时记忆一致性、面向Agent的轨迹记忆等方向上持续打磨,让这套范式更能承载未来的伴随式AI、具身智能体以及更复杂的长周期任务编排

从更长远的视角看,这次联合实践带来的最大改变是:国产算力体系第一次拥有了另一条面向未来智能形态的可能“结构性路线”:从参数计算走向记忆计算,从静态推理走向动态流水线,从模型中心走向记忆中心。未来,国产GPGPU不再只是“跟上来”的参与者,而完全有机会成为下一代推理范式的定义者之一。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
王腾换iPhone 17了 从红米换成苹果手机

王腾换iPhone 17了 从红米换成苹果手机

快科技
2026-02-20 15:48:07
女单签位公布!国乒首轮阻击桥本帆乃香,王曼昱有望再战张本美和

女单签位公布!国乒首轮阻击桥本帆乃香,王曼昱有望再战张本美和

全言作品
2026-02-20 19:05:47
黄海上空激烈对峙!解放军霸气亮剑,美军数十架F-16战机匆忙而逃

黄海上空激烈对峙!解放军霸气亮剑,美军数十架F-16战机匆忙而逃

钦点历史
2026-02-20 19:58:16
老鹰官宣:北京新外援麦基包揽得分+篮板+盖帽王 当选队内MVP

老鹰官宣:北京新外援麦基包揽得分+篮板+盖帽王 当选队内MVP

醉卧浮生
2026-02-20 20:47:11
我国大学“临床医学”专业排名!第1名既不是985、也不是211

我国大学“临床医学”专业排名!第1名既不是985、也不是211

Delete丨CC
2025-12-29 15:57:53
一家三口春节返乡途中突生变故:车辆抛锚,患病儿子离世……之后的事太暖心

一家三口春节返乡途中突生变故:车辆抛锚,患病儿子离世……之后的事太暖心

台州交通广播
2026-02-20 12:14:08
“妈,我想死你了!”河南小伙离家出走1年,母亲在短视频刷到其在南京一菜场附近出现

“妈,我想死你了!”河南小伙离家出走1年,母亲在短视频刷到其在南京一菜场附近出现

都市快报橙柿互动
2026-02-20 14:07:47
王心迪:帮徐梦桃圆梦!她期待变成奥运冠军夫妇,我在家里排老二

王心迪:帮徐梦桃圆梦!她期待变成奥运冠军夫妇,我在家里排老二

奥拜尔
2026-02-20 22:33:11
装都不装了?消费完丈夫的傅首尔再曝猛料,“狼子野心”藏不住了

装都不装了?消费完丈夫的傅首尔再曝猛料,“狼子野心”藏不住了

一娱三分地
2026-02-20 23:31:22
柬埔寨向26国通报

柬埔寨向26国通报

澎湃新闻
2026-02-21 02:12:47
98年我在南京和一女同事搭伙了5年,20年后回去发现她一直没嫁人

98年我在南京和一女同事搭伙了5年,20年后回去发现她一直没嫁人

千秋历史
2026-02-11 22:06:51
50万想在妈祖面前走后门?连掷六次笑杯,这场 硬插队终被上一课

50万想在妈祖面前走后门?连掷六次笑杯,这场 硬插队终被上一课

一盅情怀
2026-02-19 18:38:36
队内赛季报销第三人,记者:国王德安德烈-亨特将接受眼部手术

队内赛季报销第三人,记者:国王德安德烈-亨特将接受眼部手术

懂球帝
2026-02-21 08:14:06
10年前,那个嫁给知名主持的豪门千金李白,现如今的她过得怎样

10年前,那个嫁给知名主持的豪门千金李白,现如今的她过得怎样

查尔菲的笔记
2026-01-03 21:27:19
高市挑衅再敲警钟!中国史上最大误判之一就是:总习惯性低估日本

高市挑衅再敲警钟!中国史上最大误判之一就是:总习惯性低估日本

不似少年游
2026-02-20 07:22:48
荒唐!美媒抹黑中国:刘美贤遭监视FBI出动 刘爸:美国是人间天堂

荒唐!美媒抹黑中国:刘美贤遭监视FBI出动 刘爸:美国是人间天堂

念洲
2026-02-20 12:35:33
一个代孕华裔女孩,争议中成长为奥运冠军

一个代孕华裔女孩,争议中成长为奥运冠军

家传编辑部
2026-02-20 19:57:21
80年代起,从仇视到大规模"援华"背后,日本人究竟有什么图谋?

80年代起,从仇视到大规模"援华"背后,日本人究竟有什么图谋?

棠棣说史
2026-02-20 07:20:03
主场首秀38分!快船新援一战封神,2换5交易,快船真的不亏啊

主场首秀38分!快船新援一战封神,2换5交易,快船真的不亏啊

球童无忌
2026-02-20 23:32:49
统治百年却同化失败?俄远东多地加速汉化,为何非华夏文明不可!

统治百年却同化失败?俄远东多地加速汉化,为何非华夏文明不可!

残梦重生来
2026-02-19 07:57:05
2026-02-21 09:07:00
数据猿DataYuan incentive-icons
数据猿DataYuan
数据智能产业创新服务媒体
2641文章数 603关注度
往期回顾 全部

科技要闻

莫迪举手欢呼 两大AI掌门人却握拳尴尬对峙

头条要闻

被问征收的约1750亿美元关税是否需要退还 特朗普表态

头条要闻

被问征收的约1750亿美元关税是否需要退还 特朗普表态

体育要闻

金牌夫妻!王心迪徐梦桃赛后拥抱太甜了

娱乐要闻

镖人反超惊蛰无声拿下单日票房第二!

财经要闻

特朗普全球关税被推翻!有何影响?

汽车要闻

比亚迪的“颜值担当”来了 方程豹首款轿车路跑信息曝光

态度原创

艺术
家居
手机
教育
数码

艺术要闻

这幅草书让亲戚大吃一惊:书法入门真的要从楷书开始吗?

家居要闻

本真栖居 爱暖伴流年

手机要闻

谷歌Gemini 3.1 Pro发布,更智能

教育要闻

为什么说要学好英语

数码要闻

苹果macOS 26.3代码曝光平价MacBook和新显示器

无障碍浏览 进入关怀版