最近大模型圈有个挺实在的消息记忆张量和商汤大装置联手搞出了个国产GPGPU推理集群,据说直接把商用化的坎儿给迈过去了。
这事儿听起来挺技术,但说白了,就是咱们自己的算力设备,终于能稳稳当当地处理大模型业务了,不再是实验室里的数据好看。
大模型这东西火了挺久,但真想赚钱落地,有俩头疼事儿绕不开,一是算力成本太高,随便跑个复杂任务,服务器电费都能让人肉疼。
二是性能跟不上,用户等着回答呢,模型半天算不出来,体验感直接拉胯。
![]()
这俩问题不解决,大模型就只能是“看着美”的技术,落不了地,以前行业里想解决这些问题,大多从硬件下手,搞所谓的PD分离技术。
简单说就是把计算和存储分开优化,让硬件跑得快点再快点。
但光折腾硬件总有个头,就像给汽车换再好的发动机,路不行也跑不快,这就是硬件优化的天花板,除了硬件,还有个容易被忽略的点记忆。
咱们用大模型的时候,比如跟AI聊天,前面说过啥它得记住吧?这就是记忆因素,用户体验好不好,成本能不能降,很大程度上就看这记忆系统给不给力。
![]()
C端场景尤其明显,谁也不想聊两句就得重新解释一遍背景,正是这些麻烦事儿,让记忆张量和商汤大装置决定联手干点实事儿。
他们拉上了算丰信息,三家凑一块儿,目标很明确,搞一个带完整业务语境的R1满血推理集群。
啥叫R1满血?就是能扛住真实业务压力,不是那种实验室里“仅供参考”的demo,这三家分工还挺清楚。
记忆张量负责搞MemOS记忆基础设施,简单说就是管“记住事儿”的系统。
![]()
商汤大装置搭顶层框架,比如算力池、Ignite框架、万象MaaS平台,这些是给整个集群搭骨架的。
算丰信息则管最底层的算力资源,比如GPGPU计算卡、存储和网络服务,保证机器能稳定干活。
他们用了12台机器,每台都是4P8D架构的国产GPGPU,搭了个商用集群。
别小看这12台机器,测试的时候要求可不低,输入2000字、输出1000字的任务,响应时间得控制在2秒以内,还得连续跑72小时不出岔子。
![]()
这可不是闹着玩的,生产环境就得这么严格,测试结果出来,连行业里的老人都觉得有点意外。
单卡并发效率比以前提高了不少,整体能处理的任务量多了将近一倍,最关键的是性价比比同代的NVIDIAA100还高出一半。
以前提到国产算力,大家可能觉得“能用”就不错了,真要扛大旗还得看国外的卡。
但这次不一样,实打实跑了72小时稳定运行,这可不是实验室里的数据好看。
以前咱们的算力设备,要么性能跟不上,要么成本下不来,商用化总差一口气,这次12台集群能扛住严格的SLA约束,说明国产算力真能挑大梁了。
PD分离技术以前总在硬件层面折腾,优化空间越来越小,这次三家联手,把PD分离和记忆系统深度绑在了一起,相当于给老技术换了个脑子。
不再是简单的硬件调优,而是从业务语境出发,让算力调度更聪明,算丰信息的底层支撑也得提一嘴。
![]()
GPGPU计算资源的管理、存储读写的速度、网络服务的稳定性,这些看不见的地方做好了,上面的应用才能跑得顺,就像盖房子,地基打不牢,楼再漂亮也白搭。
光说成果还不够,得说说这背后到底用了什么新招,记忆张量搞的MemOS记忆基础设施,思路跟以前不一样。
传统推理框架都围着计算转,MemOS偏偏把记忆当成核心,从底层推理到记忆模型,再到应用工程,全链路都考虑“怎么记住事儿”。
![]()
MemOS把记忆分成了三类,参数记忆、激活记忆、明文记忆,参数记忆管模型的基础数据,激活记忆管推理时临时生成的中间状态,明文记忆则存用户聊天记录之类的上下文。
这三类记忆协同工作,就像人的大脑分了短期记忆、长期记忆,各司其职又互相配合。
还有个跨时间尺度的调度链路,挺有意思,简单说,就是让计算任务该往前放的往前放,该留着的留着。
比如Prefill任务(预处理输入)往前挪,Decode任务(生成输出)适当留存,再加上任务的保留、降级、淘汰机制,整个系统运行效率一下子就上去了。
![]()
传统PD分离技术为啥老碰壁?主要是没考虑业务上下文,调度逻辑死板,性能提升看着热闹,实际用起来效果一般。
MemOS给PD分离加了“脑子”,能从记忆单元层面做精细调度,还能根据业务语境判断怎么调度收益最大。
不再是简单的“通道”优化,而是成了有策略的“指挥官”,商汤大装置的顶层框架在这儿也起了关键作用。
IaaS算力池给MemOS的记忆结构提供了物理载体,Ignite框架让不同后端的推理都能适配,万象MaaS平台则把Prefill和Decode服务捏到一块儿调度。
![]()
软硬件这么一配合,效果自然就出来了,这次联合实践,说它是国产算力的体系级跨越真不为过。
以前咱们谈国产算力,总绕不开“追赶”两个字,跟着国外的技术路线跑,现在不一样了,从记忆中心架构到PD分离的策略化升级,咱们开始有了自己的技术话语体系。
大模型商业化落地,成本和体验是两座大山,MemOS和商汤大装置的这套组合拳,相当于给这两座山开了条新路。
单卡效率高了,整体吞吐上去了,性价比还好,企业用起来成本就能降不少,用户体验也跟着提升,毕竟模型“记性”好了,聊天、问答自然更顺畅。
![]()
未来的路还长,记忆计算肯定会成大模型技术的核心方向,怎么让记忆模型更精细、调度策略更聪明,还得接着琢磨。
国产生态也得继续深化“记忆-计算-调度”一体化创新,别再走“通用加速器+通用框架”的老路,得走出自己的特色。
总的来说,记忆张量和商汤大装置这波操作,不光是技术上的突破,更是给国产算力提了气。
从“能用”到“好用”,看着只是两个字的差别,背后是无数工程师啃硬骨头的结果,说不定过不了多久,国产GPGPU真能在下一代推理范式里,当上规则制定者。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.