网易首页 > 网易号 > 正文 申请入驻

国产算力公司「各自为战」,曙光如何打通协作壁垒?

0
分享至

是什么契机,让国内耳熟能详的算力相关公司都济济一堂?

在2025世界智能产业博览会的AI计算开放架构暨新品发布会上,国产算力友商们拥有了某种向心力。而串联起他们的核心纽带,正是中科曙光发布的国内首个AI计算开放架构。

此次发布中,中科曙光协同AI芯片、AI整机、大模型等20多家产业链上下游企业,共同推出AI超集群系统。在开放多项技术能力的同时,也宣布依托国家先进计算产业创新中心,启动 “AI计算开放架构联合实验室” 的建设。

算力厂商们的集体亮相,背后也藏着大家对当前国内算力市场困局的共同焦虑:行业过去“强竞争、弱合作”,导致国内基础设施市场虽然火热,但不同厂商的服务器、存储设备、算力调度平台大多采用专有接口与协议,缺乏统一技术标准,从而难以形成合力,突破瓶颈。

那么,对当下的国内算力生态而言,曙光的这步尝试究竟价值何在?为了推动这场突破,他们又做了哪些准备?

算力产业链环节细分,内部却是“一盘散沙”

在外部生态护城河难以攻克之时,内部算力厂商却仍各自为战、缺乏协同,这是国内算力市场的一大瓶颈。

而这种局面的出现,一大原因是GPU领域内大量不同的品牌、厂商,彼此之间不同的算力密度、互联方式以及生态体系差别,筑起的异构壁垒。

2023年前后,异构问题的解决被越来越多厂商提上日程。然而,目前的尝试并不尽如人意——

在技术上,不同芯片算子库不同,运行时的技术适配差异会增大整合难度;同时,异构的协调需要对GPU性能进行预测及拆分,甚至涉及硬件协调。

在生态上,中科曙光总裁助理、智能计算产品事业部总经理杜夏威向雷峰网介绍,行业已习惯在国际主流生态的框架下运行,现有惯性难以打破;且产业迭代速度极快、技术更新频繁之下,AI各个产业板块发展都很活跃,这导致“齿轮”之间并没有严丝合缝协同。

这些问题没有解决,目前的异构混训就依然会对效率造成莫大牺牲——有业内人士指出,随着AI加速卡数量的增加和不同芯片类型加入,混训的鲁棒性和稳定性都会变差。杜夏威观察到“人们对打破壁垒的未知恐惧普遍存在”,但市场对厂商迈出这一步的需求,已迫在眉睫。

杜夏威指出,云计算时代,客户的起步往往较云计算提供商晚,市场教育周期可能较长;而在AI大模型时代,客户接受度极高,快速增长的海量需求反推数据中心的运营革新,市场正倒逼厂商啃下异构集群统一标准的“硬骨头”。

虽然有观点认为,异构需求只是国产芯片提升性能过程中的过渡性阶段,智算中心最终还是会回归到同构的基础架构;然而,在未来算力市场发展的短期内,异构需求只会有增无减:

一方面,数据中心的国产化比例要求逐渐严格,以前国产卡比例在数据中心内可能只占两成,但今年窗口指导等相关政策颁布后,未来可能有所升高。

另一方面,部分使用先进算力加国产化算力的组合集群的大模型客户,也明确拥有对混训能力的要求。

有见及此,2025智博会上,中科曙光协同AI芯片、AI整机、大模型等20多家产业链上下游企业,共同发布了国内首个AI计算开放架构,并基于该架构推出AI超集群系统。

这套超集群单机柜支持96张加速卡,可提供超过100P的AI算力,最高能够实现百万卡大规模扩展。它还能支持深度开发用户迭代自有程序,同时帮助传统行业用户快速复用AI模型、整合业务。

与专有封闭系统相比,这套系统可适配支持多品牌GPU加速卡,兼容CUDA等主流软件生态,为用户提供更多选择;同时也大幅降低硬件成本和软件开发适配成本,使得前期投资压力较小。

并且,曙光也携手众多产业链企业开放七项核心技术,包括CPU与AI加速器高性能接口协议、加速器互连协议,液冷基础设施层面的规范,以及软件栈的整合经验等。

“这个AI超集群最大的特点,就是多元化和包容化”,杜夏威说道。在他看来,异构并非局限地理解为把多个品牌揉在一个系统下,而是寻找大家在整个系统化工程中擅长的部分,尝试通过深度合作来形成对产业的良好支撑。

而曙光能成为开放架构号召人的角色,正源自其多年来的实验积累。

中科曙光高级副总裁李斌说道,过去十年,中科曙光建设了20多个大规模算力集群,累计部署超50万张异构加速卡。从大型机到集群,从小规模算力到超大规模算力系统,曙光在产业链各层级的沉淀,令其足以起串联上下游。

这种串联,一方面能让各个环节的算力公司不再“重复造轮子”,减少为多种不同架构重复研发的无效过程;另一方面,也能在当前国内算力供需匹配不足的情况下,有效整合起分散的算力资源

不过,让算力资源有效运转的条件之一,是要保障集群能长久稳定地基础运营。为此,曙光做的准备远不止这些。

做好模型训练中的“脏活累活”

智博会上,中科曙光展台正中间立着AI超集群产品,其存储、液冷、生态等板块的细分展区分布四周,将其簇拥其中。

据介绍,这套AI超集群千卡集群大模型训推性能达到业界主流水平的2.3倍,其完善的工具链和软件栈能把开发效率提升4倍,人力和时间投入降低70%。

GPU时代对软硬件的协同优化提出更高要求,杜夏威说道,曙光的这套架构,也涵盖了资源运管调度、下层并行化等策略,以及专家并行、PD分离等技术,确保底层算力高效发挥。同时,也对底层通信库、算子库进行优化,能做到以软件栈的形态交付服务。

而在存算方面,曙光也提出了“以存提算”、存算一体,通过Burstbuffer数据缓存的使用,结合超级隧道降低交互,保障数据IO以及传输有自己高效的专属通道,让GPU算力效能增加了55%。

此外,那些在大模型时代发展早期被有意回避的“脏活累活”——提高稳定性、减少故障率、缩短故障恢复时间——反而成了曙光新品的亮眼名片

在曙光的这套新集群中,其平均无故障时间(MTBF)提高了2.1倍,平均故障修复时间(MTTR)降低到原来的47%等。“把不影响原有业务运转的故障替换技术,逐步释放到整个AI超集群中”,是曙光下一步发展的目标。

高温,也是大集群稳定运行的一大克星。一般来说,芯片工作温度每升高10度,失效率就会翻倍。曙光数创CTO张鹏算了这样一笔账:目前,曙光通过液冷能做到PUE 1.04,相当于每带走100个单位的热量,只需额外花费4个单位的能量;而以往风冷的能量比效率只是1:1,相比起来,液冷的能耗节省非常明显。

不过,在冷板、浸没、喷淋三大液冷路线中,冷板虽先行落地成为主流,但面对目前已达1000w级GPU运行时的“热浪”,已有些捉襟见肘。

要让芯片算力得以充分释放,下一扇需要开启的门是“浸没”。而曙光已经率先握住了这把钥匙。

中科曙光在展会现场展出的相变浸没液冷设备,令雷峰网印象深刻——

透过玻璃视窗,可以看到8块GPU和2块CPU浸泡在无色液体中。细密的气泡从芯片上覆盖而过,旋即升腾、折向右侧,形成稳定而精确的“蒸汽轨道”。

据现场工作人员介绍,这些特殊液体的沸腾温度仅在50度左右,远低于芯片运行时80-90度的工作温度。于是,在持续的沸腾中,热量便被汽化的小气泡裹挟带走、随后消散。


曙光展出的相变浸没液冷设备,摄:雷峰网李想

做大型机和集群起家的曙光,从2011年就开始布局静默式冷板液冷,在2015年量产TC40冷板式高密度服务器。尽管如此,张鹏还是感慨,数据中心需求迅猛增长的这几年,已经对液冷发展提出近乎苛刻的高要求:

现在的智算中心比起传统通用数据中心,负载变化率很快——在训练和推理中,一个回车按下的毫秒里,所有需求就要达到满载。与此同时,单机柜功率密度在短短几年内从60千瓦,飙升至200千瓦甚至300千瓦。

曙光的这场发布,是一次团结国内算力生态的初尝试,具体效果有待时间检验,但至少,在“苹果生态”为王的算力市场里,他们已经打响构建“安卓生态”的第一枪。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
游资章建平(章盟主):从5万到百亿,冷门赛道的突击高手

游资章建平(章盟主):从5万到百亿,冷门赛道的突击高手

复利种韭菜
2025-11-01 19:04:09
和赵德胤恋情真相大白5个月,赵丽颖近况曝光,冯绍峰当初没说错

和赵德胤恋情真相大白5个月,赵丽颖近况曝光,冯绍峰当初没说错

白面书誏
2025-11-07 14:03:30
刘强东:员工未来可能一周只需要工作一天甚至一小时

刘强东:员工未来可能一周只需要工作一天甚至一小时

极目新闻
2025-11-07 15:17:52
这个画面是东方小孙一生的痛,也是他纵横商界中难以磨灭的污点!

这个画面是东方小孙一生的痛,也是他纵横商界中难以磨灭的污点!

乐悠悠娱乐
2025-10-22 10:17:32
一顿饭上百万,8年敛财14亿,“金融才女”朱丽丽最终是何下场?

一顿饭上百万,8年敛财14亿,“金融才女”朱丽丽最终是何下场?

议纪史
2025-10-28 22:15:04
马斯克评价小鹏 IRON 人形机器人“身材不错”

马斯克评价小鹏 IRON 人形机器人“身材不错”

IT之家
2025-11-07 17:23:09
恭喜!34岁TVB女星宣布顺利生下第二胎!激动大晒合照!直呼和哥哥长得像!

恭喜!34岁TVB女星宣布顺利生下第二胎!激动大晒合照!直呼和哥哥长得像!

我爱追港剧
2025-11-07 08:16:36
又整容了?李嫣疑进行第四次手术,公开术后画面,鼻子嘴巴缠满纱布

又整容了?李嫣疑进行第四次手术,公开术后画面,鼻子嘴巴缠满纱布

八星人
2025-11-07 11:01:11
Shams:詹姆斯已获准参加对抗训练,1-2周后重新评估伤情

Shams:詹姆斯已获准参加对抗训练,1-2周后重新评估伤情

懂球帝
2025-11-07 01:16:05
蜂蜜立大功?研究发现:蜂蜜可在48小时清除体内49%的炎症因子?

蜂蜜立大功?研究发现:蜂蜜可在48小时清除体内49%的炎症因子?

游者走天下
2025-11-07 14:39:03
A股:深夜三大利好消息,这个板块迎来转变,下周大盘稳了

A股:深夜三大利好消息,这个板块迎来转变,下周大盘稳了

夜深爱杂谈
2025-11-07 19:47:12
哪些弦外之音是你多年后才醒悟的?网友:好多都没听出来,没眼力

哪些弦外之音是你多年后才醒悟的?网友:好多都没听出来,没眼力

带你感受人间冷暖
2025-11-05 00:05:16
朝鲜专列进京有多离谱?金正恩来中国为何坐火车不坐飞机?

朝鲜专列进京有多离谱?金正恩来中国为何坐火车不坐飞机?

诗意世界
2025-09-17 13:19:48
见证历史!今年全国首个开盘破百亿项目,在广州诞生!

见证历史!今年全国首个开盘破百亿项目,在广州诞生!

广州PLUS
2025-11-07 20:23:56
学医后才明白,增强骨密度最好的运动,不是散步游泳,而是这个

学医后才明白,增强骨密度最好的运动,不是散步游泳,而是这个

周哥一影视
2025-10-23 12:39:17
9连板!连发七道风险警示后,合富中国尾盘直线拉涨停

9连板!连发七道风险警示后,合富中国尾盘直线拉涨停

21世纪经济报道
2025-11-07 17:57:50
为什么女朋友觉得年入百万很简单?网友:她一定有个做足浴的闺蜜

为什么女朋友觉得年入百万很简单?网友:她一定有个做足浴的闺蜜

带你感受人间冷暖
2025-11-04 16:38:29
狂轰34分26板!中国女篮又冒出一条大鲨鱼:她联手张子宇会怎样?

狂轰34分26板!中国女篮又冒出一条大鲨鱼:她联手张子宇会怎样?

篮球快餐车
2025-11-07 03:59:15
全运会广州爆改,是在给大家送“钱”

全运会广州爆改,是在给大家送“钱”

广州PLUS
2025-11-06 19:37:26
吃瓜:某医院副院长与主任的17分钟视频!

吃瓜:某医院副院长与主任的17分钟视频!

微微热评
2025-11-07 00:55:33
2025-11-07 23:15:00
雷峰网 incentive-icons
雷峰网
关注智能与未来!
67747文章数 655931关注度
往期回顾 全部

科技要闻

75%赞成!特斯拉股东同意马斯克天价薪酬

头条要闻

家长称男婴被两个不满12周岁女孩害死:拿她们没办法

头条要闻

家长称男婴被两个不满12周岁女孩害死:拿她们没办法

体育要闻

是天才更是强者,18岁的全红婵迈过三道坎

娱乐要闻

王家卫的“看人下菜碟”?

财经要闻

荷兰政府:安世中国将很快恢复芯片供应

汽车要闻

美式豪华就是舒适省心 林肯航海家场地试驾

态度原创

时尚
数码
旅游
健康
本地

推广中奖名单-更新至2025年10月25日推广

数码要闻

海信RGB-Mini LED电视携手帝瓦雷亮相巴黎歌剧院

旅游要闻

遇见五台山:从自然奇景到佛国古刹,每一步都是心动

超声探头会加重受伤情况吗?

本地新闻

这届干饭人,已经把博物馆吃成了食堂

无障碍浏览 进入关怀版