网易首页 > 网易号 > 正文 申请入驻

平头哥发布首款智能网卡「磐脉 920」,补齐 AI 算力最后一块短板

0
分享至


GPU 买了那么多,跑起来却像「堵车」?


作者|苏子华

编辑|郑玄

最近两年,AI 行业最热的词一直绕不开「算力」。

从大模型训练,到今年 Agent 的火热,再到各家云厂商不断扩建智算中心,行业讨论最多的,几乎都是 GPU、芯片和算力规模。好像只要卡够多,AI 就能继续往前跑。

但现实并不是。

不少做大模型训练和推理的人,已经越来越明显地感受到另一层问题:机器越来越贵,GPU 越来越强,但模型训练和推理的效率,却没有同步提升。

问题不一定出在算力本身,而可能出在另一件长期被忽视的事情上——网力。

平头哥产品总监李旭慧打了个比方:「如果把算力比作 AI 时代的石油,网力就是输油管道。算力提供动力,网力保障效率。」

4 月 28 日,在数字中国建设峰会上,平头哥发布首款智能网卡磐脉 920。这是国内首个内置 PCIe Switch 的 400G 智能网卡,最大支持 400Gbps 吞吐带宽,可应用于万卡智算集群、通算集群和高性能存储等场景,目前已经量产,并将率先部署在阿里云数据中心。


磐脉 920 想要解决的就是「网力」问题。

今天的大模型训练,一个训练任务,往往需要几千甚至上万张 GPU 同时协作。单张 GPU 性能再强,也必须跟整个集群保持同步。

问题在于,只要其中一部分节点慢下来,其他节点就只能等待。他观察到,目前行业里很多万卡级智算集群,GPU 实际利用率较低,「能做到 60%,已经算行业顶尖水平。」

过去行业更容易关注「有多少卡」,但实际在 AI 训练场景中,系统运行效率并不是由最强的硬件决定,而是受限于集群里最慢的那个节点。「领先节点的算力会持续闲置等待,造成大规模算力浪费。」

磐脉 920 的发布实际上也指明了一个方向:当 GPU 已经足够强之后,下一步到底该补哪里。

01

一张网卡,盘活整个智算集群

当 AI 智能体开始进入真实业务场景,推理业务的占比越来越高。

「在 Agent 应用爆发的背景下,推理业务的增长速度显著快于训练。」李旭慧表示。

大模型训练强调强同步,而推理面对的是大量突发、小包、高频请求,对低时延和稳定性的要求更高,这也意味着对「网力」的要求更高。

而概括一下磐脉 920 在做的事,就是尽量减少整系统里的「堵」和「等」,通过网力的提升来释放 AI 算力。

其背后的实现原理,有三个关键。


首先是支持多路径 RDMA,打破单一路径的局限。

通俗理解,就是原本只能走一条高速,现在变成多条路同时分流。更关键的是,这些数据虽然分开走,但最终还能按顺序准确拼回来。

李旭慧解释,磐脉 920 通过支持逐包喷洒、乱序接收和选择性重传,实现 RDMA 多路径。

从结果来看,这套方案带来的改善比较直接。

按照官方实测,磐脉 920 支持单 QP 打满 400G 带宽,而同类主流产品带宽大约只有其一半。同时,多路径能力可以把交换机端口缓冲区水线降低 90%,减少丢包和重传。

第二个关键设计,是把「绕路」变成「直连」。

磐脉 920 最大的亮点之一,是内置 PCIe Switch。这也是国内首个做到这一点的 400G 智能网卡。

传统服务器架构里,PCIe Switch 通常部署在主板上,数据需要绕多个节点转发。结果就是,有的路径长,有的路径短,时延不一致。

对于需要高度同步的 AI 训练任务来说,这种「不整齐」会直接影响效率。

李旭慧打了个比方:传统架构里,经常会出现「四个下行通道挤一个上行通道」的情况。

这很像四条支路同时汇入一条主干道,堵塞几乎不可避免。

磐脉 920 把 PCIe Switch 直接集成进芯片内部,让网卡与 CPU、GPU 形成更直接的连接关系。

少绕路,意味着更低时延;路径更统一,则意味着更稳定的同步效率。

根据平头哥实测,在相同集群规模和任务条件下,部署磐脉 920 后,大模型训练和推理任务完成时间可缩短 14%。

第三个关键,是让网络具备自己判断的能力。

传统网卡更多像搬运工。收到数据,搬过去,仅此而已。

据了解,磐脉 920 加入了细粒度网络感知和可编程拥塞控制能力。直白讲,就是它能主动避堵。让网络开始从被动传输,变成主动调度。

对于越来越复杂的 AI 集群来说,这种能力的重要性会越来越明显。

从这些设计能看出来,磐脉 920 并不是在追求参数上的简单提升,它做的事情很务实,让已经很贵的算力,少浪费一点,从而激发最大的潜能。

02

为何是阿里在定义 AI 基础设施?

除了性能本身,磐脉 920 背后更值得关注的,是平头哥和阿里的整体布局。

过去几年,很多公司做芯片,往往集中在单一环节,比如 GPU、AI 加速卡或者 CPU。

但平头哥的思路是做全栈。

目前,平头哥已经形成四条产品线:真武系列 AI 芯片、倚天服务器 CPU、镇岳存储主控芯片,以及这次发布的磐脉系列智能网卡。

对应的,正好是数据中心里的几个关键环节:算力、存力和网力。

李旭慧在采访中表示:「单一芯片产品无法解决全链路问题,只有打通算力、存力、网力,才能最大化释放 AI 硬件性能。」

这也是平头哥和很多单点芯片公司的区别。它不是只做一块性能更强的芯片,而是试图从整个系统角度去看问题。

很多芯片公司做产品,先做出来,再去找客户和落地场景。

但平头哥不是。

李旭慧告诉极客公园,磐脉 920 立项之时 AI 智能体尚未成为行业焦点。但他们从阿里云自身业务中判断,未来 AI 一定会推动数据中心网络能力升级。

「一线业务场景的实际需求,是芯片技术迭代与产品优化的核心驱动力。」先有阿里云的大规模业务场景,再从实际场景需求里倒推产品定义。

这就是磐脉 920 的商业路径。据透露,和平头哥倚天、真武、镇岳系列芯片一样,它会先部署在阿里云数据中心。

从这个角度看,磐脉 920 的发布,本身就是阿里「通云哥」协同能力的一次体现。

通义负责模型,阿里云负责场景,平头哥负责底层硬件。模型需求推动云基础设施升级,云场景又反向推动芯片演进。

这种全栈自研的闭环,在国内科技公司里并不多见。「通云哥」的模式虽然前期投入大、周期长,但一旦走通,护城河也极深。

AI 竞争走到今天,比拼的已经不是单点能力,而是这一整套系统能否顺畅运转。

随着 AI 越来越多从训练走向推理,模型、云与芯片之间形成的持续反馈循环,整体优势的显现可能才刚刚开始。

*头图来源:平头哥

本文为极客公园原创文章,转载请联系极客君微信 geekparkGO

极客一问

你如何看待「磐脉 920」?


特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
国际油价13日下跌

国际油价13日下跌

证券时报
2026-05-14 07:21:02
广州一网红粥店被曝用扫把洗锅,食客:那口锅刚炒完我们的粉

广州一网红粥店被曝用扫把洗锅,食客:那口锅刚炒完我们的粉

齐鲁壹点
2026-05-14 21:12:34
格瓦迪奥尔:没想到瓜帅会让我首发;希望能争取更多出场时间

格瓦迪奥尔:没想到瓜帅会让我首发;希望能争取更多出场时间

懂球帝
2026-05-14 06:13:09
“你儿子比农村土狗还好养!”中学男孩全碳水饮食,吃出可怜面相

“你儿子比农村土狗还好养!”中学男孩全碳水饮食,吃出可怜面相

妍妍教育日记
2026-05-12 17:35:01
成都楼市反转了,成都房东惜售,成都金融城房价从4万降至3.2万

成都楼市反转了,成都房东惜售,成都金融城房价从4万降至3.2万

靓仔情感
2026-05-14 16:34:57
悲催!网传36岁未婚男不堪逼婚自杀,上午发现下午火葬,骨灰丢掉

悲催!网传36岁未婚男不堪逼婚自杀,上午发现下午火葬,骨灰丢掉

火山詩话
2026-05-14 07:23:53
教你一个玄学法则:当你的孩子主动给你买衣服、买吃的,或者主动给你发红包,不管你缺不缺钱,有多心疼孩子赚钱辛苦,你都要欣然的收下

教你一个玄学法则:当你的孩子主动给你买衣服、买吃的,或者主动给你发红包,不管你缺不缺钱,有多心疼孩子赚钱辛苦,你都要欣然的收下

心理观察局
2026-05-13 09:18:07
中国男乒四大“贵公子”:家境优渥不缺钱,仍为梦想拼尽全力

中国男乒四大“贵公子”:家境优渥不缺钱,仍为梦想拼尽全力

郭揦包工头
2026-04-29 16:09:40
扎心!朋友孩子的班34人处于“零就业”状态,引热议

扎心!朋友孩子的班34人处于“零就业”状态,引热议

火山詩话
2026-05-13 15:02:14
一手术人就废了?医生:这6疾病保守治疗更好,动刀反而过度医疗

一手术人就废了?医生:这6疾病保守治疗更好,动刀反而过度医疗

岐黄传人孙大夫
2026-05-13 10:00:10
美国人为啥不买中国车?福特CEO:自己开中国车,让美国人买破车

美国人为啥不买中国车?福特CEO:自己开中国车,让美国人买破车

贱议你读史
2026-04-25 10:20:03
温莎血脉基因优良!哈里夫妇带一双儿女出游,阿奇兄妹给梅根争光

温莎血脉基因优良!哈里夫妇带一双儿女出游,阿奇兄妹给梅根争光

枫尘余往逝
2026-05-13 14:45:33
蒋介石在日记里坦言:重庆谈判后,放毛泽东返回延安只有两点原因

蒋介石在日记里坦言:重庆谈判后,放毛泽东返回延安只有两点原因

饭小妹说历史
2026-05-14 08:55:24
曝勇士正寻求与库里提前续约 库里盼能征战NBA至少20个赛季

曝勇士正寻求与库里提前续约 库里盼能征战NBA至少20个赛季

北青网-北京青年报
2026-05-14 21:20:21
白老师,果然是尤物

白老师,果然是尤物

健身狂人
2026-05-13 17:47:29
被制裁的鲁比奥落地北京,外媒开始阴阳怪气!

被制裁的鲁比奥落地北京,外媒开始阴阳怪气!

一个有灵魂的作者
2026-05-14 21:15:49
1979年新兵吴建国身中八枪,越军军官靠近时,他突然抱住敌人坠崖

1979年新兵吴建国身中八枪,越军军官靠近时,他突然抱住敌人坠崖

野史日记
2026-05-13 20:55:04
陈都灵,瘦的让人心疼

陈都灵,瘦的让人心疼

陈意小可爱
2026-05-01 10:53:54
早年田朴珺为王石系鞋带的照片,确实很用心

早年田朴珺为王石系鞋带的照片,确实很用心

娱你同欢
2026-05-14 12:07:58
全球九成产能在日本,前2月中国一滴未买,若断供,我们顶得住吗

全球九成产能在日本,前2月中国一滴未买,若断供,我们顶得住吗

远方风林
2026-04-22 11:56:20
2026-05-14 22:16:49
极客公园
极客公园
让最棒的创新成为头条
12051文章数 78881关注度
往期回顾 全部

科技要闻

马斯克说会谈很顺利 黄仁勋点赞 库克比耶

头条要闻

重庆"萌感"佛头意外走红 雕刻者:不是文物且尚未完工

头条要闻

重庆"萌感"佛头意外走红 雕刻者:不是文物且尚未完工

体育要闻

争议抽象天王山,和季后赛最稳定中锋

娱乐要闻

何九华官宣当爸!全程不提孩子妈

财经要闻

李强会见美国工商界代表

汽车要闻

双零重力座椅/AI智能体/调光天幕 启境GT7内饰发布

态度原创

教育
房产
数码
公开课
军事航空

教育要闻

南京秦淮、雨花台、玄武、建邺2026高考考点公布!

房产要闻

海南楼市新政要出!拟调公积金贷款额度,最高可贷168万!

数码要闻

小米耳夹式耳机官宣,17Max样张公布

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

美以伊战争期间以总理密访阿联酋

无障碍浏览 进入关怀版