网易首页 > 网易号 > 正文 申请入驻

华为,在黎明之前

0
分享至


黎明前最黑暗,胜利前最绝望,成功前最渺茫。

堂吉诃德举着破矛冲向风车,切格瓦拉的摩托车驶向安第斯山脉,盖茨比始终追逐着心中的绿光,他们的命运终章永远只有两种笔法:加冕为盗火者,或坍缩成黑洞。

华为素来不爱“造梦”,这是一家理性大于感性的公司。

所有关于联接的答案,都能在方程组的深处,找到最简洁的表达,那些被高斯噪声吻过的频谱,在香农的公式里凝结成精巧的信息,在华为眼里都是理性的计算。

然而,当华为被置于风暴中央之时,成功除了前赴后继的突围,故事中总带有那么一些理想主义色彩。

上甘岭

曾经的黑夜对于华为来说,并不算短。

2019.5.16,19万华为人因“实体清单”的消息集体落入慌乱与不安的情绪。

越是在行业待得足够久的人,越知晓其中的分量,高通芯片、英特尔/AMD芯片、Windows和安卓操作系统等,这是大众显而易见看到的部分,还有更重要但外界感知不到的部分,例如数据库、ERP软件、各种生产工具等软件等,华为的业务面临全面停摆的风险。

更重要的是,还有一个在当时并不明显,但后来被验证的预言。“他们不只想遏制华为的现在,更想摧毁华为的未来。”

华为的未来是什么?

2018年,华为首次对外发布了AI战略与全栈全场景AI解决方案,包括全球首个覆盖全场景人工智能的华为昇腾系列芯片以及基于华为昇腾系列芯片的产品和云服务。

在所有预设前提改变的情况下,华为AI战略被打乱了步伐。

“再穷也要对未来投资”,华为比任何人都更明白这一点,如果赶不上AI的时代浪潮,华为可能在十年、二十年后就变成一家“泯然众人矣”的公司。

现在与未来交织成两条主线。华为发起的“三丫坡会战”,成功保障了自身的生产运营,实现了关键产品和技术的自主研发,涵盖硬件、操作系统、数据库、中间件、应用软件等领域。

但是,关于未来的问题,就像“达摩克利斯之剑”悬于头顶。

美国对AI的封锁层层加码,华为连基本的AI算力供应都难以实现,又该如何与美国的AI企业竞争?

外界无从知晓,华为扛着多大的压力,但它没有给自己彷徨的时间。不久之后,华为内部就成立了一支特殊的“作战部队”,结合了包括云、计算、芯片等业务线的精兵强将,这支队伍领到的“军令”,就是攻克AI算力的“上甘岭”。

那条坑道

彼时,凭借GPU和CUDA生态系统的坚固壁垒,英伟达可谓“独孤求败”,打遍天下无敌手。

英伟达和华为,恰如一个在上甘岭的南坡,洋枪大炮重兵布阵,另一个却在北坡,小米加步枪艰难突进。

那条打通南北坡,决胜千里的“坑道”在哪里?

答案指向超节点。单芯片性能落后,那就靠系统性能力来弥补,甚至超越。一场决定未来10年甚至20年成败的“冒险”,在华为内部悄然却激烈地启动了。

2022年下半年,华为正式启动了超节点的研发,当时谁也没想到AI的发展会在第二年就迎来了第一个爆发点——ChatGPT发布,并在全球掀起了大模型浪潮。

华为早有预感,作为基础设施提供商,华为的定位就是为各种应用“架桥修路”,从5G到AI算力都是如此,基于这种战略导向,华为云前瞻性地判断出了AI的大发展,并决定要提前投入。

第一个核心问题很快到来,超节点立项的时候,ChatGPT还没发布,大模型还没显露趋势,更没人预料到DeepSeek的爆火,从一个时代进入到另一个时代,就用了不到2年的时间。

超节点项目要面对的第一个选择:超节点是建64个芯片,还是384个芯片?

“在当时的环境下,64卡是够用的,但是我们要布局未来,而且以昇腾AI云服务提供算力服务,可以把超节点算力分开或者合并,做大了没问题,做小了可能就会很被动。”华为一位项目组专家回忆道。

彼时谁也不知道AI的市场什么时候会来,资源有限,当时的昇腾也还不是战略重心。那么,是否要投入一个如此耗费精力,结果又不十分确定的大项目,是不是明智之举?

犹豫的时间并不长,不久之后的2023年初,华为就决策要坚定投入384超节点。

超节点项目涉及到海思、计算和云等多个业务团队。华为云数据中心一位负责人表示,“公司面临困难的时候,大家都想到前线去参战,到芯片的团队作贡献,公司还特别发了个文,号召大家做好自己的本职工作。而超节点项目让我们也成为了参战部队,大家内心非常自豪和兴奋。”

在芯片能力落后于英伟达一代的情况下,华为的策略是用“非摩尔定律补摩尔定律”,单芯片性能不足,就上升到系统层面,因为大模型的训练推理本来就需要算力集群,才能发挥出更高的效果。

时间紧迫,任务艰巨,战略清晰。然而实践,却依然艰难。在落后的情况下,想要追平甚至超越英伟达,意味着需要付出更大的代价。

当华为选择了384卡之后,那就只能采用光模块来通信的技术路线,而不是英伟达NVL72选择的全电通信,这是一个巨大的技术挑战。

业内有消息指出,英伟达此前也考虑过光模块方案,但由于其成本高昂、功耗大且由于所需的光学收发器和两级网络导致不可靠,最终被放弃。于是,英伟达NVL72超节点采用全铜线架构,一经部署便保持固定状态,相对稳定。缺点是:只能部署2米以内,否则速度会大幅衰减,因此可联接芯片数量有限。而光模块则有高带宽和高速率的优势,损耗低,适合长距离传输,因而可联接更多芯片,部署灵活。

但是光模块故障率高,这就需要数据中心有一套高效的故障定位和修复系统,保证超节点长稳运行,不影响客户业务。

不管是千卡集群,还是万卡集群,还是十万卡的集群,华为CloudMatrix 384超节点可实现1分钟故障感知、3分钟故障定界、10分钟故障恢复。

作为挑战者,想实现领先者都实现不了的方案,本是个“妄想”,但是,偏执却常是成功的必要条件。

既然找到了384超节点这条“坑道”,必须一掘到底。

胜利,但没有终点

2025年4月,CloudMatrix 384超节点一经发布,便引起了极大关注,海外的关注度比国内还要高得多。究其原因,就像华为云副总裁黄瑾在最近的华为云AI峰会所说:“CloudMatrix 384超节点具备MoE亲和、以网强算、以存强算、长稳可靠、朝推夜训、即开即用六大领先技术优势,这项技术创新跳出单点技术限制走向系统性、工程性的创新算力架构直面通信效率瓶颈、内存墙制约、可靠性短板三大技术挑战。”可以说,华为云以系统架构创新重新定义新一代AI基础设施。

起初很多人不相信华为能实现这样的突破。海外知名分析机构SemiAnalysis,以“Huawei AI CloudMatrix 384–China’s Answer to Nvidia GB200 NVL72”为题,猜测和分析了CloudMatrix 384超节点的种种细节。

SemiAnalysis得出的结论是,华为的芯片技术落后一代,但其自主研发的云端超级算力解决方案CloudMatrix 384却可领先于英伟达和AMD当前市售产品一代,直接对标英伟达GB200 NVL72系统,在多项关键指标上展现出超越英伟达机架级解决方案的技术优势。

这是工程创新的“奇迹”。可能疯狂就是反复做着同样的事情,却期待不同的结果。

“早期光模块根本不可用”,上述华为云数据中心负责人还记得,光模块试验时的沮丧,“想用非摩尔去解决摩尔定律,结果非摩尔这边的问题反而更大,我们用了最土的办法,每一个光模块的端面全部拍照,再逐个分析,解决了数不清的问题,才实现了较好的稳定性。”

当时,承接超节点落地的华为云数据中心面临着空前压力。

传统的分布式系统本质上是一个松耦合系统,服务器之间一般用25Gbps或100Gbps以太网带宽就可以满足绝大多数应用的需求。而AI时代的应用负载与传统业务有很大不同,当前服务器集群的以太网互联带宽已经越来越难满足前面提到的AI时代的训练、推理等场景的需求。

CloudMatrix 384实现了CPU、NPU、GPU、内存等多样资源的跨服务器统一池化,用“对等架构”替换掉传统的“主从架构”,让多元算力可以直接通信,不需要通过CPU,让系统能够灵活配置跨服务器的多种资源,形成一个大规模的紧耦合的多元算力池化架构,这是AI原生云基础设施最重要的能力。

DeepSeek成为CloudMatrix 384显露峥嵘的一个缩影。DeepSeek使用了大规模专家并行(Expert Parallelism,大EP并行)的MoE模型架构,特点是大模型设置了多个专家来处理问题,1个卡(算力芯片)对应着1个专家,专家越多,效率越高,传统英伟达服务器都是8卡,CloudMatrix 384可以对应384个专家,极大提高专家数量,并且优化协同效率。

硅基流动CEO袁进辉记得,2025年除夕,DeepSeek的爆火快速点燃市场,硅基流动和华为云当即决定要在CloudMatrix 384上跑DeepSeek。

若采用单机部署方案,最终的性能远不如DeepSeek官方公布的部署方案,且至少有数倍成本差距。更具挑战的是,虽然DeepSeek公开了大EP并行方案,但技术难度较大,业内还没有其他团队快速复现这一部署方法。

效率和精度是核心问题,每秒输出的token可能卡在计算或者通信上,模型输出的结果可能和官方不一致,经过双方团队的数月攻关,DeepSeek在CloudMatrix 384终于实现了较好的效果,可比肩H100部署性能。

“首先,他们无视你,而后嘲笑你,接着攻击你,再后来就是你的胜利之日。”

无人知晓华为人如何度过那些漫长黑夜,想来那必定是充满了焦虑、怀疑和不甘。最终华为熬过了一道关卡,CloudMatrix 384超节点不是终点,华为人来不及庆祝,收拾心情整装再出发,奔赴下一个战场。

跪着的都输了,站着才可能赢。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
官方:英超针对“村超”裁判开设培训课程,派出5名专业讲师

官方:英超针对“村超”裁判开设培训课程,派出5名专业讲师

懂球帝
2025-06-13 16:36:15
为打破稀土垄断,俄印开始“勾结”,关键时刻,我方开始行动了!

为打破稀土垄断,俄印开始“勾结”,关键时刻,我方开始行动了!

谷盟
2025-06-14 13:54:23
父亲临终说出大陆有妻儿,女儿跨海寻找哥哥,看到哥哥后愣住了

父亲临终说出大陆有妻儿,女儿跨海寻找哥哥,看到哥哥后愣住了

秋风专栏
2025-06-11 16:13:50
中共中央批准:陈杰同志任上海市委常委

中共中央批准:陈杰同志任上海市委常委

澎湃新闻
2025-06-13 22:08:09
名宿炮轰梅西:领先13分还计较?球王该学翻篇!

名宿炮轰梅西:领先13分还计较?球王该学翻篇!

砚底沉香
2025-06-14 14:06:15
中国稀土能成战略武器,他俩夫妻居功至伟,眼下急需解决一个问题

中国稀土能成战略武器,他俩夫妻居功至伟,眼下急需解决一个问题

阿胡
2025-06-11 11:56:30
云南通报:院长张兵,主动投案

云南通报:院长张兵,主动投案

新京报政事儿
2025-06-14 12:13:43
吉祥航空今日将接收一架全新波音787飞机

吉祥航空今日将接收一架全新波音787飞机

每日经济新闻
2025-06-14 11:19:18
五粮液的股价创年内新低,股民:没想到来得这么快!

五粮液的股价创年内新低,股民:没想到来得这么快!

数据挖掘分析
2025-06-14 09:07:37
联合国给了法理依据,以开打伊有3个理由,特朗普反对被当成空气

联合国给了法理依据,以开打伊有3个理由,特朗普反对被当成空气

博览历史
2025-06-13 15:02:07
为什么2025年,中国自研的3nm、5nm芯片,突然多了起来?

为什么2025年,中国自研的3nm、5nm芯片,突然多了起来?

互联网.乱侃秀
2025-06-14 11:13:52
白月光的杀伤力有多大?看完分享,这哪是月光,简直是大杀器!

白月光的杀伤力有多大?看完分享,这哪是月光,简直是大杀器!

墙头草
2025-05-12 09:23:13
002384,重大收购!存储器巨头官宣大动作,投资扩大至1500亿美元

002384,重大收购!存储器巨头官宣大动作,投资扩大至1500亿美元

数据宝
2025-06-14 13:03:16
67岁王朔谈死亡:只能死在北京,但女儿不让死屋里,怕房子不好卖

67岁王朔谈死亡:只能死在北京,但女儿不让死屋里,怕房子不好卖

一娱三分地
2025-06-13 12:23:55
心痛!二本大学举行校园招聘会,放眼望去,连正规的企业也没几家

心痛!二本大学举行校园招聘会,放眼望去,连正规的企业也没几家

蝴蝶花雨话教育
2025-06-11 04:20:03
巴铁空军驰援伊朗,歼-10C挂霹雳-15迎战F-35?

巴铁空军驰援伊朗,歼-10C挂霹雳-15迎战F-35?

头条爆料007
2025-06-14 15:21:04
中纪委划红线!机关事业单位职工下班后,不能去这8类场所!

中纪委划红线!机关事业单位职工下班后,不能去这8类场所!

金哥说新能源车
2025-06-11 13:29:08
被催熟的“尖子生”,正沦为牺牲品:抢跑的恶果或在10年内大爆发

被催熟的“尖子生”,正沦为牺牲品:抢跑的恶果或在10年内大爆发

深度报
2025-06-13 23:26:37
速看!股市突传大事件:致欧美股市下跌!下周A股行情预测

速看!股市突传大事件:致欧美股市下跌!下周A股行情预测

虎哥闲聊
2025-06-14 12:35:56
初中阶段,中等生跟学霸的差距不在智商,改掉四个坏习惯就能逆袭

初中阶段,中等生跟学霸的差距不在智商,改掉四个坏习惯就能逆袭

好爸育儿
2025-06-14 13:27:44
2025-06-14 16:44:49
钛媒体APP incentive-icons
钛媒体APP
独立财经科技媒体
119446文章数 860599关注度
往期回顾 全部

财经要闻

楼市权威发声

头条要闻

伊朗出手15分钟内3次导弹齐射 被指计划打击美军基地

头条要闻

伊朗出手15分钟内3次导弹齐射 被指计划打击美军基地

体育要闻

32队争10亿奖金,全新世俱杯来了!

娱乐要闻

曾毅塌房了?戴性暗示手表 脚踹女员工

科技要闻

一辆新车比特斯拉FSD都便宜,全行业陪葬?

汽车要闻

长城为了拿环塔冠军有多拼?魏建军在下一盘大棋!

态度原创

亲子
房产
手机
游戏
公开课

亲子要闻

《爸妈,这次听我的》出发前的心里话

房产要闻

又一城购房补贴!买房就发钱,正在海南楼市疯狂扩散!

手机要闻

OPPO陈希再谈“不跟进”iOS 26设计:是指三方应用厂商不跟

媒体检测发现任天堂Switch 2的体感控制系统已获大升级

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版