网易首页 > 网易号 > 正文 申请入驻

一桩收购,成就4万亿英伟达

0
分享至

公众号记得加星标⭐️,第一时间看推送不会错过。

对于当前炙手可热的英伟达,大家公认有两条护城河,分别是CUDA和NVLink,但从最近一个季度的业绩看来,如果没有当年70亿美元的收购,也许后续就不会有市值4万亿的芯片巨头。

在今年二季度的财报发布之后,整个注意力主要集中在这家芯片制造商的收入能否继续证明其市值飞速增长的合理性。但其实在各种头条新闻的背后,有一个业务板块却格外引人注目,那就是网络业务。在分析人士看来,这将成为推动该公司转型为市值4万亿美元巨头的低调引擎。

相关数据显示,这项标记为“网络”的业务对英伟达整体收入的贡献可能远高于16.1%。收入环比飙升46%,同比几乎翻了一番,仅第二季度就达到了72.5亿美元。换句话说,仅在上个季度,通过收购Mellanox而建立的研发中心为英伟达创造的收入就超过了收购成本。这使得该部门的年运营额达到250亿至300亿美元,对于曾经被视为英伟达旗舰图形处理器配角的部门来说,这是一个非同寻常的数字。

达成这个成绩背后,当年他们耗资69亿美元收购的Mellanox功不可没。

英伟达成功的幕后英雄

过去几年,谈到挑战英伟达,除了从计算上面入手以后,软件和网络是经常被提到两个方面。例如近年来的UAlink,就是为了攻破英伟达壁垒而组建的一个组织联盟。背后的原因就是单芯片或单机架难以满足剧增的AI算力需求,Scale Up和Scale Out迫不及待。

英伟达表示,受能源供应和芯片密度等物理限制的制约,如今的数据中心已经接近单一设施所能提供的极限。新平台 Spectrum-XGS 解决了诸如长延迟等障碍,这些问题迄今为止一直阻碍着独立的设施作为统一的系统运行。

英伟达首席执行官黄仁勋在此前的财报电话会议上也强调:“我们拥有Spectrum-XGS,它拥有千兆级规模,可以将多个数据中心、多个AI工厂连接成一个超级工厂,一个庞大的系统。这正是英伟达在网络领域投入如此多精力的原因。正如我们之前提到的,Spectrum-X现在已经是一个相当可观的业务,而且它成立只有大约1.5年。因此,Spectrum-X是一个本垒打。”

更早之前,英伟达收购Mellanox而加码打造的以色列分公司的一项技术突破将使地理位置相距遥远的数据中心能够像在一个地方一样运行,从而有效地大规模创建“人工智能工厂”,并显著提高该行业可用的最大计算能力。

该公司在一份新闻稿中表示:“凭借先进的自动调整距离拥塞控制、精确的延迟管理和端到端遥测技术,Spectrum-XGS 以太网几乎使 NVIDIA 集体通信库 (CCL) 的性能提高了一倍,加速了多 GPU 和多节点通信,从而在地理分布的 AI 集群中提供可预测的性能。因此,多个数据中心可以像一个 AI 超级工厂一样运行,并针对长距离连接进行了全面优化。”

正如黄仁勋所说:“这正是英伟达5.5年前收购Mellanox的原因。”

Mellanox 由Eyal Waldman成立于 1999 年,是 InfiniBand 互连技术的先驱。在被英伟达收购的时候,该技术及其高速以太网产品目前已应用于全球超过一半最快的超级计算机以及许多领先的超大规模数据中心。

Mellanox 于 2007 年上市,并于 2018 年首次突破 10 亿美元年销售额。2018 年,该公司的 GAAP 净收入为 1.343 亿美元,也创下了历史新高,在收购发生之前的13 年中,该有 10 年实现盈利,同时自 2005 年以来一直保持自由现金流为正。

在Mellanox 和 NVIDIA之间,也有着悠久的合作与联合创新历史。NVIDIA 也早于 2016 年在以色列开设了一家设计中心,并于 2018 年开设了一家人工智能研究中心。该公司此前承诺“将继续投资以色列的本地卓越人才,以色列是全球最重要的技术中心之一”。

Eyal Waldman此前在一个播客中表示:“我相信,处理器(大脑)与网络连接之间的协同作用,将英伟达从一家市值 930 亿美元的公司,发展成为如今市值 4 万亿美元的巨头。” 他进一步指出,如果没有 Mellanox 的 InfiniBand,就不会有 ChatGPT:

“OpenAI 一直从我们这里购买最先进的产品。如果没有这种连接,他们就无法达到人工智能所需的数据处理速度。”Eyal Waldman说道。“这是业界有史以来最重要的并购案,”Eyal Waldman强调。

网络连接空前重要

Nvidia网络高级副总裁Gilad Shainer此前在接受HPCwire的采访中回忆道, Mellanox在当时构建的并不是网络组件。 公司主要构建的是端到端的完整基础设施,并且专注于 InfiniBand,它配备了网卡和交换机,以及它们之间的连接,以及所有基于其上的软件,所以它是一个完整的平台。

“它是一款完整的基础设施,InfiniBand 专为分布式计算应用而设计。因此,它在 HPC 和科学计算领域得到了广泛的应用。所有大规模集群模拟都使用 InfiniBand,因为它专为分解式计算而设计,并且具有极低的延迟。InfiniBand 确保所有节点都拥有有效带宽。抖动是每个人都希望最小化的一个因素。”Gilad Shainer接着说。

如他所说,对于 HPC 来说,这是一项伟大的技术,而当AI 开始出现时,它又是分布式计算的另一个案例。例如,你可以认为延迟的敏感度更高或更低,因为人工智能工作负载和科学计算工作负载之间存在一些差异。科学计算工作负载对延迟的敏感度可能比人工智能训练初期更高;而当时的敏感度略低。

“纳秒级的延迟对于训练来说并不那么重要,但仍然需要较大的有效带宽。”Gilad Shainer指出。他表示,现在我们将推理视为人工智能的主要元素。推理依赖于延迟,因为你需要低延迟。因此,人工智能和高性能计算(HPC)本质上具有相同的要求。而这正是基础设施变得更加重要的地方。

Gilad Shainer说,将高性能计算 (HPC) 与人工智能 (AI) 进行比较时,一个有趣的现象是,在高性能计算 (HPC) 中,计算能力一代一代地提升。然而,数据中心的规模却保持不变。通常情况下,数据中心有几千个节点,你可以从每个节点获取遥测数据,但规模保持不变。

来到人工智能方面,要就就更高了。这不仅仅是每台服务器的计算能力提升,而是每个新 GPU 的计算能力提升,基础设施的规模已大幅增长。

几年前,人们讨论的是 16000 个 GPU,甚至 30000 个 GPU。这就像与高性能计算 (HPC) 进行比较一样,都是庞大的基础设施。如今, 16000个GPU的方案都已经被束之高阁。大型基础设施通常包含数十万个 GPU,现在 GPU 数量已达 20 万个,而云厂商们正在讨论几年后迁移到百万级 GPU。这不仅仅是计算机的问题,也是基础设施的规模问题。而要实现这种规模,需要合适的扩展网络和可扩展的基础设施。数据中心现在已经成为衡量计算能力的标准。它不仅仅是一个盒子,而是一个完整的数据中心。

“数据中心就是网络。网络将定义GPU如何作为一个整体的计算元素工作,否则它将只是一个GPU服务器集群,这就是NVIDIA收购Mellanox的原因。而这正是基础设施变得越来越重要的地方。”Gilad Shainer说。

有见及此,英伟达正处于每年推出新数据中心的节奏中:每年都会有新的 GPU、新的计算引擎、新的交换机、新的基础设施。每年都会有新的数据中心投入使用,为人工智能应用提供更强大的功能,无论是训练还是大量的推理。这些新系统正在世界各地催生出大量的人工智能框架和应用。

CPO是大势所趋

如大家所说,现在,基础架构由数据中心所需的多个域组成。除了scale-out (连接服务器)之外,还需要构建或扩展 GPU,即组合 GPU 并形成更大的虚拟 GPU。为了实现这个更大的虚拟 GPU,需要在各个 GPU 之间提供巨大的带宽。如果你想让它看起来像一个整体,这就是NVlink能发挥作用的地方。这项功能是系统网络的scale-up领域。

NVlink 需要支持海量带宽——是scale-out的 9 倍甚至10 倍。它需要非常低的延迟。因此Mellanox的团队将可扩展分层聚合和缩减协议 (SHARP) 引入 NVlink,这样就可以进行缩减,使机架成为一个单元,并且我们尝试在该机架中安装越来越多的 GPU。

未来,英伟达计划在一个机架中部署 576 个 GPU。这是一个巨大的计算量,需要扩展该机架中的基础设施。公司也正努力将其控制在机架内,以最大限度地利用铜缆布线。在英伟达看来,一旦拥有了在各个组件之间传输所需的巨大带宽,您就需要以最具成本效益的方式构建它,而铜缆是连接通信的最有效方式。

但你不能止步于此,因为现在你需要把这些机架连接在一起,你指的是让数十万个GPU作为一个单元工作,或者让20万个GPU作为一个单元工作。有些客户可能想要50万个甚至100万个GPU。

现在,由于距离较远,我们需要构建一个基于光纤的横向扩展基础设施,但它必须具备与 OFED 层相同的特性,包括有效带宽和确定性。

在英伟达看来,InfiniBand 仍然被认为是横向扩展基础设施的黄金标准。所有你打算构建的、并非 InfiniBand 的东西,你都可以将其与 InfiniBand 进行比较,因为 InfiniBand 是性能的黄金标准。

在Gilad Shainer看来,扩展系统是人工智能的一个方面。每年,数据中心的规模都在大幅增长。这意味着机架之间的带宽更大,也意味着线路中的计算量更大。因此,线路中的带宽也更大。Gilad Shaine同时指出,现在我们需要部署更多的光纤连接,而这部分突然就出现了功耗预算。“在人工智能数据中心,限制因素不是空间或预算,而是能够引入多少功耗。”他表示。

如Gilad Shaine所说,机架之间的光纤连接耗电很高。这会导致机架中可容纳的 GPU 数量减少。因此,光纤网络开始消耗接近 10%的计算能力,这是一个很大的数字。所以,在这种情况下,我们需要考虑的一个因素是,有没有办法降低光纤网络的功耗?这不仅仅是因为随着数据中心规模的扩大,需要构建的组件也越来越多——我需要安装GPU,安装网卡,然后连接线缆,安装收发器和交换机,并进行所有必要的配置,而其中,增长最快的组件是光收发器的数量。因为每个 GPU 大约有 6 个光收发器。如果我有 10 万个 GPU,就需要 60 万个收发器。

正如您所知,这些收发器对灰尘很敏感,发生故障时可能需要管理员更换。这种情况可能会导致数据中心中这些元件的更换量增加,因为现在的组件数量更多了。

因此,英伟达认为,数据中心基础设施的下一个重大举措是改进或将光纤连接提升到一个新的水平。这需要将目前作为收发器外部独立部件的光纤连接集成到交换机中,从而将其提升到一个新的水平。

如果我把它们放在一个封装里,就不需要通过交换机传输电信号了。这意味着我可以降低功耗,用更少的功率驱动光信号通过交换机。在这种情况下,我可以将功耗降低近四倍。现在,在同样的网络中,我实际上可以容纳三倍多的GPU。

于是,英伟达正在推动将硅光子引擎或光学引擎集成到交换机上,我就不再需要使用那些外部收发器了。

正如Gilad Shaine所说,共封装光模块(CPO)并非新概念。市场上曾有人尝试这样做。现在到处都能看到一些设备,也有一些交换机系统尝试采用CPO,但它们都无法实现全面量产并达到良好的良率,从而实现规模化成本效益。这背后的原因有很多。其中一个原因是这项技术未经验证,所以良率很低。之前制造的光学引擎采用的是制造大型光学引擎的技术。如果我有一个大型基数交换机,由于尺寸问题,我无法将所有这些光学引擎都装在同一个交换机上。这时候,就需要新的封装技术甚至新的激光技术。

而达成的上述种种成就,也和英伟达当年收购Mellanox密不可分。

Eyal Waldman在播客采访中将Mellanox出售谈判描述为英特尔、英伟达和其他公司之间的一场“大战”。“最终,与黄仁勋(英伟达首席执行官)的联系是水到渠成的。“从一开始,我们就知道这是方向。2019年,英特尔的市值远超英伟达,而仅仅一年后,英伟达就超越了它。从那时起,由于对人工智能的正确押注,它的股价一路飙升。”Eyal Waldman强调。

籍着收购Mellanox之后,英伟达在以色列建立起仅次于美国的研发团队。据资料显示,这家芯片巨头在以色列的七个研发中心拥有超过 5000 名员工。该公司也在当地开发数据中心的中央处理器(CPU)、机器人和汽车的片上系统(SoC)以及自动驾驶汽车的算法。

由此看来,对英伟达来说,这是一个前所未有重要的交易。

*免责声明:本文由作者原创。文章内容系作者个人观点,半导体行业观察转载仅为了传达一种不同的观点,不代表半导体行业观察对该观点赞同或支持,如果有任何异议,欢迎联系半导体行业观察。

今天是《半导体行业观察》为您分享的第4149期内容,欢迎关注。

加星标⭐️第一时间看推送,小号防走丢



求推荐


特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
再添新瓜!副院长和曾主任半年一块出差27次,网友:还挺频繁

再添新瓜!副院长和曾主任半年一块出差27次,网友:还挺频繁

坠入二次元的海洋
2025-11-09 15:05:46
高市早苗暗示武力介入台海可能性,外交部:性质和影响极其恶劣

高市早苗暗示武力介入台海可能性,外交部:性质和影响极其恶劣

澎湃新闻
2025-11-10 15:42:27
“只要我不是被遗弃的,深圳多套房已为父母兄弟姐妹准备好”,7岁被卖的40岁女子寻亲,还拿出一套房悬赏寻线索

“只要我不是被遗弃的,深圳多套房已为父母兄弟姐妹准备好”,7岁被卖的40岁女子寻亲,还拿出一套房悬赏寻线索

极目新闻
2025-11-10 16:31:30
某国企员工长期“翻墙”访问境外反华网站,被国家安全机关逮捕

某国企员工长期“翻墙”访问境外反华网站,被国家安全机关逮捕

昆明信息港
2025-11-10 11:40:21
刚刚确认:13级!浙江人挺住,持续2天!太猛了

刚刚确认:13级!浙江人挺住,持续2天!太猛了

鲁中晨报
2025-11-10 16:23:05
银行批量直售房产,释放了什么信号?

银行批量直售房产,释放了什么信号?

阿离家居
2025-11-10 02:08:20
认真刷完曾医生和祖院长的视频,谁看了不说一句窒息?

认真刷完曾医生和祖院长的视频,谁看了不说一句窒息?

诗意世界
2025-11-10 18:51:56
台海观澜 | 祭奠受难者,郑丽文打响反击民进党舆论霸权第一枪

台海观澜 | 祭奠受难者,郑丽文打响反击民进党舆论霸权第一枪

经济观察报
2025-11-10 16:30:08
后续!祖院长决定报警,谢绝所有采访!网友热议:这事儿不寻常!

后续!祖院长决定报警,谢绝所有采访!网友热议:这事儿不寻常!

奇思妙想草叶君
2025-11-10 00:54:46
一轿车撞断大桥护栏半悬空中,过路男子冲上前压住车头!车内两人得救

一轿车撞断大桥护栏半悬空中,过路男子冲上前压住车头!车内两人得救

极目新闻
2025-11-10 13:53:07
人民日报刊文,要学会用辩证法看待当前经济形势…

人民日报刊文,要学会用辩证法看待当前经济形势…

慧翔百科
2025-11-10 08:40:46
江苏省纪委监委:任永峰接受审查调查

江苏省纪委监委:任永峰接受审查调查

鲁中晨报
2025-11-10 14:59:03
买完美国玉米,中方公布外汇储备,特朗普设鸿门宴,摆了中国一道

买完美国玉米,中方公布外汇储备,特朗普设鸿门宴,摆了中国一道

策略述
2025-11-10 14:47:19
中国男子在泰国沙缴府被捕 携带1000张SIM卡准备交给妙瓦底雇主

中国男子在泰国沙缴府被捕 携带1000张SIM卡准备交给妙瓦底雇主

曼谷陈大叔
2025-11-10 16:10:41
参观诺坎普,梅西:我回到了我怀念的地方,希望有一天能回来

参观诺坎普,梅西:我回到了我怀念的地方,希望有一天能回来

懂球帝
2025-11-10 18:17:17
国家广电总局关于撤销机顶盒的重要消息

国家广电总局关于撤销机顶盒的重要消息

小柱解说游戏
2025-11-09 14:50:37
重磅:挪威将拿出1千亿!促成乌克兰接收1400亿被冻结的俄资产

重磅:挪威将拿出1千亿!促成乌克兰接收1400亿被冻结的俄资产

项鹏飞
2025-11-10 17:36:34
上海最新通报!任英广被查,涉嫌严重违纪违法

上海最新通报!任英广被查,涉嫌严重违纪违法

鲁中晨报
2025-11-10 17:51:11
台独沈伯阳再遭大陆重击,吓得瑟瑟发抖!

台独沈伯阳再遭大陆重击,吓得瑟瑟发抖!

新动察
2025-11-10 15:56:07
霍震霆看全运会开幕式,霍启山坐在叔叔旁边,看嫂子出场鼓掌喝彩

霍震霆看全运会开幕式,霍启山坐在叔叔旁边,看嫂子出场鼓掌喝彩

杨仔述
2025-11-10 15:44:14
2025-11-10 21:16:49
半导体行业观察 incentive-icons
半导体行业观察
专注观察全球半导体行业资讯
12191文章数 34702关注度
往期回顾 全部

财经要闻

促进民间投资,国办最新发声!

头条要闻

高市早苗暗示武力介入台海可能性 日方紧急找补

头条要闻

高市早苗暗示武力介入台海可能性 日方紧急找补

体育要闻

战绩崩盘!东契奇交易余震撕裂独行侠

娱乐要闻

51岁周迅的现状 给中年女性提了个醒?

科技要闻

荷兰“玩脱”后,大众本田终于拿到芯片了

汽车要闻

智能又务实 奇瑞瑞虎9X不只有性价比

态度原创

教育
亲子
本地
健康
公开课

教育要闻

【预告】11月14日|南方教研大讲堂第166场——探索初中数学实验教学 发展学生核心素养(初中数学专场)

亲子要闻

儿科医生今天要加班了,家长们保护好孩子

本地新闻

这届干饭人,已经把博物馆吃成了食堂

超声探头会加重受伤情况吗?

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版