来源:市场资讯
(来源:君实财经)
Arm Everywhere Event主题演讲
2026年3月24日
ARM CEO Rene Hass
Rene Hass:欢迎各位收看Arm Everywhere活动直播,也感谢现场到场的各位嘉宾。我们在思考如何为这场活动命名、如何介绍我们公司时。我们觉得“ARM无处不在”再合适不过。因为有一件事我们深感自豪,虽然在ARM的日常工作中我们不常想起。但它的影响力确实巨大,那就是公司的规模与体量。我们来看一组数字:1170亿,这个数字意味着什么?这是地球上曾经生活过的人类总数。根据我们的计算,自地球诞生以来,所有在地球上生活过的人口加起来。大约是1170亿。而ARM芯片的累计出货量已经超过3500亿颗。这个数量是地球上所有曾经存在过的人类总数的三倍。也就是说,不只是每个人对应一颗,而是每一个曾经活过的人都能分到三颗。这个数量是所有非ARM架构CPU总出货量的七倍。大家可以想象一下这个数字。全球每个家庭平均能分到160颗ARM芯片。我家里的数量肯定超过160颗,不过160颗是全球平均值。这能让大家直观感受到我们所取得的规模成就。这一点至关重要,因为它铸就了今天的ARM。当然,这一切都离不开我们的生态合作伙伴。
公司的基因从诞生之初就围绕低功耗、适配电池供电打造。公司成立于20世纪90年代初。它是从一家名为Acorn的英国电脑公司分拆出来的。当时这家公司的任务是研发一款芯片。这款芯片有两个核心要求:第一,它必须能在塑料封装中正常工作,这在当时至关重要。第二,必须做到极致低功耗。第一个要求是为了解决散热问题。第二个要求则是因为续航决定一切 —— 这款芯片将用于全球首款个人数字助理(PDA,1990年代初为苹果 Newton(牛顿)PDA定制)。我们完美达成了这个目标。
我们把目标实现得如此出色,说个真实的故事:当搭载首款ARM处理器的开发板首次通电时。当时开发板是插在墙上电源插座的。这块开发板集成了大量逻辑芯片,连接着交流电源。当拔掉交流电源插头后,芯片竟然还在运行。它依靠板上其他芯片的漏电流持续工作。第二天工作人员上班时,发现示波器依然在输出信号。正是这件事,开启了智能手机的革命。
我们的芯片被用于首款GSM手机,大家应该还记得那款诺基亚“砖头机”。后来又用到了我们很多人喜爱、至今仍怀念、希望它回归的黑莓手机。再到如今安卓和苹果的智能手机。这就是我们在续航能力上的起点。它催生了整整一代智能手机。
大约十年前,我们迎来了一个重要转折点——软银收购ARM。没错,大概是十年前,也就是2016年。软银收购ARM后,孙正义给了我们机会。成为私营企业后,我们得以投入此前无法涉足的领域。这让我们有机会将平台拓展到多个垂直领域。
我们把在智能手机领域积累的所有经验,延伸应用到云计算领域。我们推出了Neoverse系列(ARM专为数据中心、云计算、AI、5G、HPC打造的高性能CPU架构,2018年正式发布),在数据中心拿下了首个订单。我们还得以投入自动驾驶、汽车、实体AI等领域的研发。
没有2016年的这次机遇,这一切都不可能实现。在此我要感谢孙正义先生,给了我们这样的机会。没有他,我们无法完成这些突破。这为公司带来了巨大的收益。
不过,即便我们的产品再优秀、平台在实体AI、自动驾驶、云计算领域再具竞争力。真正让我们脱颖而出的,是我称之为生态系统中的生态这样的体系。这也是合作价值的真正体现。因为我们打造的移动平台,离不开软件的支撑。
在移动领域,软件层包括iOS、Windows、Android、macOS。还有海量应用程序,它们不仅运行在ARM计算平台上,还经过高度优化与调校,让生态系统里的伙伴能够打造出出色的产品。
这套模式适用于我们涉足的每一个垂直领域。也适用于云计算场景,无论是Linux、OpenAI还是Anthropic。以及与之配套的运行平台。这就是我们称之为“生态中的生态”的原因。因为它不局限于单一垂直领域。大家可以看到,在汽车领域的实体AI平台上,同样适用这套模式。
我们拥有超过2200万软件开发者,他们专注于不同垂直领域。却能跨生态共享技术与资源,让人们轻松切入新领域。这就是神奇之处,也是ARM独一无二的优势。这是我们计算平台最核心的特色。全球没有任何一家企业,能像我们的生态一样,覆盖从端侧到云端的全场景。
过去几年,我们一直在迭代战略。主要是因为我们看到市场需求在变化:芯片复杂度提升,研发周期变长。从5纳米到3纳米,再到2纳米,意味着更长的制造与封装时间。市场需要更高效率、更快速度的产品落地。
传统上,我们以独立形式提供IP核,包括CPU、GPU、系统IP。这一模式在公司成立30多年来一直行之有效。但正如我所说,我们开始看到市场对更快研发、更优产品、更快上市的巨大需求。于是我们推出了计算子系统(Compute Subsystems)。
这是大约三四年前推出的。我们为此投入了大量工程研发资源。它的作用是,将所有IP模块整合为完整、经过验证、高性能、可直接量产交付给终端客户的方案。这能为客户节省从设计启动到量产的时间,短则一年,长则18个月。对我们来说是一笔重大投入,我们倾注了大量精力与工程资源。但已经在客户群体中看到了显著成效。
我们三四年前推出这项技术。商业模式是授权费 + 版税。版税收入存在滞后性。通常在产品授权后两三年才会产生。如今,CSS已贡献近20%的版税收入,且还在持续增长。
这就是我们的演变。我们正身处一个与以往截然不同的时代。谈到AI,很多分析师和媒体问我,AI 的爆发是不是突如其来?我回想起大约一年半前,在Bletchley Park的经历。它是二战期间,艾伦・图灵带领团队破解德军密码、助力盟军的地方。博物馆里有一个展区,陈列着他在20世纪40年代写下的论文。主题是机器能否思考?
显然,AI的概念并非新生事物。如果你是科幻小说爱好者,我从小就是。Arthur C. Clarke是我最喜欢的作家之一,《2001太空漫游》。现在现场很多人2001年还没出生。我一直坚信,这一天终将到来。只是没想到,在我的有生之年,能见证它以如此迅猛的速度发展。有人说这是泡沫,终将消散。或许金融投资层面会出现泡沫,估值会回落,投资节奏会放缓。但如果有人认为AI会彻底消失,那就是鸵鸟心态。AI已经融入我们的生活。它彻底改变了人们对计算的认知。
然而,曾几何时,有人认为CPU已经过时。有人觉得,处理AI任务只能靠加速计算。CPU在AI时代已经不再重要。
我们来思考CPU在云端的作用。这里说的是AI出现之前的云计算。也就是我上一张幻灯片之前的阶段。云计算算力迎来爆发式增长。AWS、微软、谷歌云都在快速扩张。传统云计算的应用场景很简单:输入问题、搜索。比如“勇士队比赛还有票吗?”然后得到回复。这就是传统云计算。操作简单,以搜索为主。但CPU承担了几乎所有工作。十几年前,软件即服务(SaaS)兴起,云计算高速发展。当时所有工作都由CPU完成。
现在我们加入AI云计算。用户在手机或电脑上输入提示词。CPU依然不可或缺。云端处理请求,将请求转化为tokens。tokens由加速器生成,数据中心的CPU负责调度并回传tokens。tokens就是回应查询的文字或答案。这就是AI数据中心的全部工作流程。CPU既参与传统云计算,也深度参与AI数据中心运算。
我们估算,在这类数据中心中,每吉瓦算力对应约3000万个CPU核心。数量非常庞大。这里的数据中心,涵盖AI集群的主节点、加速器,以及专用机架配套设备。简单计算:每吉瓦≈3000万个CPU核心。这是过去一年左右的行业现状。
近几个月来,行业发生了巨变——智能体(Agent)迎来爆发。智能体本质是接收请求、完成全流程任务并返回结果的工具。它不只是简单查询答案,而是执行实际工作。比如运行薪资核算、任务调度、生成多份分析报告并反馈结果。最近大家频繁听到OpenClaw,就是典型案例,而且并非个例。
为什么这一点很重要?我为什么要讲这些?
因为转向智能体查询后,人均tokens消耗量会提升15倍甚至更高。原因很简单:第一,智能体生成请求的速度远快于人类。第二,智能体可以7×24小时不间断工作,无需休息。智能体持续向云端、数据中心发送请求。结果是什么?数据中心不堪重负。
生成tokens的昂贵加速器,需要通过云端回传大量tokens。智能体的本质是工作流。就像我刚才说的,薪资核算、调度任务。它是异步执行的,涉及大量调度工作。这正是CPU擅长的领域。这不是加速器能完成的工作。打个比方:加速器负责生成tokens,就像自卸卡车装满土。而CPU负责把这些土运走。智能体AI只会让这种需求愈发强烈。这就导致数据传输出现严重瓶颈。
这意味着什么?我们需要更多的CPU,海量的CPU。主节点需要CPU、加速器机架旁需要CPU、数据中心内部需要更多CPU机架。我们的估算可能偏保守:同等吉瓦算力下,CPU核心需求将提升约4倍,达到1.2亿个。同样的功耗限制下,我们需要部署4倍数量的CPU核心。电力资源无比珍贵。相关资本投入也十分宝贵。在已经塞满加速器和基础运算CPU的数据中心里,塞进这些额外的CPU,是个巨大难题。
每一个棘手的问题,都需要优秀的解决方案。今天,我们正式发布首款面向客户销售的自研芯片——ARM AGI CPU。
这是一件意义非凡的大事。我很想现在就公布这款产品的所有性能参数,但Mohammed会“杀了我”的。后续我们会详细介绍这款产品的设计理念与研发初衷。但我要明确一点:ARM开启了全新业务,我们开始直接销售CPU芯片。
我们这么做的最大原因,是合作伙伴的强烈需求。同时,也是为了解决我刚才提到的行业难题。随着智能体AI成为主流,相关运算高度依赖CPU。而我们需要一款天生适配低功耗、电池供电基因的CPU。
正如我所说,首要原因是合作伙伴的需求。我们在这个项目上最核心的合作伙伴之一,就是Meta。今天非常荣幸邀请到Santosh Janardhan来到现场。他会比我更清晰地阐述,Meta 为何做出这样的选择。有请Santosh。
让我们欢迎Meta基础设施负责人Santosh Janardhan。
Santosh Janardhan:谢谢。大家好。我是Santosh Janardhan,负责Meta的基础设施业务。这意味着什么呢?传统上,我们会自主定制、设计数据中心。自主研发硬件、GPU、CPU,稍后会详细介绍。还有连接所有设备的网络,以及整合一切的软件。简单说,如果你的Instagram、WhatsApp无法使用,消息发不出去,那就是我的责任。
大家可以想象,我们旗下的应用,每天有约30亿到35亿用户使用。每天,全球近一半人口会登录我们的应用并频繁操作。可想而知,业务规模极其庞大。我们支撑着互联网相当大的流量。而且可能是唯一非云服务的超大规模运营商。我们拥有数吉瓦的算力、数千万台服务器。越来越多的设备是更大规模的CPU、GPU和AI集群。
回顾过去几年的发展,很有意思。AI集群是相对新兴的事物。真正兴起是在新冠疫情之后,2022、2023年,ChatGPT出现之后。我们最初的集群规模很小。2023年,初期集群仅配备128个GPU,仅此而已。但即便在2023年,我们也开始快速扩容。时间快进,规模呈爆发式增长。市场需求远超所有人的预期。如今,单个AI集群已集成数万个GPU。
展望未来,我想强调的是:这种增长丝毫没有放缓的迹象。反而几乎是指数级增长,还在持续加速。需求呈指数级爆发,但电力资源有限。
我想介绍一下我们的部分集群。这是“普罗米修斯”,我们最大的集群之一。
今年年底,它的算力将突破1吉瓦。里面集成了海量GPU。我们把多个数据中心、多个帐篷式机房连接在一起。大家看到的蓝色建筑,其实是一个帐篷。虽然是高端帐篷,但本质还是帐篷。它具备防水功能,能抵御二级飓风。我们把所有设备整合在一起,通过网络连接。对开发者和研究员来说,这相当于一个整合后的1吉瓦AI集群,算力极其强大。
但正如我所说,需求是指数级增长的。未来几年,它的算力将提升至5吉瓦。大多数人无法想象1吉瓦是什么概念。1 吉瓦≈10个帕洛阿托市的总耗电量。5吉瓦就相当于50个帕洛阿托市。这就是我们正在建设的规模,规模会持续扩大。我们为什么要这么做?
Meta的愿景是,为每一位用户提供个人超级智能。这意味着打造能为每位用户提供最贴合、最沉浸体验的模型。为每个人打造专属智能助手。要为数十亿人提供个人超级智能,需要怎样的系统支撑?数十亿用户,每个人都在持续消耗海量算力。每天有超过30亿用户。这需要电力、土地、大量硬件与软件。最重要的是,需要海量芯片。
这就是为什么ARM是我们天生的合作伙伴。我们需要一个能匹配我们野心、创新速度与节奏的伙伴。我们与ARM沟通后发现,他们有能力研发,有强烈的进取意愿。最重要的是,他们和我们一样,极度重视功耗与能效。这就是为什么ARM成为我们的核心协作伙伴。我们共同研发的这款CPU,具备基础性意义。它不只是Meta的CPU,也不只是ARM的CPU。我相信,它将成为整个生态的基础性CPU。我们正站在一个重要的临界点上。大家会越来越多地听到数据中心面临的各种限制。会越来越多地了解到,算力需求在增长,但电力供应增速跟不上。对我个人而言,这是一场双赢。看到ARM从单纯的IP授权商,转型打造规模化、可量产的产品,令人振奋。
这是激动人心的时刻。这个项目筹备了两三年。我一直相信,美好的事物值得等待。我们正在一步步实现目标。我们对能效极度执着。ARM多年来最大的优势之一,就是功耗表现。勒内刚才提到,从3000万核心提升到1.2亿核心,且保持同等功耗。但有一点必须明确:我们绝不牺牲性能。这是我必须重点强调的。我们与ARM合作的核心原因:我们希望在每瓦功耗内容纳更多核心,同时绝不妥协性能。这种完美结合,正是我认为双赢的关键。
大约两年半前,我们与ARM展开合作。我们先调研了市场,看是否有能满足我们规格要求的CPU。当时的市场现状是:有性能就没低功耗,有低功耗就没性能。这就是ARM成为我们合作伙伴的原因。ARM带来的规模化扩展能力,能支持大量核心并行运行。无论是个人超级智能,还是勒内提到的调度任务。我们既不想让CPU性能不足,也不想让GPU受限。我相信,业内很快会意识到这种结合的价值。我们为这款产品选择的设计目标,是最大限度降低本轮研发风险。我们要确保首款CPU一次成功、开箱即用。但这是一场多代际的长期合作。
我必须强调这一点。展望后续迭代产品,我们已经规划好研发方向。我相信,这款芯片将在多个维度提升性能。整个生态也将迎来蓬勃发展。当行业向现有巨头发起挑战时,全行业都会迎来创新爆发。我相信,这是我们所有人共同的目标。
我想回归初心,讲讲我们为什么做这件事。正如我所说,每天有30亿到35亿人使用我们的产品。这包括朋友间在WhatsApp聊天。中小企业在平台上与用户沟通。用户与Meta AI进行智能交互。这一切都离不开基础设施的支撑。基础设施已经从技术创新的幕后,走到台前,成为创新的核心驱动力。AI建立在基础设施的基石之上。每一次交互、每一条动态、每一通通话,都依赖后端基础设施。至少对我们而言,我们自主定制数据中心、硬件与芯片。这就是为什么ARM是我们至关重要的伙伴。因为我们希望从设备中压榨出每一分性能。我们专注优化每瓦性能、每吉瓦性能。而ARM能帮助我们实现这一点。提升我们所有设备的运行效率。目的是什么?服务更多用户,尽可能以各种方式改善大家的生活。这就是为什么 ARM 是我们绝佳的合作伙伴。
谢谢Rene和ARM团队。与你们合作非常愉快,希望我们能长期携手。
Rene:谢谢。哇。太精彩了。Santosh。谢谢你。讲得太棒了。接下来,我想邀请另一位嘉宾,分享他们计划如何使用我们的ARM AGI CPU。他就是来自OpenAI的Kevin Wheel。凯文,感谢你的到来。
Kevin Wheel:感谢邀请。
Rene:欢迎来到梅森堡。你之前来过这里吗?
Kevin Wheel:来过。之前参加过几场会议。
Rene:欢迎你。首先,跟大家说说,今天的发布对OpenAI来说为什么意义重大?
Kevin Wheel:我觉得你刚才讲得很透彻。如今的AI性能,本质是系统性能。GPU总是备受关注,但CPU在调度环节扮演着至关重要的角色。而且我认为,随着AI向智能体方向发展。智能体执行任务时,会在容器内调用工具 —— 这是CPU的工作。运行Python脚本完成技能 —— 这也是CPU的工作。所以CPU的作用至关重要。所有组件协同工作,才能实现这一切。
Rene:你在OpenAI的职责很特别,对吧?负责算力密集的数学与科学相关工作。在算力受限的情况下,我知道你和Sam、Mark等同事沟通时,最常说的就是:我们需要更多算力。
Kevin Wheel:没错。
Rene:跟我们讲讲这背后的情况。
Kevin Wheel:这是 OpenAI 内部最常听到的话。“我需要更多算力”几乎成了行业通用语。根本原因是,用户需求在增长,我们内部有更多想法要验证。我们想做的事情,远超行业的支撑能力。归根结底,这既关乎芯片,也关乎电力。如果一款CPU能在保持性能的同时降低功耗。就意味着能节省更多电力,用于其他运算。带来更多推理与算力,更强大的智能。我在OpenAI工作这几年最深的感受是:更强大的智能,能让我们为大家打造更好的产品。我想不断提醒自己:尽管如今的模型已经非常出色,每年的进步都让我震惊。但我们今天使用的模型,将是你余生中最差的AI模型。一年后,你会无法想象现在的AI模型是什么样子。因为它们的进步速度快得惊人。这意味着,对智能的需求几乎是无限的。我们不会停下脚步。
Rene:在你的工作领域,你正在开拓一些尚未充分挖掘的垂直领域。比如数学、科学等方向。从ARM AGI CPU,乃至整个行业来看,更多算力对你的领域意味着什么?
Kevin Wheel:简单说,算力越多,能完成的推理越多,能执行的任务流程越长。AI正在从聊天交互,转向解决越来越复杂的问题。就像人类解决难题需要更长时间思考一样。当我们开始解决企业级AGI、科学研究等更重要的问题时。就需要更多算力。在电力永远有限的前提下,能效越高,能做的事情就越多,能解决的问题就越多。
Rene:对你个人而言,你最期待什么?从整个AI行业发展来看呢?
Kevin Wheel:我觉得我拥有世界上最棒的工作。我能参与用AI加速科学研究的工作。过去三个月,GPT-5.2、5.4、Codex带来了革命性变化。曾经有人说,这些AI只是 “随机鹦鹉”,只是从训练数据分布中采样,无法完成创新性任务。但现在,我们每天都能看到AI解决科学、数学、物理、生物学领域的开放性难题。AI帮助我们探索宇宙的本质。AI在机器人实验室连续工作数周,完成3.6万次实验。比人类更快、更好地优化新蛋白质的合成。这是一个激动人心的时代。我相信,科学发展的速度将前所未有。而这一切,都建立在你们提供的基础设施之上。
Rene:感谢你们的支持。凯文,谢谢你。
Kevin Wheel:谢谢大家。
Rene:谢谢。“今天使用的模型,将是余生中最差的AI模型”,这个观点太震撼了。我再重申一遍,确保大家都清楚:ARM现在提供IP核、CSS、自研芯片三类产品。
IP核、CSS、芯片。请联系你们的区域销售代表。威尔也在现场,会后可以找他沟通。
说回正题,我之前提到的 “生态中的生态”。这一切都离不开生态伙伴的支持,尤其是 Neoverse生态。我们在供应链端有众多合作伙伴,包括内存、连接技术等领域。也有大量正在使用我们IP核的优质客户。他们对我们的工作给予了极大支持。桑托斯刚才也提到了市场需求。市场规模庞大、需求旺盛,没有任何一家企业能独自满足。所以我不再过多赘述,让我们听听合作伙伴与朋友的心声。(各大生态巨头负责人祝贺短片,英伟达、迈威尔、美光、三星等等)
查理、马特、桑杰,还有我的老上司,他们讲得比我更精彩。这一切都离不开生态伙伴的鼎力合作与支持。我知道大家都迫不及待想了解这款产品,我也一样。相信你们一定会为之兴奋。现在,我将舞台交给Mohamed Awad。他将为大家详细介绍ARM AGI CPU,以及这款产品的卓越之处。
欢迎ARM云与AI业务执行副总裁Mohamed Awad。
Mohamed Awad:谢谢。谢谢Rene。谢谢Santosh。谢谢Kevin。谢谢在座的每一位。感谢ARM全体团队,成就了今天的一切。我们期待这一天已久,此刻心情无比激动。能和大家分享这份喜悦,倍感荣幸。谢谢大家。
Rene刚才讲到,世界正从传统数据中心,向AGI数据中心、智能体数据中心转型。而CPU正是这一切的核心。
我们围绕三个核心理念设计AGI CPU。这是我们工作的核心,也是我们专注的方向。
第一,性能。海量线程并发、海量任务处理、海量调度需求,绝不允许卡顿。就像Rene所说,智能体24小时不间断运行。如果性能不达标,依赖它的整个基础设施都会陷入停滞。所以我们极致聚焦性能。
第二,规模。我们所谈论的规模,超乎想象。Santosh刚才提到了吉瓦级算力。从CPU核心、单板、机架,到整个数据中心,全链路规模化。我们围绕这一点展开设计。
最后,也是最重要的,能效。因为要部署如此海量的算力,只有兼顾性能、规模与能效,我们才能实现目标。这三大理念指引着我们的研发,我们绝不妥协,三大维度同步设计。现在播放视频。(产品短片)我必须说,我们无比自豪。团队表现出色,这款产品从底层为AI时代量身打造。我再为大家解读一下视频中的信息,内容非常丰富。
ARM AGI CPU 基于我们标准的Neoverse V3 CSS打造。
这款CSS面向全生态开放,已有其他合作伙伴基于它研发产品。我们对此深感自豪。
芯片集成136个高性能V系列核心。V系列是我们性能最强的产品线,已在多家超大规模运营商与系统厂商的方案中创下性能纪录。每个核心配备独立的2MB二级缓存(L2 cache)。主频最高可达3.7GHz。我们的设计不局限于CPU核心,而是着眼于全系统优化。设计中采用96条PCIe Gen 6通道,支持CXL 3.0。可连接任意类型加速器,也支持内存扩展。内存方面采用DDR5,每个核心可稳定获得6GB/s内存带宽。这在同类产品、同等性能与能效水平下,是独一无二的。不仅是带宽与I/O性能,更在于整体设计。我们通过极致设计实现低延迟,内存访问延迟低于100纳秒。采用双芯粒设计,每个芯粒直接集成全部内存 I/O模块。无需复杂的电源域管理与多次芯片内数据跳转。最终成果:TDP(热设计功耗)仅300瓦。这一表现堪称惊艳。采用台积电3纳米工艺,实现最大化算力密度。这就是专用定制设计的价值,也是我们引以为傲的地方。AGI CPU在性能、规模、能效三大维度全面刷新纪录。视频中已经展示了部分成果。
这是标准的OCP风冷机架,没有任何特殊定制。没有任何高端稀有配置,就是标准OCP机架。功耗36千瓦,可集成超过8000个高性能CPU核心。采用双节点单服务器架构,单机架部署30台服务器。其他架构因功耗过高,无法实现这一密度。我们创下了风冷机架的性能纪录。如果采用液冷,表现更出色。
标准OCP液冷机架,功耗200千瓦,可集成超过4.5万个CPU核心。内置超过1PB内存。顺便说个有趣的细节:200千瓦机架的功耗,我们实际只用了一半左右。只是物理空间不足,无法塞进更多核心。
是不是很不可思议?这种规模令人震撼,也极具启发性。这些都是标准机架,但性能独一无二。为实现这一能效水平,ARM AGI CPU必须从底层重新设计。这也是我最自豪的地方,稍后会详细介绍。
在展开之前,我想强调:我们采用标准机架,不仅是为了适配OCP平台、利用现有资源。我们也在反向回馈生态。我们正在向OCP贡献多项技术,包括ARM服务器就绪方案、认证访问控制、诊断工具等。这些贡献不只适用于ARM AGI CPU,而是惠及全生态。让所有基于ARM架构的平台都能受益,因为我们打造的是真正的生态体系。ARM始终致力于培育生态、携手伙伴,这是我们的核心基因。这些合作关系正在带来巨大回报。
大家刚才看了Rene播放的视频,我们对所有合作伙伴心怀感激。正是这些合作,让我们得以研发出ARM AGI CPU。其中既有长期伙伴,比如台积电、三星、美光、海力士。我们与这些伙伴合作了数十年。也有新的合作伙伴,这让我们对AGI CPU倍感骄傲。
我们自豪地宣布:ARM AGI CPU现已正式上市。芯片已经交付客户手中,客户正在进行评估。我们已经准备就绪。感谢ODM、内存、芯片、制造领域的所有合作伙伴,助力我们走到今天。产品将于今年年底量产,我们对此满怀期待。目前,固件、规格参数均已就绪。
我刚才介绍了平台与供应链,还没谈到软件。看下一页幻灯片。
事实上,ARM在数据中心软件生态的投入已超过15年。或许并非所有人都了解我们在软件生态上的长期积累。早期,只有ARM独自投入软件生态建设。2019年,行业迎来转折点:我们推出了ARM Neoverse。这款计算平台的推出,大幅降低了客户的产品落地门槛。让客户能自主研发芯片,围绕统一平台凝聚力量。软件生态的飞轮开始转动。科技领军企业开始采用Neoverse,并围绕其优化软件。采用的企业越多,飞轮转动得越快。如今,AWS、谷歌、Meta、微软、甲骨文、英伟达,都与我们共同投入软件生态建设。这让我们在软件领域取得了显著突破。我们携手让ARM成为绝大多数现代软件的原生级支持。尤其是在AI软件生态领域,ARM不仅有原生级支持,软件不仅能在ARM上流畅运行,更是在ARM上运行得最优。原因很简单:在AI领域,ARM架构是支撑AI发展的首选CPU架构。我们与科技领军企业的协同努力,让如今数万家企业在云端基于ARM运行软件。
已有超过12.5亿个ARM Neoverse核心部署在全球数据中心。这种增长还在持续加速,这就是发展趋势。ARM在数据中心的表现无可挑剔。这是核心要点。
接下来,我邀请一位在软件领域经验丰富的嘉宾上台。Paul Saab在Meta基础设施团队工作超过18年,是公司任职时间最长的员工之一。他负责过众多关键项目,从闪存存储普及,到IPv6部署。如今,他专注于提升基础设施的AI运行效率。我们也因此结缘。有请Paul Saab。谢谢。感谢你的到来。
Paul Saab:谢谢邀请。
Mohamed Awad:我们之前聊过这段故事,但我想让大家都听听。Meta与ARM的合作由来已久,远不止近几年。能给大家简单回顾一下合作的起源吗?
Paul Saab:大概是2014、2015年,我们开始关注ARM。我们对 ARM 带来的能效提升感到兴奋。当时我们只针对自研的 HHVM(PHP/Hack平台)做适配。效果非常好,运行流畅、性能出色。但后来市场环境变化,我们失去了合适的硬件平台。于是我们暂停了项目,删除了相关代码。
Mohamed Awad:哦,天哪。好吧,那是2014、2015年的事。显然后来发生了变化,不然你也不会站在这里。那后续是如何重启的?
Paul Saab:故事说来有趣。疫情管控放开后,我和一些同事在家聚会。我跟一位同事说:我想重新适配ARM架构。我直觉判断,全球生态环境已经改变。如果现在不启动,未来就会陷入被动。我甚至没请示老板,就自行采购设备、启动项目。
Mohamed Awad:还好他现在认可了。
Paul Saab:我很少请示他。就这样,我们启动了项目。我们找到一些设备,联系其他同事说:我想重启ARM适配。他的回应是:我正想问你什么时候开始。我们拿到设备,开始适配工作,进展顺利,但速度很慢。我们只有8台设备,而原x86生态极其庞大。我跟团队说:我们试试交叉编译。(在x86电脑上交叉编译出能在ARM架构上运行的软件)最终我们采用了这个方案,昼夜不停地工作。5名工程师,耗时约90天。完成了全系统完整适配,准备部署运行。但我们又遇到了新问题:没有可用的芯片。就像Santosh刚才提到的,我们调研了所有合作伙伴。大概就是那个时候,我和你开始沟通。
Mohamed Awad:所以你觉得,当时市场完全无法满足你们的需求?
Paul Saab:“无法满足”都算是客气的说法。
Mohamed Awad:回到刚才的话题:90 天、5 个人,完成代码适配。但适配只是第一步,还要落地运维、优化性能。这部分进展如何?
Paul Saab:团队规模依然很小,但成员都非常专注,推动系统落地。从2022年完成初步适配,到推出具备生产价值、总拥有成本(TCO)最优、每瓦性能达标的系统。我们花了大约两年半时间。团队始终很小,即便现在,也只有少数人专注于极致优化。最初,只有一名工程师。他从未写过一行NEON指令(ARM架构的单指令多数据SIMD向量扩展,用于多媒体、AI、信号处理、图像处理等场景的硬件加速)、SVE(可伸缩向量拓展)指令。却独自完成了我们核心工作负载的 ARM 适配。
Mohamed Awad:现在,在典型工作负载下,整体性能表现如何?
Paul Saab:我们看到的性能,与市场上现有产品持平。同时实现了大幅的每瓦性能提升。
Mohamed Awad:非常好。我的提示灯快亮了,就不耽误你太多时间。最后,我想向你表示感谢。在你下台前,我想问一个问题:现在仍有部分企业尚未采用ARM,而数万企业已经在使用。你对这些企业有什么建议?
Paul Saab:我认为,组建小型专注团队完成适配即可。如果是现在启动适配,我会直接使用大语言模型。我看到,现在工程师优化现有ARM加速代码时。用大语言模型能再提升10%到20%的性能。如今,适配ARM的门槛几乎为零。因为大语言模型能直接完成适配工作。我现在都不用手写代码了。全程用大语言模型、自动生成测试用例,全流程自动化。所以,现在适配ARM没有任何借口。
Mohamed Awad:非常好,谢谢你,保罗。太鼓舞人心了。我和保罗认识有一段时间了。我了解他的执着,一旦他下定决心,就一定会做成。感谢你的支持,保罗。感谢你和Meta团队的深度合作。谢谢。
我最喜欢这个故事的点在于:他们有需求,市场无法满足。我们携手合作,解决了这个问题。AGI CPU的应用前景非常广阔。软件生态已经成熟,产品性能出色。这也是我们获得大量客户认可的原因。客户覆盖多个领域。比如Cerebras、Positron、Rebellions等企业。他们与Meta、OpenAI一道,采用ARM AGI CPU。用于主节点管理、加速器调度,以及智能体调度与分发。这些都是他们聚焦的具体应用场景。
在云计算领域,SAP、SK Telecom、Cloudflare等企业。已在积极使用或计划部署ARM 产品。这些只是计划采用ARM AGI CPU的部分客户。我不再一一介绍,让我们听听客户的声音。(客户代表分享视频)
再次感谢所有支持我们的客户与合作伙伴。你们的支持让我们倍感振奋。我们为你们打造了ARM AGI CPU,市场反馈也让我们欣喜。
ARM AGI CPU是从零开始量身定制的。确保性能可扩展,功耗可控。这就是我们的核心优势:性能、规模、能效。这一理念得到了合作伙伴的广泛认同。这与x86的思路截然不同。
x86背负着执行开销与前代架构功能兼容的包袱。他们追求模块化,适配多种市场与特殊场景。而我们极致聚焦于数据中心的核心需求:提升能效、降低延迟。归根结底,这是架构理念的差异。
我们不被过去束缚。我们不支持Lotus Notes等传统软件。我们只专注于AGI数据中心的精准需求。性能、规模、能效。我再详细解读一下。
首先是性能。对我们而言,性能就是每时钟周期完成更多任务。这一直是ARM的核心优势。每周期指令效率(IPC)是我们的强项。我们的AGI CPU在这一点上表现极致。
我们看到,传统CPU有时会通过提升主频、开启超频模式来竞争。但现实是:提升主频,必然会提升功耗。这是个大问题。这种超频模式无法长时间、全芯片稳定运行。而ARM AGI CPU,能全天候稳定输出满性能。这最终支撑了规模化扩展。
我们的核心可线性扩展,内存与I/O子系统专为匹配核心性能设计,持续为核心提供支撑。我们为每个核心提供最高6GB/s的内存带宽。
部分传统架构为了实现扩展,采用多线程技术。多线程会带来什么问题?同一个核心同时处理两个任务。这是他们实现高线程数的方式。但现实是:I/O与带宽不会翻倍。这只会把瓶颈转移到其他环节。而且CPU还要负担线程调度开销,导致性能下降、任务资源不足。
我们反复看到,数据中心运营商不得不超配30%以上的设备。来应对这种非线性扩展问题。这是行业普遍现象。我们引以为傲的是,我们无需这样做。展会现场有精彩的演示,欢迎大家会后观看。
最后,我们极致专注能效。显然,这一直是ARM的招牌优势。我们将数十年研发低功耗处理器、高能效技术的经验与技术,全部整合到这款专为AI数据中心场景定制的产品中。AGI CPU专为AI数据中心场景定制,无任何传统架构的负担开销。
一切都围绕性能、规模、能效展开。这就是我们的能效理念。归根结底:无浪费时钟周期、无闲置算力、无功耗或芯片浪费,我们对此深感自豪。我们看看实际应用效果。我给大家展示数据,结果不言而喻。
首先是持续性能。这是你能稳定获得的性能表现。无功耗超限导致的性能降频,无内存或I/O资源争用。这是你能稳定依赖的性能。大家可以看到,AGI CPU 的性能达到全球顶尖水平。是你可以放心使用的顶级性能。
其次是规模。每个机架能运行多少线程或智能体?在固定功耗、固定物理空间下,能支撑多少算力?还记得我刚才展示的机架吗?这就是我们的成果。
最后是能效,即每瓦性能。所有图表均基于禁用同步多线程(SMT)的条件。我们采用单线程核心,竞品也采用单线程核心。完全不使用多线程技术。
我已经表明了对多线程的态度,所以我们用这种公平方式展示。但我们经常听到,多线程能提升规模指标,提升每瓦性能。我们看看开启多线程后的结果。
首先,性能下降。这是左侧图表的结果。原因很简单:强行增加任务量,性能不可能保持不变。在当前内存与I/O带宽限制下,结果就是如此。
其次,每机架稳定线程数。受限于设备性能与各类瓶颈,很多线程无法实际使用,处于闲置状态。
最后是每瓦性能。确实有小幅提升,但不足以改变整体格局。
归根结底,结果一目了然:这是一款杀手级产品,ARM独树一帜。性能、规模、能效。我再重申一遍:这就是ARM AGI CPU的设计目标。它将对AI数据中心产生深远影响。
现在,我把舞台交回给Rene。谢谢。
Rene:谢谢Mohamed。谢谢Paul,还有帮我们完成适配的大语言模型智能体。今天我们和大家分享了很多内容。感谢大家的耐心与时间。如果今天只需要记住几个要点,我想应该是这些:每瓦性能,等价于每机架性能。对比x86架构同等方案,相同36千瓦功耗下,性能提升一倍。
这是大家要记住的核心。对于为功耗买单的用户,还有一个数字要记住:
1吉瓦算力对应的额外功耗资本支出,最高可达100亿美元。这是非常惊人的数字。再次总结:ARM AGI CPU的每瓦性能是原有方案的两倍,甚至更高。
刚才视频中,包括Santosh都提到:
我们今天的合作与发布,不只是为了当下。而是着眼于未来与长期路线图承诺。我们承诺,将持续推出下一代产品。ARM AGI CPU 2、ARM AGI CPU 3即将到来。
正如视频中所说,这是多代际的长期合作。我们投入巨大,客户投入巨大,生态投入巨大。我们坚定承诺,持续推进该产品线的路线图与未来发展。同时,我们将继续迭代相关CSS。正如Mohamed所说,CSS的核心价值,是帮助客户更快上市。也为我们自身带来巨大价值,所以CSS将持续推进。
最后,我想讲讲我们对ARM商业机遇的判断。
今天之前,我们的业务是 IP 核与 IP CSS。这项业务发展极为出色,远超两年半前IPO路演时对投资者的承诺。我们实际表现优于预期。
AI数据中心业务,当前版税层面的潜在市场规模TAM约30亿美元。我在财报电话会议中提到,云计算AI业务将在几年内成为我们最大的业务板块。这完全得益于Mohamed提到的增长,以及12.5 亿个Neoverse核心的持续部署。
展望未来,ARM AGI CPU已收获Meta、OpenAI、Cloudflare、SAP、F5等承诺客户,就是大家在视频中看到的这些客户。我们判断,这项业务的市场机遇将迎来颠覆性变革。
智能体 AI 的发展、CPU需求的爆发、低功耗CPU对数据中心的价值。我们预计,未来潜在市场规模TAM将达到1000亿美元。
今天的核心是ARM AGI CPU,但未来还有更多突破。现在不要追问我后续计划,但未来值得期待。我们认为,凭借从端侧到云端、从毫瓦到吉瓦的全场景技术积累。到本世纪末,我们有机会触及超过1万亿美元的潜在市场规模TAM。
我们仍有大量工作要做,但我对公司取得的成就无比自豪。感谢助力我们实现目标的生态伙伴,感谢承诺采购我们产品的客户。
最后,我想说:我们站在生态伙伴的肩膀上。没有35年来培育的生态,这一切都不可能实现。感谢现场与线上的每一位参与者。ARM无处不在,感谢大家的支持。谢谢。(播放宣传视频结束)
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.