点击上图,查看往期优秀营销数字化案例
来源:沃垠AI ID:WoYin-AI 作者:沃垠AI
最近,阶跃星辰联合创始人朱亦博在一期播客中,深入分享了他对AI Infra(人工智能基础设施)的理解——从国产芯片替代,到模型与硬件的协同优化,再到强化学习带来的系统性变革。他认为,AI Infra 与传统 Infra 最大的不同,是要靠近模型,也要靠近硬件,才能在这个高度垂直整合的时代发挥作用。
部分精彩观点,摘录如下:
1.
AI Infra 处在垂直整合的位置,需要面向特定硬件做模型设计和极致优化,大厂在这方面的人才错配,是过去一段时间的症结之一。
2.
早做 MoE 模型,往往意味着 Infra 团队在公司内有更高影响力和更强远见。
3.
强化学习的引入,不只是算法的调整,而是影响了硬件选择、系统架构乃至模型设计的全链路。
4.
想做最优秀的大模型,就必须有最优秀的AI Infra。
5.
优秀的 Infra 团队,必须能画出“运行成本/效率—模型效果”的曲线,而不仅仅是参数量—效果的曲线。
6.
最能利用计算的方法,长远来看才是赢家;摩尔定律的延续与充分利用,是 Infra 的终极课题。
以下是全文内容,经授权转发。
播客地址:https://www.xiaoyuzhoufm.com/episode/688cc1cc8e06fe8de7d920cd
《关于AI Infra的一切 | 对谈阶跃星辰联创朱亦博》
曲凯:我们今天很高兴请到了朱亦博,曾担任字节的 AI Infra 负责人,目前是阶跃的联合创始人,继续负责 AI Infra 的相关工作。
先请亦博和大家简单介绍一下自己吧。
亦博:大家好,我是朱亦博。现在在阶跃星辰,负责为大模型搭建 AI Infra。
在加入阶跃之前,我最早在微软研究院,主要从事分布式系统方向的研究工作。2018 年加入字节跳动,开始负责构建字节的 AI Infra,一直做到 2023 年初。之后有一段时间在 Google,待了不久就出来创业,创立了阶跃,正式投入到大模型方向的探索中。
曲凯:所以基本上可以说,你是国内最懂AI Infra的人了。
亦博:不好意思这么说。
曲凯:之一之一。
亦博:如果说实战经验,确实算比较多的。
1.AlphaGo之前,AI Infra这个词都没人提
曲凯:现在大家经常在提 AI Infra,但其实这个概念和定义挺模糊的。很多公司只要不是做模型、不是做应用的部分,都会被归到 AI Infra。
从你的角度来看,你是怎么理解 AI Infra 的?
亦博:我觉得可以简单分成两块:硬件和软件。
曲凯:硬件就是说 GPU 那些?
亦博:对,硬件主要是 AI 芯片,也包括像网卡、交换机这些。
软件这边我比较喜欢用云计算的三层架构来类比:IaaS、PaaS 和 SaaS。
最底层的 IaaS,是指把裸卡组装成服务器、连成网络、做好运维和管理。这一层也包括大规模存储系统。你从计算机系统的角度看,其实就三件事:计算、通信、存储。IaaS 就是覆盖这三大件。
往上是 PaaS,像是调度平台、资源管控平台,还有一些模型服务管理的系统,也可以算在这一层。
再往上是 SaaS 层,我觉得像训练框架、推理框架的优化这些,其实也可以放在这里,虽然它们不是传统意义上的应用。
曲凯:那是不是可以说,AI Infra 是和传统互联网 Infra 并行发展的两条线?
亦博:我觉得可以这么说:其实 “AI Infra” 这个词,在 AlphaGo 之前基本上是不存在的。那时候可能叫 Machine Learning Infra,或者叫MoE System,但还没有这么清晰的定义。
在那之前,大家做的更多是通用的 Infra,主要还是以 CPU 为主的系统。
2.从单机实验到工业级部署,AI Infra 的代际交替
曲凯:所以其实你的职业生涯,刚好跟 AI Infra 的发展是同步的。
亦博:可以这么说。我自己算是第二批从业者,第一批包括贾扬清、李沐、陈天奇这些人。
曲凯:哦,他们算第一批啊?
亦博:对,他们开始得更早。比如贾扬清,他在读博期间就开始接触这块,最早做的就是 Caffe 框架。这个框架其实是为了支持他自己做算法研究而开发的。所以你可以理解,那时候做 AI Infra 的人,其实是为了推荐算法研究,要把GPU利用起来。那个阶段还没有“AI Infra”这个说法,也没有专业的系统团队介入。
曲凯:所以他们是从无到有把这件事做出来的?
亦博:对,他们相当于是第一批元老。而我,算是第二批从业者,是在深度学习被工业界广泛关注,并且要大规模应用的时候。我做的更多是“上规模”的事。
第一批人更多还是在单机或小规模分布式上打磨系统,虽然他们也探索过分布式方向,但真正意义上做到几千张卡、超大规模调度和训练,是我这种第二代人更常面对的场景。
3.想做最优秀的大模型,就必须有最优秀的 Infra
曲凯:明白。所以这两年大模型出来,你的职业经历应该正好赶上了一个特别好的时机吧?相当于一下子到了主流舞台。
亦博:可以这么说。这也是我决定一定要出来创业、亲自参与的原因。
对于 Infra 来说,创业其实挺难的,因为它天然是支持应用的。尤其我们这种做大规模 Infra 的,早期在业务规模还小时,通常不会被重视,这也是合理的。像美团、滴滴,刚起步时业务体量很小,也不会一开始就配专业 Infra 团队,只有量上来了、遇到高并发挑战,才会开始补 Infra。
所以在过去,Infra 人才比较难参与到一家公司的早期创业阶段。但这次不一样,大模型给了 Infra 一个特别好的机会。
上一次类似的机会是搜索引擎。以前 Google 处理海量互联网数据,需要世界一流的 Infra。可以说 Google 的成功,很大程度上是因为 Infra 特别强。它本质上就是一家 Infra 公司。
现在大模型也是类似的逻辑。同样的有大量的数据、极高的算力需求,范式直接跳了几个数量级。这时候你想做最优秀的事,就必须有最优秀的 Infra。
所以对我而言,这可能是十年、二十年才会遇到一次的机会 —— Infra 能做到这么核心的角色。
曲凯:嗯,对。你刚才那几段话串起来,其实可以理解为,一切都是由数据驱动的?数据的形态、量级变了,需求也就变了。
亦博:可以这么理解。数据至少是非常非常关键的一方面。
曲凯:所以做 Infra 的本质,其实就是每天用各种技术手段去和数据打交道?
亦博:是的,服务于数据的处理。今天的主流方式是学习数据、处理数据,大规模的 Infra 基本都是为这个目标在构建。
4.AI Infra 和传统 Infra,本质相同、路径不同
曲凯:你觉得移动互联网那套 Infra 和 AI 的 Infra,是完全并行的两条线,还是有一些相似和不同之处?
亦博:除了那些一入行就做 AI Infra 的新人,其实大部分人都是从传统 Infra 转过来的。所以两者既有很多共同点,也有明显的差异。
从问题的本质上看,他们是一样的:要解决大规模任务如何可靠、高效地运行,如何把计算、通信、存储有机结合起来完成任务。大目标是一致的。
但在具体实操上差别很大。AI Infra 的绝对核心是 GPU,而传统 Infra 的核心是 CPU。这两种硬件在特性上完全不同,对通信互联、存储的要求也不一样。
所以可以说,AI Infra 是为 AI 定制化的一整套系统。在 Infra 的世界,太阳底下没有太多的新鲜事,但是会在某一个方向上钻的更深更定制,然后AI Infra在很多方面要做的更极致。
5.Infra 强调积累,资深经验与新人创意同样重要
曲凯:听起来,AI Infra 和传统 Infra 在底层、本质目标上都是类似的,只是技术栈和使用的硬件不同。那这种情况下,转型做 AI Infra 容易吗?你觉得未来做 AI Infra 的人,更多的会是新一批成长起来的人,还是老一代转过来的?
亦博:我觉得都会有。Infra 和算法的工作方式不太一样。算法在很大程度上依赖年轻人,甚至有算法圈的朋友说,算法工程师只有两年的“保质期”,两年后,他们的聪明才智已经发挥完了,反而容易陷入思维定势,新东西跟不上。
而 Infra 是一个相对强调积累的事情,所以我觉得老人也会发挥重要作用。当然,新人也会带来新的idea。
曲凯:对,我们和传统 Infra 工程师聊时,大家经常讲怎么提高并发量之类的问题。理论上 AI Infra 也是类似的,对吧?
亦博:在推理,也就是线上服务的时候,我觉得是类似的。只是用的硬件和运行的任务不同——我们用 GPU 跑 AI 模型,但最终在很多方面确实有相似之处。
6.所有业务都依赖 Infra,关键在于你投不投入
曲凯:你们现在核心服务的一些目标,或者数据指标,大概会有哪些?
亦博:其实你可以找到 CPU 或者传统 PVP 对应的东西。比如,我们强调你在 Chatbot 上问一个问题,第一个字返回给你的时间,就是首字延迟。你也可以想成,你点开一个 APP,它多久才显示第一个页面。其实类似的,回复你的首字延迟,以及之后吐字的速度是否稳定、流畅。这些是线上服务的事情,同时我还要以尽量低的成本做到。
训练那一侧,其实就比较像大数据。以前大数据用 Hadoop、Spark,也是有非常多 CPU,处理大量数据做计算。现在是用 GPU 处理大量数据,去训练一个模型,从概念上来说是相似的。
曲凯:明白。但听起来,是不是只有量级很大的公司才需要用到 Infra,包括 AI Infra,也是一样的?
亦博:应该说,所有的业务产品都要依赖 Infra。只是你是否愿意投入人力成本、研发成本,把你的 Infra 做到领先水平,以及做到领先水平对你的产品业务有多重要,不同公司是不一样的。
7.Infra 是确定性很高的投入,账算得很清楚
曲凯:以你目前的理解,不同阶段和不同类型的公司,对 Infra 的投入应该是怎样的?
亦博:这个账很好算。比如你有 1 万张 GPU,都是比较贵的卡,1 万张 GPU 月租一个月一个亿。如果雇一些人把利用率优化 10%,就能省 1,000 万,或者赚 1,000 万。你愿意为这 1,000 万一个月雇多少人?
在 Infra 侧,这笔账很好算。无论是在前司还是现司,如果去算这笔账,Infra 在每个公司的贡献都是很挣钱的。从省钱的角度来看,要覆盖人力成本非常轻松,所以 Infra 是一件确定性很高的事。
小公司用的 Infra 没那么多,就会去算值不值得雇 10 个人来优化一定比例的性能。如果不值得,外面有 baseline,比如找云厂商,也会给你一个比较通用的方案,规模不大也够用。这也是 MaaS、公有云的价值锚点——为规模较小的公司省去这部分投入。
8.AI Infra 夹在模型与硬件之间,差异化价值才是生存关键
曲凯:现在也有很多云厂商、模型方自己做 Infra 相关的东西,也有一些第三方公司在做。在这种情况下,做应用或创业的公司自己需不需要做?为什么还会有第三方公司切入?我理解这个事情应该是云厂商和模型方自己做到极致才对。
亦博:以 MaaS 这个生意为例,每个模型厂商主要还是 carry 自己的模型,以自家模型的 API 为主。那会不会有一个像集贸市场一样的平台,可以自由选择各家 API?我觉得这是 MaaS 厂商想做到的事。当然,公有云如阿里云、火山云也在做类似的服务,他们除了 carry 自家模型 API,也会有其他家的 API。初期能获得应用说明需求是存在的。
长期来看,更重要的问题是:第三方做这件事有没有独特的价值。短期可以靠推广、降价获客,但如果长期没有独特的价值,这个模式就不成立。
AI Infra 夹在模型和硬件之间——下面是硬件,上面是模型。如果硬件和模型大家都能获得,那么中间这一层的价值就比较小,会非常非常卷,最后只能打价格战。没有人的技术能在 AI Infra 这边拉开很大的区别,差距可能只有几个月。
因此,第三方的价值要么来自与硬件的垂直整合,要么来自与模型的垂直整合。就像 PS5 因为有独占游戏才让人买,Steam 也有独占游戏,但它其实是一个内容分发平台。MaaS 也是 API 的内容分发平台,除了通用功能,真正留住用户的是一些独特的东西。比如有的 MaaS 和硬件厂商深度合作,能更低价拿到算力以及技术支持,还在硬件研究上有独到的研究,这就是独特优势。大公有云则因为有自家模型(相当于第一方独占游戏),才是吸引用户的核心内容。
曲凯:我一直觉得海外有很多 Infra 公司,融到很多钱,最后也能高估值卖掉。但国内似乎对 Infra 的看法一直没那么乐观。
亦博:其实也没有多大估值吧。
9.不要做夹在中间的人,要跨界去影响技术走向
曲凯:国内机构的看法可能和你刚才说的类似,觉得 Infra 被夹在中间,两边都会吃掉你的份额,又不好赚钱,技术壁垒也不强。你其实是从本质上更同意这个观点的?
亦博:我不反对这个观点,但每件事都有两个角度。一个是你说的这个角度,另一个是对我个人以及从业者的指导——不要去做夹在中间的那个人。
我选择站在模型这一侧,也有人可以选择站在硬件那一侧。AI Infra 在这里有以前 Infra 没有的独特价值——现在是模型和硬件都在追求极致的时刻。比如以 DeepSeek 为例,如果要做出在硬件上运行高效、性价比好的模型,需要既懂硬件又懂模型。而真正两头都懂的人,正是处在中间的 Infra 人。
所以可以反过来看这个问题:如果愿意跨一步,与模型做垂直整合、与硬件做协同设计,会有很多机会;但如果固步自封,只做优化,不考虑上下游,那确实会很窄。
曲凯:我理解,但这样会有个挑战:一旦和模型或硬件绑定,万一选错了怎么办?
亦博:不是被动的绑定,而是参与。最重要的是参与其中,比如你能影响硬件的走向,因为你比硬件团队更懂模型;或者在模型公司,你比模型团队更懂硬件。你能推动模型或硬件向你认为好的方向发展。成功最好,不成功也是自己的责任。
10.给定算力,Infra 决定你能训出多好的模型
曲凯:我们刚才讲了 Infra 在降本增效上的作用,但它对模型最终训练结果的好坏能起到多大作用?这个怎么评判?
亦博:这就是为什么大模型公司对 Infra 非常重视,因为它会直接影响模型训练效果。大家都在玩同一场比赛——给定算力,谁能训出最好的模型。从最终结果来看,Infra 水平确实会影响模型的效果。
曲凯:主要影响哪些方面?成本肯定是会影响的。
亦博:举个例子,假设我们都有 5,000 张卡、三个月的训练周期,更好的 Infra 能提升 20% 的效率,就能多学 20% 的数据。三个月后模型一比,因为多学了 20% 数据,效果就会更好——假设其他条件相同。
曲凯:所以 Infra 是一个能标准化衡量好坏的东西?有些指标一眼能看出来?
亦博:是的,但它也是个复杂问题。不同硬件和不同模型有一个专业指标叫 MFU(Model FLOPs Utilization),指硬件在训练或推理时实际完成的运算次数(分子)与理论算力(分母)的比例。这个比例越高,说明对硬件的利用率越好。
11.先想清楚第一优先指标,再谈效率
曲凯:我记得当时 DeepSeek 有发这个指标,说做得很好。
亦博:实际上不是。DeepSeek 的训练 MFU 其实是偏低的,这就是我想说的——这是一个复杂问题。虽然有这样的指标,但它和模型、硬件都相关,也和你的优化目标相关。
举个例子,DeepSeek 以及包括我们在内的所有人,在 2024 年的优化目标并不一样。我们的优化目标是:在给定的训练算力下,训出最好的模型;DeepSeek 的目标是:在给定的推理成本下,把模型效果做到最好。
因为优化目标不同,至少在 2024 年上半年,DeepSeek 的基模并不比大家强。在一些榜单和公开评测中,它并不是第一。
转折发生在 2024 年 9 月 OpenAI 发布 o1 模型之后。你可能听说过 test-time scaling,就是在推理时多思考一会儿,从而得到更好的结果。这类推理模型是靠强化学习训练的,而强化学习本身就包含大量推理过程——推理一大段,选出最好的答案,再给模型奖励。
DeepSeek 的模型推理成本低,就变成了强化学习训练最快的模型。相比我们这些以基模为核心的团队,它在强化学习训练上的速度能快好几倍,这也是它第一个做出 R1 的原因。
可以说,这是在不同优化目标下的胜利,也有一些运气成分,因为 DeepSeek 在开始设定优化目标时,大概率没想到 test-time scaling 会在 2024 年 9 月成为热点。但天时、地利、人和凑到一起,就成了优势。
所以回到本质,我们确实有很多指标,比如训练效率、推理效率,但最重要的是先想清楚你的第一优先指标是什么,并确保它既符合当前业界需求,也契合未来技术发展方向。
12.现在的第一指标,是模型输出的速度
曲凯:当下有比较通用的第一指标吗?是大家差不多了吗,还是有很多不同方案和路线?
亦博:大家的认知并没有完全统一。从 o1、R1 以及强化学习出现以后,我觉得最重要的指标是 decoding 的速度。Decoding 的成本就是推理,分为两部分:
一部分是 prefill,处理输入,比如一段很长的文档;另一部分是输出,也就是“吐字”。我认为现在最重要的,是输出的速度。
原因有两个:
第一,对线上业务来说,这是非常直接的成本;
第二,它直接决定强化学习的效率。如果输出很慢,获得 reward 的速度就比其他模型慢。
所以我觉得现在的第一指标是 decoding,或者直接理解为模型输出速度。但也有人还停留在上个时代,比如关注训练 MFU,这和公司在训什么模型、团队状况有关。
曲凯:如果你和其他做模型的 Infra 人聊,几句话就能判断他们的认知和水平吗?
亦博:是的。聊他们最近在优化什么、大概能做到什么数据,就知道了。
曲凯:大家的差别大吗?
亦博:还是有的。
曲凯:区别更多是在方向选择上,还是技术水平?
亦博:最重要的区别永远在方向选择上。就像我说的,如果现在还特别关注 MFU,在我看来是对当前技术状态的认知有问题。
曲凯:你觉得会不会出现下一个新的核心指标?像当年 DeepSeek 做新指标时,别人还没意识到?
亦博:不好说,但还是有可能的。
13.模型是铁三角:算法、系统、数据
曲凯:你提到从你的视角做 Infra,需要特别懂硬件和软件,那算法团队呢?如果遇到不同意见,谁来主导?你和算法团队会怎么合作?
亦博:最简单的方式是像同一个团队一样合作,共同完成训练模型的任务。分工不同、优先级不同,就一起讨论,谁该让步就让步。所有事情都有权衡,有时我可能会损失一半的系统性能换来算法的小幅提升,有时反过来。这些权衡都需要两边一起定。
曲凯:所以实际合作过程还好,沟通就能解决?
亦博:这是小团队的优势,大厂很难做到。尤其在大厂里,Infra 往往只是支持型角色,很多时候模型团队提出设计,Infra 只负责优化训练和推理速度,没有反向影响力。
曲凯:而且降本在大公司里可能也不是最重要目标。
亦博:是。所以关键是你是单纯的降本角色,还是能正向影响模型效果的角色。Infra 完全有可能对模型效果产生正向影响。
曲凯:听起来要发挥主观能动性。
亦博:有主观能动性还不够。比如 Infra 和算法分别汇报给同一个只懂算法的 leader,会发生什么?很多问题是组织架构和人的问题。
曲凯:一般人会觉得算法是模型最核心的部分。
亦博:算法确实很核心,但模型是铁三角——算法、系统(Infra)、数据,三者都非常重要。
曲凯:理想情况下,要优化任务时,就这三方合起来一起讨论,形成兼顾各方优势的结果。
亦博:外界有些理解是偏的。比如模型的效果不是算法人员决定的,是数据决定的;模型的效率和成本是系统决定的。
既然效率和成本与模型结构最相关,模型结构其实应该由系统人员设计才能获得最优成本;模型的效果排名应该由数据人员负责;算法人员最核心的工作是训练范式。
曲凯:听起来合理,但现在很多不是这样的。
亦博:是的,现在模型结构设计基本是算法团队在做,模型效果排名也是算法团队负责,但实际上,算法人员不一定最适合做这两件事。
曲凯:阶跃是不是按照你说的方式来做?
亦博:更像是一个团队协作,小公司人少能做到,大公司人多很难完全统一,这种管理也很难。
曲凯:很多大厂或者老一代 AI 公司遇到的最大阻碍就是组织结构问题。
亦博:是的。
曲凯:新的 AI 公司虽然人员延续了上一代,但组织结构可能不一样。你刚才讲的是模型训练部分,在做应用时,比如产品经理也得懂技术。
亦博:对,我们也碰到这样的问题。
曲凯:要更全栈。但大厂做事往往一次拉几十个人,非常精细化的分工,反而做不出更好的结果。
亦博:而且分工是按之前的理解来的,不适合新时代,这导致模型结构落在算法组,成本和效率难以最优。
曲凯:你们是一开始就用正确的方式,还是踩过坑?
亦博:当然踩过坑。比如我们对算力和能力过于自信,做了一个巨大的模型,也执行完了,但它有一些额外的问题。
曲凯:比 Llama 还大?
亦博:是的。你知道 DeepSeek 模型不小,我们的模型不比它小,而且比它早一年做。但回顾起来还是有一些错误。
曲凯:前两年很多公司也在反思,当时不应该碰模型。
亦博:关键是要认识到,做研究和做工程不一样。所有下注的事情都有可能错,没什么大不了。踩坑了就爬起来继续走,这一局你赢了,下一局我赢回来。
曲凯:你们后面的重点方向是什么?
亦博:阶跃的最大特色是多模态,在国内稳居前二,并有相关业务。我们做的是真的多模态,大语言模型与视觉的融合,所以大语言模型部分也需要持续研发。我会重点关注语言基座的最高效结构,这不是纯算法问题,至少系统要和算法五五开。
公司后面会联合端侧做协同,也要考虑端侧硬件条件,什么模型、什么部署方式适合,这些都是重点。强化学习的 Infra 依然非常复杂,这里还有大量工作要做。
14.最大的阻碍,不是看得到路走不通,而是根本没有明确的路
曲凯:你觉得不管是对你,还是所有做 AI Infra 的人来说,现在遇到的最大阻碍或最核心的突破问题是什么?
亦博:有一种阻碍,是你看到了路,执行就能完成的;还有一种,是根本没有一条明确的路。能完成的,比如禁售、算力问题、强化学习工程的复杂度——各种环境的搭建,这些终归有方法解决。更困难的是那些更具革命性的问题,只能走一步看一步。
曲凯:比如说呢?
亦博:比如真正做到模型和硬件的 co-design。现在的现状是,几乎所有模型都是针对英伟达的卡优化的。Google 的 TPU 虽然有一些特色,但在本质计算范式上和 GPU 一致,所以模型差别不大。最近有 H20 的传言,但 H20 依然是相对弱的卡。
还有国产芯片的问题,以及全世界范围内是否有人能推翻英伟达的计算范式。
你可以想象,如果出现一种全新的芯片,它的特点与英伟达完全不同,又有人利用这些特点做出了比所有人都强一档的模型,那将是极具革命性的事情,图灵奖可能就在眼前。如果是商业公司,就会有无人可敌的壁垒。这样的事情非常困难。
15.范式革新两年一遇,下一次或在2026
曲凯:我觉得对于模型来说,上一个 Aha moment 是年初的 DeepSeek。最近一直有传闻说 GPT-5 快发布了,但最后会怎么样还不好说。RIO 这波在 DeepSeek 之后,好像也没看到特别新的、特别大的变化。同时很多人也在讨论,是不是数据不够了等等各种问题。你怎么看未来模型在量变和质变上的发展?
亦博:范式革新不会那么快。上一次是在 2022 年的 GPT-3.5、InstructGPT,这一次是 2024 年 9 月的 o1。DeepSeek 可以看作是 o1 的一个复线,本质上还是 o1 这个范式。大约两年一次,如果按这个速度推算,也许下一次大变革是 2026 年。
曲凯:对,2026 年能有就已经很好了。
亦博:也许吧。
曲凯:你们能看到一些大的方向吗?下一个可能会是什么?
亦博:我们觉得多模态还有一些突破的可能性,尤其是在多模态生成和理解的统一上。现在多模态的状态很像 2020 年纯语言模型的状态——那时最流行的是只做理解的 BERT。现在还没有人真正把理解和生成统一做好。统一的标志是:一个模型在理解上比只做理解的模型好,在生成上也比只做生成的模型好。就像 GPT-3.5 一样,让专用的翻译模型都退休了。我觉得这里还是有希望看到曙光的。
曲凯:OK,最近 Google 的 Veo 3 效果也让大家觉得很好。
亦博:Veo 3 还是偏上一代的专用生成模型,但它确实做了很多工程整合,比如配音乐等,把功能融合到一起。不过技术本质和产品不是线性顺滑的关系。
曲凯:所以它的定位还是把上一代做到极致?
亦博:对,而且这条路不止它在走,其他公司也在走。
16.Snowflake 和 Databricks,本质是数据管理与处理公司
曲凯:顺便提到 Google,美国那边其实有很多专门做 Infra 的大公司,比如 CoreWeave,可能大家听得少一些,但它是美股里今年涨了好几倍,而且和英伟达的卡绑定很紧。大家更熟悉的可能是 Databricks、Snowflake 这些。你怎么看这几家公司?
亦博:这些公司实际上不是 AI Infra 公司,但现在也在做一些 AI Infra 相关的产品。它们本质都是做数据管理和处理的公司。
比如 Snowflake,我们一直觉得它商业做得很好,但核心技术其实很简单——它在云环境下(亚马逊云、微软云等)提供了一套统一的数据抽象,让你能用同一套管理方式跨不同云来管理数据。成为数据管理入口后,它就能往后加增值服务,比如帮你处理、计算、展示数据等。
Databricks 的技术核心更强一些,它源自分布式计算框架 Spark 的主导团队。但到了商业化落地阶段,它的逻辑也类似——帮助传统企业用最方便的方式,把数据存起来、管起来、串起来。当客户的数据被管理好之后,自然也可以做一些 AI,因为 AI 本质上也是学习和处理数据的,所以他们也在往 AI 方向转型。
曲凯:所以在你看来,他们更偏向数据那一部分?
亦博:不是,他们是服务数据的 Infra。
17.开源模型推动了AI Infra,也可能拖慢创新
曲凯:你觉得现在有没有第三方公司,不管是大的上市公司还是初创公司,是你所说的典型 AI Infra 类型?
亦博:初创公司很多,你刚才提到的 CoreWeave 也是,贾扬清的公司也是(已经被收购了)。国内的话,有无问芯穹、潞晨科技等。
曲凯:但基本上这几家都是做推理加速,对吧?
亦博:我对他们近况不是特别了解。无问我的理解是以推理为主(当然可能有误)。潞晨早年做训练,硅基流动的袁进辉老师早年也是做做训练,这家公司主要做推理。这和商业模式有关——我个人觉得训练的商业模式不太成立。
曲凯:所以对于创业公司或第三方 Infra 公司,还有什么别的机会吗?因为刚才那几家都是偏推理方向的。
亦博:这和时机有关。现在训练模型的主要是非常懂行的专业人士——第一,赚钱难;第二,我们训练模型是为了用模型本身去竞争,这意味着训练过程中的任何研发都是核心竞争力,很难在早期交给第三方。所以如果不做训练,就只剩推理了,而推理相对比较干净。
曲凯:正好问一下,现在很多流行的开源模型,会对 AI Infra 市场有什么影响?
亦博:很多人认为开源模型对 AI Infra 的总体技术有促进作用,这有道理。尤其一些热门的开源模型,大家会研究如何让它跑得更好,在这个过程中促进了 AI Infra 发展。但事情都有两面性——因为某个开源模型很火,大家花大量精力优化它,反而可能影响创新。比如在 DeepSeek 出现之前,很多人都在优化 LLaMA,结果 DeepSeek 的模型完全不一样,今年很多积累和时间就废掉了。
18.为国产卡设计 SOTA 模型,让它也能高效运行
亦博:我觉得还是有一定意义,但我想补充一点。在谈到 Infra 企业,包括硬件时,比如 DeepSeek、Qwen 这些模型,本质上现在都是针对英伟达卡优化的。国产芯片不是不能跑,但性价比比不过英伟达。
这些模型又是开源、免费使用的,你可能听过一体机这类生意。做一体机的人会发现,用英伟达卡跑 DeepSeek 和 Qwen 的性价比和竞争力都比国产卡好,这反而影响了国产芯片在市场上的竞争力。
曲凯:这是必然的结果吧?毕竟国产替代就是在没有英伟达好卡的情况下的选择。
亦博:所以我在想,我们能不能为国产卡设计一些 SOTA 水平、可以跑的效率非常高的模型。
曲凯:那把卡的问题先刨除,你觉得国内外 AI Infra 的能力差距大吗?
亦博:差距还是相当大。
曲凯:算法上有差距可以理解,但 AI Infra 更多是工程和方向选择,以及优化指标的工作,理论上差距不该这么大吧?
亦博:一个原因是规模差距。Infra 必须谈规模,1 万卡和 10 万卡会遇到完全不同的问题。另一个原因是上下游的影响,比如 OpenAI、Google 都在自己做芯片,他们的资金和人才储备让他们更容易做到硬件与模型的整套 co-design。国内有这个条件的公司非常少。
曲凯:目前国内几乎没有吧?
亦博:个别大厂有,但能不能真正组织起来形成良好状态还是个问号。有些大厂有自研芯片,也有自研模型。
曲凯:所以 Google 那种自下而上的全套自研,训练效率会高很多?
亦博:会有明显优势,这也是 OpenAI 一直最忌惮 Google 的原因。Google 模型现在也很强。
曲凯:那最终是不是大家都得有自研芯片?
亦博:不一定,但风险存在。如果哪家公司把模型和芯片上下统一做到极致,会给竞争对手带来巨大压力。长期来看必然会有这样的公司,比如 Google。但其他公司如果不走这条路,就只能从其他方向寻找突破,进行差异化竞争。
曲凯:这么看,国内还是任重道远啊。
亦博:对。
19.真正的视觉推理,是直接看图推理,不依赖文字中转
曲凯:我知道阶跃马上要发一个新模型,这期发的时候可能已经发布了。你能讲一下这个新模型的情况吗?
亦博:从算法角度来说,这是国内第一个可由第三方商用的百B级视觉推理模型。最近一些模型的发布都是纯文本推理,我们这是国际SOTA水平的大规模视觉推理模型。
曲凯:能解释一下视觉推理吗?
亦博:视觉推理就是根据视觉信息,比如图片或视频帧,完成推理任务。我们有案例,比如拍一张照片,让模型判断地点;或者在更实际的任务里,让机器人去柜子里拿东西——目标可能被遮挡,需要分析并规划步骤完成任务。
可以把机器人比作有小脑(控制动作)和大脑(拆解复杂任务),视觉推理就是大脑的部分。对于机器人、手机、汽车等物理世界的智能设备,视觉模态是天生的,它们要依赖视觉推理来完成复杂任务。一个常见应用是拍照解题。
曲凯:但之前的一些模型,比如4o,也是拍图或截视频帧,然后理解后转成文字再推理。
亦博:那不是真正的视觉推理。
曲凯:那你们的方式是?
亦博:我觉得有不同的层次。我们不需要中间转成文字,直接看图推理。
曲凯:数据就不转成文字了?
亦博:可以理解为它真的看懂这幅图。
曲凯:就是更端到端?
亦博:是端到端。比如我要拿一个被遮挡的物体,用文字很难完整描述现场位置关系,但看图就能直接规划——先拿开这个,再拿开那个,最后拿到目标。端到端可以保留更多信息。更高层次的任务比如“走迷宫”,其实是要求你有一个在图上画草稿的过程。
曲凯:就像RIO做的事情?
亦博:对。解数学题是在文字领域走迷宫,视觉领域更难。
曲凯:你们是开源发布?
亦博:是的。我们希望全国上下产业都能受益,给所有国产芯片免费商用授权,开放模型权重并帮助适配。
B级视觉推理在国内目前是唯一的,我们还优化了架构,让国产卡的推理成本很低,与英伟达卡有竞争力。这样既能帮他们提升商业竞争力,也希望他们帮我们推广模型,这是共生关系。
曲凯:多模态模型的成本未来会怎么下降?
亦博:多模态理解成本不高,生成尤其是视频还贵。我很乐观,一年内会大幅下降,几分之一的可能性很大。
20.DeepSeek 做得好,就是因为梁文锋懂 Infra?
曲凯:做好AI Infra最关键的点是?
亦博:我觉得很难有完全的全才,但除了懂Infra本身,还要精通模型或硬件,才可能做好。
曲凯:市场上做AI Infra的人多吗?
亦博:比两三年前多了,但最顶尖的还是很少。
曲凯:未来AI公司成长起来,会需要更多Infra人才吗?
亦博:必然的。从计算资源看,GPU算力远超CPU且差距会越来越大。如果90%的成本投入在GPU,就需要为GPU工作的人。即使现在不做Infra,也应该关注这个领域。
曲凯:做Infra的人常被低估或忽视吗?
亦博:看你想做什么。从某种程度上是的,有些人不想离业务太远。但大模型时代,Infra的重要性大幅提升,本质上是模型的核心部分。有人说DeepSeek做得好,就是因为梁文峰是Infra出身。
曲凯:为什么说梁文峰是Infra的人?
亦博:因为他本身研究Infra,他原来做量化,非常强调低延迟等特性,所以他对Infra有深入研究。
曲凯:按照我们说的三块——Infra、数据、算法,你觉得梁文峰最擅长Infra?
亦博:业内基本有共识。据我所知,DeepSeek的Infra工程师数量多于算法工程师,而在很多大公司情况正好相反。这与过去的业务传统有关。
以前做Infra,以少量人支持大量业务为荣,说明Infra做得通用、影响力大。但在大模型快速发展时代,这种模式反过来了,需要针对特定硬件设计并极致优化模型,这就要大量Infra投入。这也是一些大厂近年比较挣扎的原因之一——人才和投入方向与需求错配。
21.Infra团队越早做MOE,越能看出它在模型结构上的影响力
曲凯:还有没有其他例子,可以说明行业在做AI Infra时遇到的问题和解决方式?
亦博:有。比如最近有家公司开源了一个模型,说体量不大,但效果能越级对比更大的模型。实际上,由于架构设计问题,它在硬件上的运行效率很低,比所谓的大模型还慢。这就是算法人员不懂硬件、不懂Infra的结果。他们画的图只看模型尺寸和效果,而不是运行成本与效率。真正要做的是画出“成本/效率–效果”的图,并在上面找平衡点。没有拉通算法和系统的团队做不到这件事。
还有MOE模型也是个例子。一个团队做MOE的早晚,直接反映了Infra团队的影响力和地位。MOE在算法人员眼里是降本手段,不提升模型能力上限。
曲凯:我记得当时大家讲 MoE 才能承载那么大的数据量这个点。
亦博:我觉得有些事情是大家认可以后去找的一些理由。
曲凯:还是因为数据量过大训练不了,训练不了就会回到 Infra 的问题。
亦博:几年前,我们在前司复现GPT-3时,业务觉得效果好但太贵,于是我们开始研究MoE——既能把模型做大,又能降低推理成本。那是2022年初,ChatGPT还没火。
曲凯:对,这个真的很早,我都没想到那个时候就有 MoE 了。
亦博:你要知道,这是Infra团队在主导训练MoE模型,不是算法团队。前几个月我见了一个老朋友,他以前负责算法,当时看我们做MoE,他觉得不关自己的事,因为认为这不是算法该做的事。
你可以这样看——训一个100B的MoE模型,和一个100B的非MoE Dense模型相比,Dense更强。所以在他们看来,MoE只是省成本。只是现在大家都知道激活参数量对成本很重要了,算法人员也明白了。但当年他们只看总参数量,同样100B的模型,MoE不如Dense,没必要去训。
所以,越早做MOE的,其实是系统团队或Infra团队有影响力、有远见的体现。比如DeepSeek,一开始就做MoE,这就说明他们Infra团队在模型结构上的影响力。我们是2023年12月开始训的第二代,也算早的。
曲凯:你什么时候加入阶跃的?
亦博:2023年5月。
曲凯:如果回顾从2023年初到现在,有哪些节点让你改变了观点或方向?
亦博:我觉得最大的一次是 o1,那一下强化学习的转变。我们之前也做强化学习,但 ROHF 只是很小的阶段。转向强化学习后,Infra 的各种模型设计都要以推理输出为优化目标,这样强化学习才能训得快。各种基建、硬件的选择也会围绕强化学习,比如可以用不同的卡型、做异构、更分布式等。这对很多以前 AI Infra 或大模型 Pre-train Infra 的假设都有影响,是最大的一个变化。
曲凯:现在美国那边的模型,有些在 coding,有些往 agent 发展,有些往多模态走,也有可能最后融合到一起。你觉得未来会是差异化路线,还是殊途同归?
亦博:现在看有一定差异化,代码是一个明显的差异点。Anthropic 做 Claude,强化学习不算强,但依然能在代码上做到最好,因为投入了大量人力去准备、构造、清洗代码相关数据,比 Google 和 OpenAI 更专注,所以代码能力最强。
细分领域如果专注投入,模型还是能打磨出特定优势。但不确定能持续多久,也有风险,也许新的训练方式会直接碾压过去。
agent 和模型的关系也很微妙。比如 agent 公司调用模型 API,搭建 workflow,做出好的端到端体验。这说明该任务本身就是模型稍加优化就能完成的。如果应用火了,下一代模型可能就会原生具备这个能力,那 agent 公司怎么办?
但模型公司也未必比 agent 公司做得快。在模型能力不足、方向不明确的情况下,还是 agent 公司更快找到场景,用工程手段让模型“踮起脚尖”去完成任务。我觉得这个生态是“共生又互相杀伤”。
22.给 Infra 从业者的一些建议
曲凯:所以你对现在想转行做 AI Infra 的,或者正在做 AI Infra 的人,有什么建议?
亦博:建议是靠近模型、靠近硬件,这是 AI Infra 和其他 Infra 最大的区别。最好是真正对这个领域感兴趣,并且有足够的主观能动性去做各种 co-design。AI Infra 处在这个位置,就需要垂直联合优化,才能做出好的工程。
最终,最能利用计算的方法,长远来说才是赢家
亦博:我最喜欢的一篇文章是《Richard Sutton 的 The Bitter Lesson》。它是站在算法人的角度来看问题,说的是——“最终,最能利用计算的方法,长远来说才是赢家”。短期内的各种奇技淫巧,其实都不本质。
我从 Infra 的角度看,这篇文章对我们的指导意义也很大——如何把硬件的计算力发挥出来,如何设计模型去最大化利用计算,这是最本质的。
我希望有一天还能影响硬件。过去几十年发生了很多事,比如英伟达 GPU 翻身,抢走了 Intel、AMD CPU 的风头。GPU 相比 CPU 不够灵活,但并行计算能力极强,本质上是换来了摩尔定律的持续。CPU 的摩尔定律已大幅放缓,但英伟达 GPU 依然大约每两年算力翻一倍。
这正印证了 The Bitter Lesson 说的——摩尔定律开始时看不出差距,但长久累积,差距巨大。如今英伟达算力是 CPU 的十倍、百倍,AI、元宇宙、区块链等所有需要大算力的新应用都得跑在它上面,所以最重要的是摩尔定律。
怎么换取摩尔定律的持续,怎么设计模型和系统软件,使之能跟随摩尔定律,把硬件性能发挥到极致。这对 Infra 团队意义重大。
曲凯:好,那我们就感谢亦博今天的时间。
亦博:谢谢。
点击下方关键字,查看原创热文
行业案例:| | | | | | |
业务场景:| | | | | | | | | | | | |
系统应用:| | | | |
数智科普:| |
米多是国内领先的营销数字化整体解决方案提供商,为企业提供顶层设计(营销数字化蓝图/架构/体系等)、系统规划(一物一码/智能营销/渠道管理)及运营落地(扫码发红包/一元换购/五码合一等)提供服务,用数字化驱动业务增长。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.