![]()
原创:亲爱的数据
AI模型大厂,其要者OpenAI,Anthropic,
余如谷歌,AWS,微软,Meta,亦并包其中。
北美共识,群雄争霸,
得大批量GB200者,基业可成。
但AI泡沫之说,甚嚣尘上。
假如近日新到货一批英伟达GB200,
账单10亿美元,
傍晚运抵到货,摆放在新落成的数据中心里,
还没上电,万事大吉乎?
只是一个开始,
账单还远没有结束,
添置资源,还要花钱。
谭老师我数学不好,
数学题不会就是不会,
几笔大头开销,姑且算算,
若有谬误,伏望赐教,
服务器和存储,
算你50%;
网络,
算你10%;
电力,冷却、数据中心等,
算你20%;
运维和人力成本,
算你10%;
配套系统软件,
算你10%;
掐指一算,跑起来,
综合成本大约30亿左右。
现金哗啦啦流出现金流量表,
这份账单,还不是一次性的。
不过,也有人说,卡买到就是赚到。
把GPU买回去,即使当时没用上,
转手租出去,立刻就赚钱。
甚至有的企业,以租代买,本质就是买了,
只是财务计账方式不同。
花钱还是赚钱,
我认为,光看近期的财报没用,
大赛道的回报肯定不在当下。
最近阿里说:未来三年内,
不太可能出现人工智能泡沫。
完全同意。
在我看来,AI的生意越来越像:
超级巨轮在大海里捕鲸。
传统的大云厂商在规模和基础设施上,
具有压倒性优势。
买到卡,生死攸关;
用好卡,关乎存亡。
![]()
今天我们重点来聊聊,
卡到手了,怎么用好?
因为省下的,约等于赚到的。
谭老师和某位AI infra匿名专家聊完,
得知头部厂商对软件团队——“重新分工”,
对,没听错,重新分工。
这种像“组织升级”的东西,
是《甄嬛传》,还是《九子夺嫡》?
好问题,都不是。
我长话短说,不过说来话长。
AI软件栈上面,其实是兵分两路的,
两个部门,也是两个兵种:算法组,系统组,
各有专攻,高度分离。
![]()
既然重新分工,
有三个问题要先聊透?
1.原来如何分工?
2.为什么要重新分工?
3. 如何重新分工?
以前,两个组的关系,
就像“两个独立的部门”。
算法组,追求创新,追求准确性,
常常只停留在理论创新或数学层面;
通常不太考虑算法如何在AI芯片上高效跑起来,
这件事是系统组的职责。
但是,系统组接手的时候,
局面已相当被动了。
这种被动,一时半会不会结束。
随着模型日益变大,
旧打法不变恐怕不行,
因为这种“分而治之”的模式,
已经逐渐变得非常低效。
简单说,算法组设计算法,
系统组负责,支持支持,大力支持。
无论你是写算子,还是优化算子,
AI大模型软件栈,越往下做,它的复杂性越高,
想做好,付出代价越大。
整个大模型的系统想提效10%,
恐怕要几十个人,干个把月,
面对这种被动,必须拿出办法解决。
常言道,出奇制胜。
既然一直以来,
算法和系统“高度分离”
能不能让它们“天然打通”?
能,就是得变。
人很难脱离自身的岗位视角去做全局判断,
这就是“屁股决定脑袋”的现实逻辑。
所以,重新分工。
算法的核心——创新,当然还是在算法组。
从这个角度,系统组将会主导哪些关键决策?
模型的大结构包括,规模、层数等,
比如,MoE的层数,头数等。
一般来说,模型结构里,
会重复堆叠了多个“基础功能模块”,
这件事情能不能交给系统组?
让系统组负责部分“模型结构”,
算法设计就会从一开始就有了硬件执行性,
或者说算法设计贴近AI芯片实现。
![]()
算法核心方法创新,当然还是在算法组。
把工作划分给系统组的原则是什么?
那些十分影响算力利用率,
影响计算负载的分配,
又会涉及并行计算的部分。
因为这些设计工作,
需要深入理解硬件架构的计算特性。
![]()
重新分工聊完了,
我拿到头部大厂内部消息,
这种思路已经在内部推广,
推测一下,有哪几个厂商可以这样做。
全栈一体化自然不用说,
比如,谷歌和TPU,
AWS和Trainium,
阿里云和其自研芯片。
顺着这个思路,恰好最近Gartner出了
GenAI(生成式AI)技术创新指南系列,
第八期报告,
和我的想法对照一下思路;
在AI基础设施这个维度,领导者象限里,
除了以上自研芯片的厂家都在,还有一个微软,
微软虽然没有自研AI芯片,但它有OpenAI。
![]()
从位列其他象限的公司来看,
这个玩法,华为也有AI芯片,也可复制,
但他们在AI云业务上稍逊一筹。
而腾讯,甲骨文,IBM也多用英伟达GPU,
所以,它们想进入领导者象限,仍有难度。
全栈一体化打法已是公认,
据我所知,国内有家上市互联网厂商,
暗地里也在用全栈一体化的打法。
这家的创始人,
是清华系互联网老兵,
他们用了不少华为昇腾系列(Ascend)芯片。
这家在模型算法的投入已经够大了,
仍然毫不犹豫在系统组投大量人力,
加人干什么呢?开发昇腾算子。
到底买了多少华为的卡?我不能说;
我能说的是,他们决心很大。
无论重新分工,还是国产芯片(算子)投入,
英雄不问来路,为了同一个目标:
将算法和系统打通,最大化芯片效率。
而想位列Gartner,既要有相当规模的卡,
还要上面模型好,
再要下面系统组实力强,
三者缺一不可,
这个维度的竞争,有些强者恒强的味道,
领先好几个身位,
有意思的是,有能力的新兴挑战者象限,
居然空空如也,为啥?
因为候选人都还停留在专家象限,
意思是当前能力弱+未来潜力弱,
这一象限有那些不缺卡的大厂商(富二代),
卡多,但模型上不发力,
比如,英伟达的亲儿子CoreWeave。
不过,我不同意Gartner报告,
对Cloudflare的判断 ,
它在AI Agent工具领域举措颇大,
吸引大批开发者,
很多工具的进展,
甚至比AWS的速度还要快。
![]()
干AI这行的,
谁还没被算力账单虐过?
“重新分工”才能把卡利用好;
才能在模型本身和工程两方面,
对算法和系统分而治之的厂商,
形成降维打击。
上一节是“分工”的理论,
这一节,我们用GPU例子,聊聊实践。
有一个算子(叫Attention Mask)。
这个算子的本质是“注意力计算的范围控制器”,
它的思路很松弛,对待token,
“该算的算,不该算的扔”,
这样计算量就不再是“全量计算”,
而是再让芯片特性和“扔掉后”的计算逻辑“对齐”。
怎么对齐?扔掉后,重新打包,
成为适合并行计算的方式,再给GPU处理。
![]()
这件事情先由算法组决定:
“为什么要扔掉?”,“扔掉哪些?”“扔掉后要达到什么效果?”,
下面,再由系统组负责:扔掉一部分token后,
计算逻辑怎么在AI芯片上跑最快?
这样,芯片不会算了不该算的,浪费时间。
为什么我举了一个“注意力”的例子?
有专家告诉我,他判断,
2026年将会是“注意力”的大年,
我完全同意。比如,线性注意力,
今年收获了不少好论文(阿里,字节跳动),
好实践(MiniMax-01);
国内唯一!阿里千问斩获NeurIPS 2025最佳论文奖
我也认为,“注意力”明年会有大变化。
但是,无论怎么变化,
“注意力”的发展方向都是:
降低计算复杂度,降显存。
![]()
阿里云人工智能平台PAI,大数据平台DataWorks负责人,黄博远告诉我:“AI的开发范式升级,从稳定、超大规模的预训练开始,到基于后训练的行业快速定制,快速落地;AI开发门槛会大大降低,推广也会加速,促进行业应用增长,这样形成的AI生态是:上游是通用模型生产者与平台方(如阿里),中游是用垂直行业知识优化模型。下游是最终AI应用的使用者,也就最广大的用户群体。”
“重新分工”这种“打通”的方式,有利于模型丰富度,有利于工程化,有助于AI平台进化,因为AI平台需应对不同的算法和不同的场景,面对的挑战不仅是模型架构的复杂性,还包括硬件支持的多样性。
AI工程,可以分得很细,
这样,大量创业公司就有机会专注细分领域,
从而做出独特优势,
虽然这方面大云厂商的工程化成熟度都高。
但是,市场上挑战者也多,
玩得好,甚至可以做大,挤进领导者象限。
常有创新公司公司在领导者象限出现,令人兴奋;
也是AI这行的魅力之所在。
尤其是当下,工程化价值较高的时期。
![]()
![]()
模型变化剧烈,再强的巨头也不敢妄论输赢,甚至不敢判读当下的认知完全正确。今年的变化,很容易发现,不少厂商的模型沦为长尾,消失在旗舰模型的方阵里,略感悲凉。
年末,冬已向晚,时间迈入2025年最后一个月,今年优秀旗舰模型层出不穷:GLM4.6,MiniMax M2,Kimi K2。而美国Meta公司的Llama系列开源模型,
却从C位快速滑向边缘。
![]()
我曾经在硅谷见到过Llama3的高级研发,也和Llama3产品经理有过简单交流,回想当时,讲台上,没有聚光灯刻意雕琢,他们身上也闪烁着技术普惠者独有的光……那时候,硅谷有位研发和我聊起来:
“你知道嘛?阿里的千问就是中国版的Llama,
一模一样的开源策略。”
此论彼时颇有见地,如今则不合时宜。
Llama后续版本接连失利,
而千问系列,越打越强,
阿里优质模型不胜枚举,
Qwen3-VL是图文理解模型,
通义万相2.5是视频生成模型,
Qwen3-Omni是全模态模型
没有人再会说,这是中文版的Llama。
DeepSeek也依旧精彩,
最近的多个版本都有惊喜。
Qwen和DeepSeek,
直接承包了中文模型下载量的绝对大头。
而且只要有更新,
B端客户紧随其后,版版不落。
某能源央企内部员工告诉我,
基础模型有三个模型一定会部署,
两大开源头部模型和垂直模型(能源)。
原话是:“又不要钱,
为啥不马上用最新的开源版本”,
可见,除了开源,
“AI能力+垂直场景”的特色模型厂商也很受欢迎,
因此,在Gartner报告,
“GenAI模型提供者维度”,
领导者象限亮眼的有三家:
Writer(企业级+写作素材),
Cohere(企业级+合规安全),
UiPath(RPA+AI知识自动化平台)。
![]()
![]()
“模型”周边也是不烧卡的玩法,
AI知识管理刚好用上。
知识管理这件事,
最适合的梗就是,谁考完试还看书?
答案是企业。
因为只要企业的业务还在经营,
知识积累就在持续。
过去几年,
AI的重点都在“模型本身”,
2025年“模型周边”兴起。
换句话说,除了模型本身还强大不够,
还要在周边搭脚手架,
比如,重要组件——AI搜索(引擎)。
模型周边脚手架也是能够提高模型能力,
但能节省算力的解决方案。
搜索引擎一定要从头做起吗?
答案是肯定的,
需要时间和技术积累,
而且难度高,投入大。
![]()
而且轻量化的搜索,
不让用户获取到最精准的帮助,
如果是垂直大模型(能源,物流,电力),
还需要和整套搜索系统架构同时做起来,
消耗极大,难上加难。
以上是AI搜索。
而AI知识管理,据我了解,
现在很多坐拥多元化战略的大型企业,
建设知识管理,
会建设一个语义搜索和RAG的基础平台,
这是整个AI生态系统的根基,
也就是“第一层楼”
“第一层楼”的目标是,
为知识融合和智能应用提供支持。
而第二层楼是数据和知识互联互通,
又是难打之战,后面其实还有很多层楼,
就不展开讨论了,
在这个赛道,大家几乎还在投入阶段;
![]()
Istari企业智能创始人杨荟博士告诉我;
“第一,AI知识管理摸索过程中,
会遇到很多纯模型厂商难以预料的现实问题。
我相信,哪怕是OpenAI和谷歌手里,
也不会有答案。
企业内部的很多知识来源于,
对私有数据中信息的提炼,
怎么样把数据平台和知识平台打通,
现在没有成熟方案,
大部分有数据管理能力的公司,
都声称有建设能力。
第二,这个赛道有好几种玩家,
有做大模型的进来,
有传统文档和项目管理的进来,
还有知识图谱和数据库的公司进来。”
这在Gartner的第四份报告中也有体现,
左下象限,H2O是个老牌数据分析公司,
Asana公司的软件是做项目管理和项目协作,
也是老牌,其软件有团队文档管理的功能;
Stardog公司主要产品是企业知识图谱。
特别值得注意的是,
一些老牌企业,经过多年运营,
坐拥大量企业知识,
技术文档,供应链数据等;
投入AI知识管理,
比模型公司更容易做出成绩。
所以,在领导者象限,
除了大云厂商熟悉的身影,
如擅长向量检索+实时查询厂商Ealstic,
也有IBM这种老牌科技企业,
供应链长,多年全球化经营,
且在大规模IT基础设施,
企业级服务方面都有优势。
右下象限为什么空缺?
因为知识管理领域的首要目标客户是企业,
企业绝不接受画饼。
不接受“当前能力弱+未来潜力高”的厂商,
俗称:“饼太硬,吃不了。”
也就是说,厂商要有绝对实力,
且是当下就有。
![]()
我总结一下,
在“AI知识管理应用/通用生产力”维度,
Gartner报告的评测范围覆盖很广
包括企业级 AI 搜索、对话式 AI 平台,
以及用于沟通和内容开发的生产力工具,
这些应用当下对“工程”能力较为依赖,
所以和前面工程维度的挑战者象限,
有不少重合厂商,
而且是大数据时代就很优秀的厂商。
![]()
![]()
![]()
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.