网易首页 > 网易号 > 正文 申请入驻

智驾大模型的「隐形战场」:当GPU堆不动了,行业拼什么?

0
分享至

作者 | 本一

编辑 | 德新

过去两年,随着大模型的发展,智驾行业行业似乎进入一场“军备竞赛”。从大规模装车量产,采集数据喂养模型迭代,“算力”成为一段时间内主机厂们关注的焦点,行业甚至有「千卡是门槛,万卡是入场券」的说法。

从 BEV+Transformer 到端到端,再到如今大热的 VLA(视觉-语言-动作)模型,参数量指数级膨胀,让整个行业陷入了一种“囤卡狂热”。

仿佛只要堆砌了足够的 H100 或 H800,L3 甚至 L4 级别的自动驾驶能力就会在 Scaling Law 的魔法下,自动涌现。

在前不久的 2025 龙蜥操作系统大会(OAC)自动驾驶分论坛上,我们听到了一些冷静得近乎“泼冷水”的声音。

主持人在圆桌讨论的时候提到一个很有意思的事情:

之前微软 CEO 萨提亚·纳德拉在接受采访的时候就感慨过,即便拥有大量的 GPU,也面临着缺乏足够的物理基础设施(如机柜与电力环境)来安置它们的尴尬境地。

这也折射出了智驾行业一个被长期掩盖的痛点:单纯依靠堆砌 GPU,想“大力出奇迹”的模式,正在撞上一堵「物理现实与经济成本」的墙。

当行业的焦点都集中在英伟达、华为昇腾这些台前的“算力卡”上时,一场关于操作系统、基础软件与异构计算的“隐形战争”早已在水面下打响。

阿里云副总裁李俊平在开场致辞中提出了一个公式:AI 的效能 = 数据(燃料)× 模型(引擎)× 软件(油门和方向盘)

今天的智驾竞争,正在从单一的模型之争,演变为这三者乘积效应的系统工程对抗。


图片来源:龙蜥社区(OpenAnolis)

一、这届智驾,被“数据搬运”卡脖子

“谈卡伤感情,没卡没感情。”这是前两年智驾圈的真实写照。但到了 2025 年,很多车企发现,即便斥巨资买来了卡,训练效率却并没有线性增长

问题出在哪?GPU 在“偷懒”。

这其实不是什么硬件故障,而是数据“喂”得不够快。

智驾研发并非只有模型训练这一个环节,它是一个包含数据采集、清洗、标注、挖掘、训练、仿真到端侧部署的一条长长的数据闭环。


图片来源:龙蜥社区(OpenAnolis)

阿里云智能集团高级架构师张先国分享了一组数据:智驾研发团队,云端存储的数据总量通常已达到 400PB 到 800PB,日增量在 1PB 以上。一个智驾企业同时进行多个模型训练,消耗的算力经常需要万卡以上。

想象一下,GPU 就像是一台拥有 F1 引擎的赛车,但如果给它输油的管子(I/O带宽)只有吸管那么细,引擎空转就在所难免。


图片来源:龙蜥社区(OpenAnolis)

在龙蜥大会的现场,多位专家指出了“数据闭环”中存在的隐形关卡:

一个是数据加载的问题。训练开始前,海量的小文件(图片、标注信息)需要从存储层搬运到计算层。另一个是预处理可能遭受的瓶颈:视频需要抽帧、解码、清洗,训练集群就在那里,但数据卡在缓存层过不来,GPU 只能闲置等待。


图片来源:龙蜥社区(OpenAnolis)

阿里云产品专家钱君在演讲中提到,为了解决这个问题,行业正在把目光投向存储与操作系统的底层优化。

例如,龙蜥操作系统(OpenAnolis)给出的方案是全链路的“疏通”:针对 CPFS(并行文件系统),龙蜥在 OS 层面进行了深度适配。缓存写场景下的性能可以直接提升 10 倍。这意味着模型训练中的 Checkpoint 保存时间大幅缩短:以前需要几小时,现在几十分钟就能搞定。

这种“看不见”的基础设施优化,虽然没有新开发一个大模型那么性感,但它决定了生产智能的效率和成本,是让万卡集群真正跑满的关键。


图片来源:龙蜥社区(OpenAnolis)

二、CPU :被忽视的“异构协同”

在智驾的模型训练中,公众通常认为关键的算力在于 GPU;但在本届大会上,“CPU的挖掘”成为当下的新共识

“不能只关注 GPU,CPU 在数据预处理、存储 I/O 及逻辑控制中扮演着关键角色。” 中兴通讯操作系统产品副总经理胡冲在圆桌讨论中直言。

事实上,在视频转图片(抽帧)、数据清洗、以及 Spark 大数据分析环节,CPU 才是主力军。而且,随着架构的演进,Arm 架构的服务器 CPU(例如如阿里云倚天 710 )正在展现出独特的优势。

安谋科技(Arm China)云人工智能事业部总监侯科鑫女士,在演讲中向现场观众展示了数据中心架构的演进逻辑:随着 NVIDIA Grace Hopper 异构加速平台的推出,CPU 与 GPU 的“紧密协同处理”已成为行业明确的发展方向


图片来源:龙蜥社区(OpenAnolis)

为什么要协同?是为了打破“内存墙”。

“视频处理并不是简单的计算,它对高负载下算力要求极高。”张先国指出。

智驾训练需要把每秒视频抽帧为 8-32 张图片,在视频解码计算(如 H.264/H.265 格式)的高并发场景下,传统的 x86 架构,由于睿频(超线程)机制和功耗墙的存在,在高负载下往往会降频。

而张先国分享的实测数据显示,Arm 架构处理器凭借更多的物理核和大缓存(L1/L2 Cache),在智驾数据处理场景下表现惊人:

首先是视频抽帧,性能比传统 x86 提升约 20%,成本却降低了 20%-30%;

大数据清洗方面,由于拥有更大的 Cache(缓存),数据 Miss 率极低,这意味着 CPU 不需要频繁地去内存“搬砖”,从而使端到端性能提升了 30%,在部分场景下甚至实现了翻倍。


图片来源:龙蜥社区(OpenAnolis)

一个高效的智驾云端底座,必须是 CPU 与 GPU “各司其职、紧密抱团”的异构系统。

侯科鑫还从更宏观的维度讲述了硬件底座的变迁。她指出,为了打破“内存墙”和功耗瓶颈,数据中心正在从通用服务器向“定制化 SoC + Chiplet”演进

NVIDIA 的 Grace Hopper 平台就是典型案例——通过将 Arm 架构 CPU 与 Hopper GPU 紧密互联,实现内存共享,极大降低了数据搬运的延迟。这种 CPU 与 GPU 紧密协作的架构,正是为了解决单一算力无法应对复杂数据流的困境。Arm 推出的 Total Design 生态和 Neoverse CSS,正是以推动异构计算规模化落地为核心目标,让芯片设计公司能节省大量工程投入,快速构建这种异构计算的「高速公路」。


图片来源:NVIDIA

三、基础软件的魔法:不堆卡也能让训练变得更快

摩尔定律在放缓,硬件的红利正在吃紧。这时候,软件工程的价值就被进一步放大了。

阿里云智能集团编译器技术总监李三红在圆桌环节提到了一个非常典型的矛盾:模型开发者的“爽”和底层工程师的“痛”。


图片来源:龙蜥社区(OpenAnolis)

算法工程师喜欢用 PyTorch 的 Eager 模式,因为这样写代码像写 Python 一样灵活,所见即所得;但这种模式对底层硬件极其不友好,运行效率低。而底层工程师希望用 Compile 模式,把代码编译成极致优化的机器码,但这又要求上层改代码,门槛极高。

“上层的模型开发者追求开发效率(Eager Mode),底层的 Infra 追求成本和性能,这中间的 Gap(鸿沟),就是基础软件的机会。” 阿里云智能集团编译器技术总监李三红在圆桌讨论中一针见血地指出。

针对如何填补这一鸿沟的问题,阿里云智能集团产品专家钱君与高级架构师张先国在随后的演讲中展示了龙蜥操作系统(OpenAnolis)如何通过全链路优化,在不改变硬件的情况下“白捡”性能

存储加速(IO 吞吐): 针对 CPFS(并行文件系统),系统在 OS 层面进行了深度适配。钱君披露的数据显示,在缓存写场景下,性能提升了惊人的 10 倍。这意味着模型训练中的 Checkpoint 保存时间大幅缩短,断点续训不再是噩梦。

网络加速(打破 TCP 限制): 张先国指出,通过部署自研的 eRDMA 协议,相比传统 TCP,延迟降低 3 倍,带宽提升 4 倍(实测可达 18GB/s)。这让数据在节点间的跳跃如同在本地总线般顺滑。

编译器优化(榨干每一滴算力): 针对 PyTorch 等框架的运行效率痛点,利用 AI Compiler 进行算子融合。据钱君介绍,这套方案在部分通用模型上带来了接近 100% 的性能提升,有效地解决了开发灵活性与运行效率不可兼得的难题。


图片来源:龙蜥社区(OpenAnolis)

效果有多明显?

地平线和小鹏汽车的案例显示,通过这一套“操作系统+编译器+调度”的组合拳,部分场景下的性能提升可达 30% 甚至 100%,而成本却能下降 20%-60%。

在「降本增效」成为汽车产业主旋律的 2025 年,这种来自基础软件的“软实力”,比盲目堆更多的卡,更有性价比。

四、眺望未来:世界模型与“合成数据”

如果说当下智驾行业发展的痛点是“效率”,那么未来的挑战可能会是“认知”。

清华大学人工智能研究院视觉智能研究中心主任邓志东教授在圆桌论坛上抛出了一个前瞻性观点:智驾模型正在从单纯的感知,向世界模型(World Model)演进


图片来源:CVPR 2024 Driving into the Future: Multiview Visual Forecasting and Planning with World Model for Autonomous Driving

目前的端到端大模型,虽然能处理很多场景,但面对极端的 Corner Case(长尾场景),靠实车采集的数据永远是不够的。


图片来源:NVIDIA

“路是跑不完的,但世界是可以被模拟的。”

但这种演进这种演进对基础设施提出了更苛刻的要求:

算力需求的指数级爆炸: 世界模型极重,不仅需要理解物理世界,还要生成虚拟物理世界。这可能需要数百亿甚至更高的算力支撑,甚至触及到供电能力的边界。

合成数据的崛起: 真实路采数据的效率太低且稀缺。未来,大量的训练数据将来自“虚拟物理世界”的高效生成。这对GPU 的渲染能力和 CPU 的逻辑模拟能力提出了双重挑战。

软件定义的灵活性:正如中兴操作系统产品线副总经理胡冲在圆桌中所感慨的,算法迭代极快——“去年可能还是 BEV,今年就是 VLA 了”。而阿里云李三红也证实,一线技术团队确实清晰感知到了模型向 VLA 及世界模型演进的趋势。这种软件层面的极速狂奔,与硬件芯片较长的迭代周期形成了鲜明对比。这就要求编译器和操作系统必须具备极强的适应性,通过软件定义来抹平硬件迭代的时间差。AI 不仅要“看懂”视频,还要能“生成”视频,甚至要理解牛顿定律。

邓教授指出,这需要底层算力支持极其复杂的“虚实迁移”。这意味着,未来的操作系统不仅要调度计算,还要调度“物理世界的规则”

这也解释了为什么像龙蜥(OpenAnolis)这样的开源社区,开始在这个阶段强调“ AI 原生操作系统”的概念——因为旧的底座,真的撑不住新的世界了。


图片来源:龙蜥社区(OpenAnolis)

五、开源底座的长期主义

从 2025 龙蜥操作系统大会的这场自动驾驶分论坛中,我们看到了汽车科技行业的一个明显转折:

大家不再盲目迷信硬件的堆砌,开始回归计算机科学的常识——系统协同

面对 Arm、x86、RISC-V 等复杂的芯片架构,面对日新月异的模型算法,车企和智驾公司不可能每一家都去从零手搓一套底层软件。

而龙蜥社区的存在,就是为了提供一个标准化的技术底座,屏蔽底层异构硬件(不同架构的 CPU、GPU、NPU)的差异,让车企和智驾公司能够专注于上层模型和算法的创新。正如 Arm 通过 Arm Total Design 联合产业链一样,软件层面也需要这样一个“连接器”来降低全行业的试错成本。

正如胡冲所言:“通过社区共建、共享,降低车企的研发门槛与成本,是解决算力荒的另一种路径。”

在算力资源有限、成本高企、模型日趋复杂的背景下,谁能更高效地榨干每一 Tops 算力的价值,谁能以更低的成本完成数据的闭环流转,谁就能在 L3+ 的量产前夜活下来。

数据是资产,模型是能力,而软件与操作系统,是这一切的根基。

自动驾驶的下半场,不再是单点技术的突破,而是“数据-模型-软件”全链路的生态战争。在这个战场上,那个由 CPU、操作系统、编译器、文件系统构成的庞大“新基座”,正在成为决定胜负的隐形力量。

对中国的自动驾驶产业而言,建立一个自主、可控、高效的基础软件生态,其战略意义或许丝毫不亚于拥有几万张显卡。

因为只有根扎得够深,智能的树才能长得够高够稳。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
调令都通不过了,泽连斯基还要接着当总统,乌克兰能扛过90天吗?

调令都通不过了,泽连斯基还要接着当总统,乌克兰能扛过90天吗?

一口娱乐
2026-01-15 12:16:47
携程为什么被调查

携程为什么被调查

和讯网
2026-01-15 09:34:06
西部排名又变了:掘金创NBA奇迹,快船收大礼,2队排名互换

西部排名又变了:掘金创NBA奇迹,快船收大礼,2队排名互换

篮球大视野
2026-01-14 18:52:47
600410,一度534万手封单涨停,陈小群概念火了(附名单)

600410,一度534万手封单涨停,陈小群概念火了(附名单)

数据宝
2026-01-15 12:24:59
俺刚怀孕老公就出差,俺无奈去娘家,隔天回家取钱,推开门,蒙了

俺刚怀孕老公就出差,俺无奈去娘家,隔天回家取钱,推开门,蒙了

秀秀情感课堂
2026-01-13 13:40:03
不装了:美国掏出“广场协议”的刀,却发现中国脖子比刀还硬

不装了:美国掏出“广场协议”的刀,却发现中国脖子比刀还硬

近史谈
2026-01-14 23:13:22
获刑6年后,原温一医书记周蒙滔任新职!

获刑6年后,原温一医书记周蒙滔任新职!

大永强
2026-01-15 09:57:51
每体:从皇马下课两天后,阿隆索被拍到和妻子在马德里散步

每体:从皇马下课两天后,阿隆索被拍到和妻子在马德里散步

懂球帝
2026-01-15 04:53:27
“以为中奖羽绒服没想到是挂件”冲上热搜,知名品牌MLB抽奖活动被指“图文不符”,客服:若未写明具体礼品则为随机发放

“以为中奖羽绒服没想到是挂件”冲上热搜,知名品牌MLB抽奖活动被指“图文不符”,客服:若未写明具体礼品则为随机发放

极目新闻
2026-01-14 15:37:52
为何而哭?在战胜皇马后,巴列霍泪流满面并且情绪完全失控

为何而哭?在战胜皇马后,巴列霍泪流满面并且情绪完全失控

懂球帝
2026-01-15 08:04:58
贵州跑圈“女神”李绍艳去世,年仅30岁,多次在马路上逆行摆拍

贵州跑圈“女神”李绍艳去世,年仅30岁,多次在马路上逆行摆拍

裕丰娱间说
2026-01-15 12:51:13
远离造神陷阱,官媒揭开杀猪宴呆呆妹真实处境,令人担心的事发生

远离造神陷阱,官媒揭开杀猪宴呆呆妹真实处境,令人担心的事发生

说历史的老牢
2026-01-14 12:07:16
南京市政府关于周军强等同志职务任免的通知

南京市政府关于周军强等同志职务任免的通知

黄河新闻网吕梁频道
2026-01-15 11:04:49
1968年,林彪想换北京军区司令,毛主席只问了一句话,林彪彻底哑火

1968年,林彪想换北京军区司令,毛主席只问了一句话,林彪彻底哑火

老杉说历史
2026-01-09 22:00:17
他身高1米6却娶了中国首席舞蹈家谭元元

他身高1米6却娶了中国首席舞蹈家谭元元

丰谭笔录
2026-01-13 07:30:10
泽连斯基:乌克兰能源系统 将进入紧急状态

泽连斯基:乌克兰能源系统 将进入紧急状态

每日经济新闻
2026-01-15 08:02:13
上任首秀就耻辱输球!皇马新帅难了,球迷赛后嘲讽:我们要阿隆索

上任首秀就耻辱输球!皇马新帅难了,球迷赛后嘲讽:我们要阿隆索

阿泰希特
2026-01-15 11:29:52
没有球权自己争取杨瀚森砍下新高22分,耀眼盖帽抖手助攻值得期待

没有球权自己争取杨瀚森砍下新高22分,耀眼盖帽抖手助攻值得期待

大漠风光
2026-01-15 12:41:12
韩国总统文在寅的复仇之路,隐忍10年,终为卢武铉复仇李明博

韩国总统文在寅的复仇之路,隐忍10年,终为卢武铉复仇李明博

干史人
2024-11-25 19:30:03
4场三分14中1!火箭队离队首人无悬念?新控卫崛起,老将难逃交易

4场三分14中1!火箭队离队首人无悬念?新控卫崛起,老将难逃交易

熊哥爱篮球
2026-01-15 12:37:40
2026-01-15 13:48:49
HiEV incentive-icons
HiEV
新一代智能汽车创新研究平台
1026文章数 79关注度
往期回顾 全部

汽车要闻

今年推出超40款新车,BBA要把失去的夺回来

头条要闻

银币半年暴涨20倍 杭州有人一口气花30万买15公斤银砖

头条要闻

银币半年暴涨20倍 杭州有人一口气花30万买15公斤银砖

体育要闻

你是个好球员,我们就拿你交易吧

娱乐要闻

传奇棋圣聂卫平离世,网友集体悼念

财经要闻

“疯狂的白银”,还能走多远?

科技要闻

千问接入淘宝支付宝,大模型开卷办事能力

态度原创

时尚
房产
旅游
游戏
艺术

最时髦的单品,难道不是背肌吗?

房产要闻

热销17亿后!天正·三亚湾壹号,被爆违建!

旅游要闻

冬暖花开游云南丨玉溪冬日的幸福旅程

《辐射》经典旁白原声:初代参演报酬仅40美元

艺术要闻

历代书家集字春联大集合

无障碍浏览 进入关怀版