![]()
CES 2026英伟达主题演讲中,英伟达创始人兼CEO黄仁勋宣告AI迎来从“理解语言”到“改变物理世界”的历史性时刻。英伟达披露面向物理AI的技术路线图。从开源模型到智能驾驶场景落地,从云端训练、仿真验证到现实世界部署,英伟达试图以全栈计算体系,推动AI从“看懂世界”向“推理、行动”方向演进。
英伟达物理AI全栈体系
为智驾发展筑基赋能
英伟达在智能驾驶领域搭建一套完整的技术栈,主要由芯片层(GPU、网络芯片、CPU)、基础设施层(Omniverse、Cosmos)、模型层(Alpamayo)、解决方案层(DRIVE AGX Hyperion 10)、应用层(汽车)组成。英伟达通过协同设计,打造从电力驱动到算力支撑,从模拟训练到现实执行的闭环,构建让智能汽车执行复杂任务的核心框架。
英伟达智能驾驶技术栈
![]()
来源:至顶智库结合公开资料整理绘制
解决方案层面,英伟达推出的面向L4级自动驾驶车辆的NVIDIA DRIVE AGX Hyperion 10作为具备计算与传感器架构的通用平台,可使车辆具备L4级自动驾驶能力,旨在助力汽车制造商为汽车、卡车及厢式货车配备经过验证的硬件和传感器,并支持任何可兼容的辅助驾驶软件,从而为安全、可扩展且由AI定义的移动出行奠定基础。
DRIVE AGX Hyperion 10搭载两个基于Blackwell架构的高性能DRIVE AGX Thor车载平台。每个DRIVE AGX Thor可提供INT8精度1000 TOPS的计算能力。DRIVE AGX Thor融合来自360度全方位传感器的输入数据,并针对Transformer、视觉-语言-动作(VLA)模型及生成式AI工作负载进行优化。
模型层面,英伟达最新发布的Alpamayo涵盖VLA推理模型Alpamayo 1、仿真框架AlpaSim和开放数据集,致力于实现L4级高级自动驾驶目标。英伟达创始人兼CEO黄仁勋表示:“物理AI的ChatGPT时刻已经到来,机器开始具备理解真实世界、推理并付诸行动的能力。Alpamayo为智能汽车注入推理能力,能够应对罕见场景、在复杂环境中安全行驶,并解释驾驶决策,为安全、可规模化的智能驾驶奠定基础。”
英伟达Alpamayo与Cosmos
开启智能驾驶新篇章
英伟达Alpamayo和Cosmos发挥各自模型优势,促进智能驾驶快速发展。从特点来看,Cosmos世界基础模型用于生成极端环境下的智能驾驶训练样本,Alpamayo VLA推理模型基于训练样本生成行驶路线,让汽车实现自主驾驶。
Alpamayo:具备推理能力的辅助驾驶VLA模型
![]()
来源:NVIDIA CES 2026 Keynote
Alpamayo将开放模型Alpamayo 1、仿真框架AlpaSim与物理AI开放数据集整合为统一开放的生态系统,任何汽车开发者或研究团队可在此基础上进行研发。Alpamayo作为教师模型,供开发者调优、蒸馏,成为其完整辅助驾驶技术栈的核心基础。
Alpamayo 1基于100亿参数架构,该模型通过视频片段输入生成行驶路线,同时给出推理思路,能够清晰展示每项决策背后的逻辑。开发者可将Alpamayo 1调整为更精简的模型部署于车端,也可将其作为辅助驾驶的基础架构。
Alpamayo 1模型架构
![]()
来源:Alpamayo 1: Bridging Reasoning and Action Prediction for Generalizable Autonomous Driving in the Long Tail,NVIDIA
Alpamayo 1架构主要由视觉、推理、动作三大模块构成:
在视觉模块,系统通过视觉编码器处理来自多摄像头的图像输入,同时通过文本编码器处理用户指令、导航指令等信息输入;在推理模块,基于流匹配的动作专家解码器以推理输出为条件,将离散轨迹Token转换为连续且满足运动学约束的路径点;在动作模块,轨迹解码器采用轻量级条件流匹配技术,通过强化学习后训练提升推理与动作一致性与行为质量。
AlpaSim作为一款面向高保真辅助驾驶开发、完全开源的端到端仿真框架,提供逼真的传感器建模、可配置交通动态,以及可扩展的闭环测试环境,支持快速验证与策略优化。
物理AI开放数据集作为英伟达多元化辅助驾驶开放数据集,包含超过1700小时的驾驶数据,覆盖广泛的地理区域和环境条件,涵盖推动推理架构发展所必需的罕见且复杂的真实世界极端场景。
Alpamayo核心优势体现为三大方面:
可解释性。不同于传统数据堆叠的端到端模型,Alpamayo核心优势在于类人的推理能力,不仅能通过传感器输入直接驱动车辆,还能利用“思维链”解释驾驶决策。
攻克“长尾场景”。Alpamayo通过将复杂场景分解为可理解的多个小场景进行推理,从而解决数据采集难以覆盖的长尾问题。
构建生态。通过开源模型、仿真框架和数据集,构建完整的开放生态系统,供汽车开发者或研究团队使用。
搭载英伟达Alpamayo系统的智能驾驶汽车将于今年第一季度在美国推出,随后第二季度在欧洲推出,亚洲则在今年的第三、第四季度落地。
Cosmos:具备合成数据能力的世界基础模型
![]()
来源:NVIDIA CES 2026 Keynote
Cosmos作为物理AI世界基础模型,以真实环境数据为基础,为智能驾驶训练场景提供合成数据,基于真值和结构化数据输入来生成新的光照、天气和地形,将单个驾驶场景转化为数百个场景。Cosmos旨在解决智能驾驶训练场景面临的训练数据量不足问题,通过海量视频数据预训练,执行轨迹预测等任务,并在长尾场景进行训练,不断增强汽车的智能驾驶能力。
通往高阶智能驾驶的发展路径
当前,高阶智能驾驶正加速迈入“认知与决策一体化”发展阶段,告别传统“感知-执行”的分段式架构,转向更贴近人类驾驶逻辑的智能跃迁。从主流方向来看,形成VLA模型、世界模型、合成数据、开源生态四大发展路径。四大路径协同发力,持续打破技术瓶颈,推动高阶智能驾驶从技术研发走向规模化落地。CES 2026期间,英伟达发布的VLA推理模型Alpamayo,正是迈向高阶智能驾驶的重要发展路径。
路径一:融合视觉感知+语言智能+行为策略的VLA模型视觉-语言-动作模型(Vision-Language-Action,VLA)通过整合视觉、语言和行为信息的大规模数据集,不仅能识别和描述环境,还能根据上下文进行推理并在复杂、动态的环境中执行适当的动作。
VLA模型架构
![]()
来源:至顶智库结合公开资料整理绘制
VLA模型的技术架构分为三个模块:
V视觉感知:作为环境感知基础层,融合摄像头、激光雷达等多传感器数据,为推理提供基础。
L语言智能:推理与交互中枢层,通过提示词将空间信息转化为语义指令,同时借助记忆检索调取历史场景数据,对应推理能力与沟通记忆能力,并通过自然语言向用户解释决策逻辑。
A行为策略:动作输出执行层,将语言智能推理结果转化为驾驶动作编码,实现从语义决策到精准驾驶动作的直接映射,使得辅助驾驶系统拥有可交互能力。
VLA模型能力包含推理、沟通、记忆、自主学习四个方面:
推理能力方面,通过CoT思维链推理,智能驾驶系统能够迅速感知周围空间信息,充分理解并适应环境状况,并由此生成驾驶决策。
沟通能力方面,驾驶者可以使用自然语言与汽车无缝交流,实时更新或改变汽车基本操作和具体行程,保证驾驶者对汽车的安全掌控。
记忆能力方面,模型记忆能力使汽车对限速、加速路段有清晰的感知,及时存储对应设置。
自主学习方面,通过大量生成数据,VLA可以在仿真环境下自我迭代和主动提升。
路径二:预测未来状态并指导驾驶决策的世界模型世界模型是智能体通过学习构建的、用于理解环境结构、预测未来状态并指导决策的内部表征系统。通过感知、预测和规划等模块,世界模型可以帮助车辆理解和预测复杂的交通环境,从而做出可靠决策。世界模型通过摄像头、雷达等传感器接收实时环境数据,并借助感知模型对数据进行处理,生成潜在空间表示,从而完成驾驶规划等操作。
世界模型在智能驾驶场景的应用
![]()
来源:Understanding World or Predicting Future? A Comprehensive Survey of World Models, 至顶智库绘制
2025年,Waymo推出用于智能驾驶的世界模型Waymo Foundation Model,模型充分利用学习嵌入的完整表达能力,作为模型组件之间的丰富交互接口,并在训练过程中支持全链路的端到端信号反向传播。从结构来看,模型分为驾驶模块、模拟器和评估模块。其中,驾驶模块用于生成动作序列,模拟器生成仿真场景,评估模块用来评价驾驶模块的表现并找出改进空间。
Waymo世界模型采用“快思考+慢思考”架构,包含两个不同模型组件,兼顾实时响应与复杂推理能力。传感器融合编码器,可以融合多传感器时序数据,为常规驾驶场景提供快速、安全的决策依据。模型还能驱动复杂语义推理的VLM,处理罕见、复杂的语义场景,通过世界知识提升极端场景下的决策合理性。
路径三:填补数据缺口+提升泛化能力+降低研发门槛的合成数据智能驾驶的技术迭代依赖训练数据的规模储备与质量精度,真实路测数据在采集、标注过程面临高成本问题,还存在地理权限、用户隐私、数据合规等挑战,成为制约智能驾驶快速发展的主要瓶颈。
合成数据凭借可定制、低成本的独特优势,成为破解智能驾驶数据困境的解决方案,已在头部车企与科技公司的研发链路中实现规模化落地,成为影响智能驾驶迭代速度的核心要素。
合成数据对于智能驾驶的主要价值
![]()
来源:至顶智库绘制
合成数据对智能驾驶的推动作用体现在三大方面:
在填补数据缺口方面,按需生成雨雪冰冻、极端拥堵、道路施工等极端与稀缺场景的标注数据,如特斯拉通过仿真平台生成海量路况合成数据,弥补真实路测场景采集难、覆盖低的局限性,让模型提前完成高危场景的训练适配。
在提升模型泛化能力方面,合成数据支持视觉、激光雷达、毫米波雷达等多模态数据的融合生成与协同训练,如Waymo基于合成数据完成模型迭代,让模型能更好适配城市道路、高速路、园区道路等复杂多变的真实驾驶环境,降低极端场景下的决策失误率。
在降低技术研发门槛方面,合成数据无需实地采集与人工逐帧标注,可直接批量生成带精准标签的训练数据,如百度Apollo、小马智行均通过合成数据平台缩短模型训练周期、降低研发成本,推动智能驾驶感知、决策、规划等核心技术的规模化落地与产业化应用。
路径四:融合软件+算法+数据的开源生态体系当前,智能驾驶产业正从单点技术创新迈向全产业链协同发展阶段,逐步形成“软件平台、算法框架、数据工具”的开源生态体系。该体系以技术开源为核心、以多方协同为纽带,链接整车制造、芯片研发、算法创新、零部件配套等产业主体,成为推动智能驾驶技术标准化研发、规模化应用落地的核心支撑。
智能驾驶开源生态
![]()
来源:至顶智库绘制
开源生态体系为智能驾驶产业的发展带来三方面影响:
对芯片厂商而言,生态体系构建起统一的软件接口与技术适配标准,打破软硬件之间的技术壁垒,既提升车规级芯片与智能驾驶系统的适配效率,也为芯片研发提供明确的技术导向,降低芯片产品的研发试错成本。
对算法厂商而言,开放、可扩展的协同合作平台,既为算法迭代提供丰富的场景验证与数据支撑,助力算法快速实现场景化落地,也为中小创新主体、科研机构等提供参与产业创新的入口,持续丰富生态的技术供给与创新活力。
对整车厂商而言,依托开源生态实现核心技术的复用与资源共享,大幅减少底层技术的重复研发投入,从根本上降低研发成本、缩短车型智能化开发周期。
从智能驾驶的开源进展来看,英伟达在CES 2026期间推出辅助驾驶系列产品,涵盖已在全球人工智能开源社区Hugging Face发布的Alpamayo 1、开源的端到端仿真框架AlpaSim,以及大规模辅助驾驶开放数据集。百度Apollo开放平台融合软件核心层、应用软件层、工具服务层等多方面能力,汇聚来自全球超过175个国家和地区的20多万名开发者和230多家合作伙伴,探索培育共创共享的技术生态圈。
![]()
![]()
![]()
![]()
![]()
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.