网易首页 > 网易号 > 正文 申请入驻

物理AI的ChatGPT时刻!英伟达“内驱”无人驾驶汽车将至,发布首个链式思维推理VLA模型

0
分享至

来源:市场资讯

  来源:华尔街见闻

  英伟达在无人驾驶领域迈出关键一步,宣布开源其首个推理 VLA (视觉-语言-动作) 模型Alpamayo 1,这一举措旨在加速安全的自动驾驶技术开发。该模型通过类人思维方式处理复杂驾驶场景,为解决自动驾驶长尾问题提供新路径。


  美东时间1月5日周一,英伟达CEO黄仁勋在拉斯维加斯举行的CES展会上发布了Alpamayo平台,使汽车能够在真实世界中进行“推理”。黄仁勋表示,首款搭载英伟达技术的汽车将于第一季度在美国上路。

  英伟达免费开放Alpamayo模型,允许潜在用户自行对模型进行重新训练。该模型旨在打造能在意外情况下“思考”解决方案的车辆,例如交通信号灯故障等场景。车载计算机将分析来自摄像头和其他传感器的输入,将其分解为步骤并提出解决方案。

  这一开源举措获得了行业广泛支持。包括捷豹路虎(JLR)、Lucid、Uber以及加州大学伯克利分校DeepDrive深度学习自动驾驶产业联盟(BDD)在内,多家移动出行领军企业和研究机构表示,将利用Alpamayo开发基于推理的自动驾驶技术栈,推动L4级自动驾驶部署。

  首个开源推理VLA模型发布

  英伟达此次发布的Alpamayo家族整合了三大基础支柱:开源模型、仿真框架和数据集,构建了一个完整的开放生态系统供任何汽车开发者或研究团队使用。

  Alpamayo 1是业界首个为自动驾驶研究社区设计的思维链推理VLA模型,现已在Hugging Face平台发布。该模型采用100亿参数架构,使用视频输入生成轨迹及推理轨迹,展示每个决策背后的逻辑。开发者可以将Alpamayo 1改编为更小的运行时模型用于车辆开发,或将其作为自动驾驶开发工具的基础,例如基于推理的评估器和自动标注系统。


  黄仁勋表示:

“物理AI的ChatGPT时刻已到来——机器开始理解、推理并在真实世界中行动。无人出租车是首批受益者。Alpamayo为自动驾驶汽车带来推理能力,使其能够思考罕见场景,在复杂环境中安全驾驶,并解释其驾驶决策——这是安全、可扩展自动驾驶的基础。”

  英伟达强调,Alpamayo模型并非直接在车内运行,而是作为大规模教师模型,供开发者微调并提取到其完整自动驾驶技术栈的骨干中。未来该家族的模型将具有更大的参数规模、更详细的推理能力、更多的输入输出灵活性以及商业使用选项。

  推理VLA技术原理解析

  推理VLA是一种统一的AI模型,将视觉感知、语言理解和动作生成与逐步推理集成在一起。

  这类模型整合了明确的AI推理功能,在传统视觉-语言-动作模型的基础上构建。AI推理是AI逐步解决复杂问题并生成类似于人类思维过程推理痕迹的能力。这些系统对一系列互联网规模的任务进行预训练,包括语言生成和视觉连接,以发展通用知识和感知基础。

  与将视觉输入直接映射到动作的标准VLA模型不同,推理VLA模型将复杂的任务分解成可管理的子问题,并以可解释的形式阐明其推理过程。这使模型能够更准确地解决问题或执行任务,还能对模型正在进行的操作提供一定程度的反思。

  构建推理VLA模型需要三种基本AI功能:视觉感知、语言理解以及动作和决策制定。视觉感知处理来自摄像头、毫米波雷达或激光雷达等感知传感器的实时数据;语言理解通过自然语言处理解释命令、上下文提示和对话输入;动作和决策制定则使用融合的感官和语言信息来计划、选择和安全地执行任务,同时生成可解释的推理痕迹。

  在自动驾驶场景中,推理VLA可以对交通状况进行逐步推理。例如,接近一个十字路口时,系统可能会进行如此推理:“我看到一个停止标志,左边有车辆驶来,还有行人正在过马路。我应该减速,完全停下来,等待行人通过人行横道,安全时再继续前进。”

  完整开放生态系统支持开发

  除Alpamayo 1模型外,英伟达还发布了配套的仿真工具和数据集,构建完整的开发生态系统。

  AlpaSim是一个完全开源的端到端仿真框架,用于高保真自动驾驶开发,现已在GitHub平台发布。它提供真实的传感器建模、可配置的交通动态和可扩展的闭环测试环境,实现快速验证和策略优化。

  英伟达还提供了面向自动驾驶最多样化的大规模开放数据集,包含超过1700小时的驾驶数据,涵盖最广泛的地理位置和条件范围,覆盖罕见且复杂的真实世界边缘案例,这对于推进推理架构至关重要。这些数据集可在Hugging Face平台获取。

  这些工具共同为基于推理的自动驾驶技术栈创建了一个自我强化的开发循环。开发者可以利用这些资源在专有车队数据上微调模型,将其集成到基于英伟达DRIVE AGX Thor加速计算构建的英伟达DRIVE Hyperion架构中,并在商业部署前通过仿真验证性能。

  业界领军企业表达支持

  据英伟达介绍,多家移动出行领域的领军企业对Alpamayo表示了浓厚兴趣。

  Lucid Motors高级驾驶辅助系统和自动驾驶副总裁Kai Stepper表示:“向物理AI的转变凸显了AI系统对真实世界行为进行推理能力的日益增长的需求,而不仅仅是处理数据。先进的仿真环境、丰富的数据集和推理模型是这一演进的重要元素。”

  捷豹路虎产品工程执行总监Thomas Müller表示:“开放、透明的AI开发对于负责任地推进自动移动出行至关重要。通过开源Alpamayo等模型,英伟达正在帮助加速整个自动驾驶生态系统的创新,为开发者和研究人员提供新工具,以安全地应对复杂的真实世界场景。”

  Uber全球自动移动出行和配送负责人Sarfraz Maredia表示:“处理长尾和不可预测的驾驶场景是自动驾驶的决定性挑战之一。Alpamayo为行业创造了令人兴奋的新机遇,可以加速物理AI、提高透明度并增加安全的L4级部署。”

  加州大学伯克利分校DeepDrive联合主任Wei Zhan表示:“Alpamayo组合的推出代表着研究社区的一次重大飞跃。英伟达决定公开这一技术具有变革意义,因为其访问权限和能力将使我们能够以前所未有的规模进行训练——为我们提供了将自动驾驶推向主流所需的灵活性和资源。”

  跨行业AI模型全面开放

  本周一,英伟达还发布了推动各行业AI发展的多个新开源模型、数据和工具。


  这些模型涵盖用于代理AI的英伟达Nemotron家族、用于物理AI的英伟达Cosmos平台、用于机器人的英伟达Isaac GR00T以及用于生物医学的英伟达Clara。英伟达还提供了开源训练框架和全球最大的开放多模态数据集合之一,包括10万亿语言训练标记、50万个机器人轨迹、45.5万个蛋白质结构和100TB的车辆传感器数据。

  英伟达代理式AI基础模型Nemotron发布了语音、多模态检索增强生成(RAG)和安全相关的新模型。Nemotron Speech包含业界领先的开源模型,为实时字幕和语音AI应用提供实时、低延迟语音识别。Nemotron RAG包含新的嵌入和重排序视觉语言模型,提供高度准确的多语言和多模态数据洞察。

  在物理AI和机器人领域,英伟达发布了Cosmos开放世界基础模型,为加速物理AI开发和验证带来类人推理和世界生成能力。Isaac GR00T N1.6是一个开放推理VLA模型,专为人形机器人打造,实现全身控制,并使用英伟达Cosmos Reason实现更好的推理和上下文理解。

  英伟达称,博世(Bosch)、CodeRabbit、CrowdStrike、Cohesity、Fortinet、Franka Robotics、Humanoid、Palantir、Salesforce、ServiceNow、日立和Uber等科技业的领头羊正在采用并基于英伟达的开源模型技术进行开发。

  英伟达的开源模型、数据和框架现已在GitHub和Hugging Face平台发布,并可通过一系列云、推理和AI基础设施平台以及build.nvidia.com获取。这些模型中的许多还以英伟达NIM微服务的形式提供,可在从边缘到云端的任何英伟达加速基础设施上进行安全、可扩展的部署。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
古巴军警人员,为何“伤亡最重”?

古巴军警人员,为何“伤亡最重”?

中国新闻周刊
2026-01-08 21:48:03
伊朗巨变前夜

伊朗巨变前夜

凤眼论
2026-01-08 10:31:08
教育部扔下重磅炸弹:2026年开始,全国一律不准再买校外商业试卷

教育部扔下重磅炸弹:2026年开始,全国一律不准再买校外商业试卷

趣文说娱
2026-01-05 17:49:32
万万没想到!美国对华最大的失算,是让中国90后、00后彻底清醒了

万万没想到!美国对华最大的失算,是让中国90后、00后彻底清醒了

远方风林
2026-01-07 11:40:08
成功引渡“电诈太子”陈志,中方查扣为何慢了美国一步?

成功引渡“电诈太子”陈志,中方查扣为何慢了美国一步?

法经社
2026-01-08 13:01:34
特朗普:希望能访问委内瑞拉

特朗普:希望能访问委内瑞拉

环球时报国际
2026-01-09 00:14:49
单亲妈妈柬埔寨寻子一个月无果,19岁小伙疑被16万元转卖,与母亲视频通话时曾按“酒窝”暗示“救我”

单亲妈妈柬埔寨寻子一个月无果,19岁小伙疑被16万元转卖,与母亲视频通话时曾按“酒窝”暗示“救我”

极目新闻
2026-01-08 21:08:49
北约秘书长:格陵兰岛已准备好接收更多美军,我知道丹麦完全愿意

北约秘书长:格陵兰岛已准备好接收更多美军,我知道丹麦完全愿意

李健政观察
2026-01-08 09:33:30
国家明确2026债务新规!这6种债直接作废,欠债人可以不用还了?

国家明确2026债务新规!这6种债直接作废,欠债人可以不用还了?

今朝牛马
2026-01-08 16:52:13
震惊!网传柬埔寨木牌街头,一三轮车拉着的铁笼,半蹲着几名男子

震惊!网传柬埔寨木牌街头,一三轮车拉着的铁笼,半蹲着几名男子

火山詩话
2026-01-08 13:16:47
幼童将纸尿裤扔进火锅?海底捞:锅具废弃处理,警方已依法处理当日在场监护人

幼童将纸尿裤扔进火锅?海底捞:锅具废弃处理,警方已依法处理当日在场监护人

界面新闻
2026-01-08 20:45:02
随着国足0-0伊拉克,澳大利亚2-1泰国,U23亚洲杯最新积分榜出炉

随着国足0-0伊拉克,澳大利亚2-1泰国,U23亚洲杯最新积分榜出炉

侃球熊弟
2026-01-08 23:54:10
新加坡反了!越南也反了!中日关系紧张的时候,一个公然站队日本

新加坡反了!越南也反了!中日关系紧张的时候,一个公然站队日本

南权先生
2025-12-23 16:56:51
资深编审、法史学者,北京工业大学副教授解锟逝世,年仅48岁

资深编审、法史学者,北京工业大学副教授解锟逝世,年仅48岁

澎湃新闻
2026-01-08 17:04:26
媒体终于报道伊朗了,但评论却是经过精心筛选的

媒体终于报道伊朗了,但评论却是经过精心筛选的

清书先生
2026-01-08 16:55:15
凌晨打车22公里收98元?乘客拒付耗到天亮,的哥委屈:是政府定价

凌晨打车22公里收98元?乘客拒付耗到天亮,的哥委屈:是政府定价

奇思妙想草叶君
2026-01-07 22:36:16
美国官员称:主宰这个世界的是实力 武力与权力

美国官员称:主宰这个世界的是实力 武力与权力

看看新闻Knews
2026-01-08 11:01:03
百亿美元比特币巨鳄落网,起底柬埔寨赌诈“教父”陈志

百亿美元比特币巨鳄落网,起底柬埔寨赌诈“教父”陈志

南方都市报
2026-01-08 20:07:09
前日本驻华大使丹羽宇一郎去世,曾呼吁日本反思战争

前日本驻华大使丹羽宇一郎去世,曾呼吁日本反思战争

上观新闻
2026-01-08 21:17:09
U23国足0-0伊拉克!球员评分:1人满分,3人不及格,王钰栋非MVP

U23国足0-0伊拉克!球员评分:1人满分,3人不及格,王钰栋非MVP

侃球熊弟
2026-01-08 23:52:13
2026-01-09 05:11:00
新浪财经 incentive-icons
新浪财经
新浪财经是一家创建于1999年8月的财经平台
1964918文章数 5194关注度
往期回顾 全部

科技要闻

智谱拿下“全球大模型第一股”,凭什么

头条要闻

采用俄罗斯的防空系统 委内瑞拉防空体系因何失效

头条要闻

采用俄罗斯的防空系统 委内瑞拉防空体系因何失效

体育要闻

世乒赛银牌得主,说自己梦里都是孙颖莎

娱乐要闻

抗战剧《马背摇篮》首播,获观众好评

财经要闻

微软CTO韦青:未来人类会花钱"戒手机"

汽车要闻

从量变到"智"变 吉利在CES打出了五张牌

态度原创

亲子
教育
时尚
数码
游戏

亲子要闻

家长注意了!这7件事别再孩子面前做!

教育要闻

一觉醒来,全球传播学倒退100年(无限流)

珍珠专场|| 无论18岁还是80岁,总是会为它再一次心动

数码要闻

CES 2026 | TCL实业携全球首创SQD-Mini LED显示技术亮相

山寨《黑神话》续作上架 PS 商店 / 《GTA 6》或第三次跳票

无障碍浏览 进入关怀版