网易首页 > 网易号 > 正文 申请入驻

商汤绝影:求索端到端辅助驾驶

0
分享至

生成式辅助驾驶,是商汤绝影在业内首次提出的概念,通过世界模型和强化学习,推动端到端模型的演进,突破人类的驾驶能力上限。

文|钱丽娜

ID | BMR2004

当自动驾驶技术在全球范围内如火如荼地发展时,一个关键问题始终困扰着行业:如何在复杂多变的交通环境中实现安全、高效的自动驾驶?传统技术方案虽有进展,但始终难以突破数据瓶颈与复杂场景应对的难题。

针对行业尚未得到有效解决的难题,商汤绝影率先在业界提出了端到端辅助驾驶解决方案。

01

端到端辅助驾驶的求索之路

为了让辅助驾驶有更多处理极端情况的能力,构建仿真物理世界就是一座需要先行攀爬的高山。

商汤绝影是业内率先提出端到端辅助驾驶方案的企业,这一路线的提出主要源于2017年与本田汽车的合作。

当年,本田对中国合作伙伴的要求是,放弃激光雷达、高精度地图,在没有车道线的路口,根据图像的输入直接输出车辆行驶的轨迹。2017年3月,日本辅助驾驶测试场地大雨倾盆,那些基于激光雷达、惯导等昂贵且复杂的硬件辅助驾驶系统,连基本的正常启动都遇到了困难,而商汤绝影凭借摄像头感知的纯视觉方案,顺利完成了辅助驾驶的测试。正是这一纯视觉方案,成为了商汤绝影日后探索端到端辅助驾驶的起点。

商汤绝影CEO王晓刚告诉《商学院》杂志:“本田基于成本的考虑而放弃激光雷达。纯视觉方案因为信息丰富,理论上能达到的最高性能或能力的上限比较高,但要用好纯视觉方案,前提是需要大量的数据积累,而且模型要从成千上万的像素中识别语义信息,对模型训练的要求比较高。”

不过,2017年,多模态人工智能技术还不成熟,因而辅助驾驶方案中还是会融合激光雷达。行业在不同阶段采取的技术路线,多是出于安全性的考虑。

商汤绝影一直有做端到端辅助驾驶的想法。所谓端到端,就是输入图像后,直接输出行为轨迹,只是在当时,神经网络还不成熟。2022年年底,商汤绝影发表了端到端辅助驾驶的开山之作“UniAD”(Unified Autonomous Driving)。

UniAD是业界首个感知决策一体化的端到端辅助驾驶解决方案,开创了以全局任务为目标的辅助驾驶架构的先河,不仅能够感知周围环境,还能做出预测和规划,从而实现更高效的辅助驾驶。其提出的基于Transformer的完整端到端架构,为许多公司提供了重要的参考和基准,并获得了CVPR 2023最佳论文的殊荣。

随着多模态大模型的出现,2023年商汤绝影又提出“端到端+多模态”大模型结合的技术方案。多模态大模型能够较好地分析复杂的交通场景,从而做出判断。王晓刚举例说,这一组合方案结合了快思考和慢思考的优点。端到端如同人类的小脑,看到路况后立刻做出行为反应,而多模态大模型类似于人类的大脑,可以负责更为复杂的分析。

然而,端到端方案进一步推进时,行业又遇到了数据瓶颈,需要大量高质量、高难度的人类驾驶行为数据做模型训练。端到端的训练本质上是在模仿人类的驾驶行为,所以人类的驾驶水平就是它的上限。“高质量数据占比较少,大部分时间车辆行进时走的是直线,缺少变化的驾驶行为在模型训练时是没有价值的,只有类似刹停、避让、转弯的场景才有意义。另外,复杂场景下每个人的驾驶行为不同,如果有类似于遇到复杂场景停在原地的行为数据,混到模型训练数据中,反而会让模型能力变差。”王晓刚解释说,企业所能找到的人类在处理复杂场景的行为数据上限决定了模型能力的上限。

而DeepSeek的出现,再一次打开了商汤绝影的研发思路。DeepSeek-R1通过强化学习突破了数据的瓶颈,让大模型自行涌现出长思维链能力,显著提升推理效果,甚至可能超越人类的思维能力。强化学习突破了人类思考的上限,这个过程类似于AlphaGo下围棋:之前它学习的是人类的棋谱,而之后机器通过强化学习,下出了人类棋手从未有过的招数,并最终赢得了棋局。王晓刚说:“一道题如果有10种解法,人类可能只给出了一两种解法,而强化学习给出的其他八九种解法,极大地扩充了人类的知识库。”

AlphaGo是在棋盘的规则体系里下棋,借用同一思路,商汤绝影需要仿真出一个类似于棋盘的物理驾驶世界,在这个仿真世界中生成高质量的数据,结合强化学习框架,让端到端模型在世界模型中自我进化和成长。

但用于训练的生成视频面临巨大挑战。比如Sora的视频生成有大量不符合物理规律的图像,缺乏视频图像在时空上的一致性和连续性。包括“绝影开悟”在内的世界模型,在实验阶段生成的视频也都面临同样的问题,需要通过人工筛选与人工智能相结合,不断迭代,从而解决上述问题。

辅助驾驶的车辆配备有11个摄像头,每个摄像头观察到的视频必须保持时空一致。比如同一条车道线,不能在一个摄像头里观察到实线,而另一个摄像头里观察到虚线,摄像头本身也会有各种问题,鱼眼摄像头还会产生畸变。为了让辅助驾驶有更多处理极端情况的能力,构建仿真物理世界就是一座需要先行攀爬的高山。

回看商汤绝影面临的几次技术抉择,初时,在视觉和激光雷达的技术选择上,2018年,商汤绝影恰好从事大模型研究,当时的技术判断是增加模型的体量能让辅助驾驶的视觉能力变得更强。2020年,商汤绝影发布了当时全球最大的、拥有320亿参数的视觉模型,参数超过谷歌200多亿的视觉模型。商汤绝影做大模型时,正好需要千卡训练集群,但市场上没有这样的基础设施,于是商汤绝影在上海临港自建了一个超算集群(2022年1月正式启用),这与特斯拉自建超算集群(2021年8月)如出一辙。

王晓刚坦言:“每项技术发展到一定的阶段都会遇到瓶颈,但是如果没有端到端的技术,很难看清瓶颈在哪里。在发布世界模型前,我们发现增加更多的数据时,模型能力的提升依然非常有限,原因在于数据质量不够好,所以这才推动我们不断去思考和寻找解决方案。直到今天,形成‘端到端+世界模型’的生成式智驾方案。”

02

辅助驾驶“开悟”

目前“绝影开悟”世界模型基于1024类场景,能够泛化出更多的平行世界,打造千万级的生成场景库。

2024年11月,商汤绝影发布开悟1.0世界模型,2025年4月上海国际车展,又推出与强化学习结合的开悟2.0。今天行业逐渐形成了共识,世界模型加上强化学习,将是未来的趋势。

由此,业内辅助驾驶技术路线的发展经历了三个阶段。

第一阶段是规则式辅助驾驶,基于物理模型和预定义的逻辑去书写各项规则。第二阶段是端到端的辅助驾驶,核心基于大模型和大数据的驱动,类似于ChatGPT,本质是模仿人类的学习,但是有自身的数据瓶颈和性能上限。第三阶段是生成式辅助驾驶,也是商汤绝影在业内首次提出的概念,通过世界模型和强化学习,推动端到端模型的演进,突破人类的驾驶能力上限。

尽管商汤绝影率先提出端到端辅助驾驶方案,但在研究过程中面临着两个重要问题,首先是对海量数据的依赖,特别是对高质量数据的依赖。特斯拉拥有超过700万辆量产车,有工程化布局,还能够形成数据回流,具有闭环的天然优势,但是其中可用的数据不过1%。商汤绝影可用来数据回流的量产车数量远小于这一规模。面对极端复杂的场景,很多驾驶员的行为反馈并不好,而且采集各种极端危险场景数据的代价和风险也是非常高的。其次,端到端具有不确定性,因为问题场景是没有办法复现的,需大量采集类似场景来更新模型,但也不能保证模型更新后,特定场景的问题就能够得到解决,所以安全边界很难确定。

“R-UniAD”是商汤绝影提出的全新生成式辅助驾驶技术方案,基于一个强大的世界模型去重构世界,在其中进行强化学习训练,并且能够泛化生成各种复杂的场景。

从成本和效率上来看,通过融合3D高斯重建技术(一种利用人工智能技术进行三维场景重建和渲染的方法)与世界模型,构建高保真动态交互仿真闭环,商汤绝影可将复杂交通场景复现成本降低60%以上,算法迭代周期缩短50%。根据商汤绝影内部实测数据,基于一张A100的GPU,“绝影开悟”每天生成的数据相当于10辆真实车辆或100辆路测车的数据采集能力,其性能比得上500辆量产车。

目前,商汤绝影20%的数据是通过世界模型生产出来的,其生成数据数量预计将在今年快速提升至与真实数据数量1:1的均衡状态,构建起千万级可用数据池,加速迈向“生成式数据主导”(80%占比)。

辅助驾驶系统很容易出现比如因遇到施工占道而紧急刹停,甚至发生碰撞的紧急情况。对此,王晓刚介绍了商汤绝影R-UniAD是如何帮助辅助驾驶系统提升应对这一场景的能力。

第一个阶段,以路测的视频为输入,基于“绝影开悟”世界模型进行现场场景的仿真,用3D重建静态场景,同时对动态元素进行可控的编辑。世界模型对场景还原的一致性超过95%,重建场景的时间从以天为单位降到以小时为单位。

第二个阶段是强化学习。有了重建场景后,端到端模型生成在该场景下可以有各种不同的驾驶策略。有的驾驶行为很糟糕,会偏离到路边,需要通过反复的强化学习,与世界模型形成的环境进行交互,寻找最优路径,找到合适的变道,从而绕过施工场景。

第三个阶段,世界模型将生成大量的施工占道泛化场景,模拟不同天气条件、不同光线下的施工路段。在一段视频的基础上扩展出十段、百段或者千段场景,场景覆盖度呈几何级数的增加,显著提升端到端模型对于施工场景泛化交互的能力,大大加强了特定场景的确定性,从而降低数据获取成本。

王晓刚总结道,生成式辅助驾驶主要突破了三个瓶颈:一是突破数据瓶颈,创造无限的长尾场景;二是在仿真环境中验证技术的安全边界到底在哪里;三是通过自主进化超越人类的驾驶水平。

目前“绝影开悟”世界模型基于1024类场景,能够泛化出更多的平行世界,打造千万级的生成场景库。在真实的基础上,“绝影开悟”生成的场景视频,时间最长为150秒,分辨率可达1080P,视角可以实现11V,已经成为行业首个同时完成上述指标的辅助驾驶世界模型。

自2017年与本田汽车的合作起步,商汤绝影不仅在“端到端”辅助驾驶方案上取得了突破,其“绝影开悟”世界模型更为行业提供了一种全新的解决方案,通过生成式辅助驾驶技术,商汤绝影不仅突破了数据瓶颈,还实现了对复杂场景的高效处理和安全性能的显著提升。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
起死回生!育碧经典大作Steam玩家数暴涨400%

起死回生!育碧经典大作Steam玩家数暴涨400%

游民星空
2026-03-08 11:11:43
翟欣欣邻居曝猛料:她被带走时哭疯了,父母跟着落泪,称跟她无关

翟欣欣邻居曝猛料:她被带走时哭疯了,父母跟着落泪,称跟她无关

谈史论天地
2026-01-26 18:40:03
2-0,29岁日本球星闪耀欧洲,47岁兰帕德率队豪取5连胜,剑指冠军

2-0,29岁日本球星闪耀欧洲,47岁兰帕德率队豪取5连胜,剑指冠军

凌空倒钩
2026-03-08 08:32:33
林肯号航母出来晒照片了,证明自己毫发无损!

林肯号航母出来晒照片了,证明自己毫发无损!

蓝海梦想
2026-03-07 08:08:28
婆婆泼水到我身上全家看笑话,我打了个电话,次日小叔子工作没了

婆婆泼水到我身上全家看笑话,我打了个电话,次日小叔子工作没了

风起见你
2026-03-08 12:12:48
梅根遭约旦王室拒绝后,被曝已患严重抑郁症?网友一句话戳穿真相

梅根遭约旦王室拒绝后,被曝已患严重抑郁症?网友一句话戳穿真相

小鱼爱鱼乐
2026-03-06 10:04:43
“如果美国无所作为,中国会在未来5年内超过我们”

“如果美国无所作为,中国会在未来5年内超过我们”

观察者网
2026-03-08 11:33:05
1971年,老太太质问周恩来我啥级别,真相一出令人肃然起敬

1971年,老太太质问周恩来我啥级别,真相一出令人肃然起敬

棠棣分享
2026-03-05 18:11:12
3-1逆转背后,纽卡主帅赛后一句话,道破曼城最可怕的真相

3-1逆转背后,纽卡主帅赛后一句话,道破曼城最可怕的真相

篮球看比赛
2026-03-08 14:24:38
大量双模无线耳机流入闲鱼!原价999元,二手低至25块

大量双模无线耳机流入闲鱼!原价999元,二手低至25块

闲搞机
2026-03-08 11:00:03
我用百度智能云跑OpenClaw,AI帮我24小时盯盘、找黑马

我用百度智能云跑OpenClaw,AI帮我24小时盯盘、找黑马

技术领导力
2026-02-12 14:41:56
踢了23分钟就挂靴!瓦拉内退役后首发声:身体零件已散架,不硬撑

踢了23分钟就挂靴!瓦拉内退役后首发声:身体零件已散架,不硬撑

仰卧撑FTUer
2026-03-06 13:38:03
伊拉克籍记者方浩明:中国最吸引我的,就是每年设定一个目标,再超越目标

伊拉克籍记者方浩明:中国最吸引我的,就是每年设定一个目标,再超越目标

上观新闻
2026-03-07 16:37:08
AI算力引爆电力需求,中国变压器迎来全球市场新机遇

AI算力引爆电力需求,中国变压器迎来全球市场新机遇

和讯网
2026-03-08 12:24:18
山西王阎锡山的妹妹,没来得及跟哥哥逃到台湾,她的结局如何?

山西王阎锡山的妹妹,没来得及跟哥哥逃到台湾,她的结局如何?

老范谈史
2026-03-03 17:43:41
我家房子越住越爽,全靠多花2万做了这7个设计,少一个都可惜!

我家房子越住越爽,全靠多花2万做了这7个设计,少一个都可惜!

Home范
2026-03-05 11:39:19
毛主席为何不参加周总理追悼会?华国锋说出实情:没什么隐瞒的

毛主席为何不参加周总理追悼会?华国锋说出实情:没什么隐瞒的

芊芊子吟
2026-03-07 09:35:07
申花刚5比3击败英博,斯卢茨基赛后就做出重要决定,引发热议

申花刚5比3击败英博,斯卢茨基赛后就做出重要决定,引发热议

张丽说足球
2026-03-08 09:41:17
对越还击战中的那些叛徒,主动投敌行径令人不齿,最终的结局无不大快人心

对越还击战中的那些叛徒,主动投敌行径令人不齿,最终的结局无不大快人心

老杉说历史
2026-02-06 12:59:08
永旺超市将退出天津河北,最后一家店将于5月关闭

永旺超市将退出天津河北,最后一家店将于5月关闭

南方都市报
2026-03-08 13:34:08
2026-03-08 14:48:49
商学院杂志 incentive-icons
商学院杂志
本号由《中国经营报》社有限公司主办,为商业领袖提供管理实践与方法
7062文章数 22738关注度
往期回顾 全部

汽车要闻

9分钟充饱 全新腾势Z9GT首搭闪充技术26.98万起

头条要闻

伊朗小学遭袭致超165人遇难 特朗普:是伊朗干的

头条要闻

伊朗小学遭袭致超165人遇难 特朗普:是伊朗干的

体育要闻

大伤后被交易,他说:22岁的我已经死了

娱乐要闻

周迅新恋情曝光,李亚鹏等人已成过去

财经要闻

油价要失控?

科技要闻

OpenClaw最大的推手是闲鱼和小红书

态度原创

亲子
时尚
房产
本地
公开课

亲子要闻

杰森休息日又要去公司加班,跟他商量换工作后,得再考虑考虑

2026春夏一定要拥有的6只包,好看又百搭

房产要闻

传统学区房熄火?2月海口二手房爆火的板块竟然是…

本地新闻

食味印象|一口入魂!康乐烤肉串起千年丝路香

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版