网易首页 > 网易号 > 正文 申请入驻

盘点丨8家科技企业,推出世界模型,重仓自动驾驶

0
分享至

当专业运动员抛出的棒球以大约160公里的时速做曲线运动,留给击球手的反映时间通常只有500毫秒。

而棒球这个视觉信号进入眼睛,经过角膜、晶状体等到达感光细胞,再由感光细胞传递给大脑进行处理,时间大约需要100至200毫秒甚至更长。此外,大脑还要加工分析信号,发出指令到运动器官,运动器官开始执行指令。

换句话说,如果仅靠临场反应,竞赛场中留给击球手挥棒的时间并不充裕,甚至可以说是所剩无几。那么运动员是如何做到提前控制肌肉,以正确的方式挥出球棒并击中棒球的呢?

——大脑中的“预测模型”。

2018年,谷歌发布论文 World Models,对“预测模型”做了描述:人类通常会以有限的感官所能感知到的事物为基础,在内心建立一个模型,我们所有的行为都基于这个内部模型来展开。这样的模型不仅能够预测未来,而且能够根据我们当前的运动行为来预测未来的感官数据,我们能够基于这种预测迅速采取行动。

而棒球手们正是基于大脑中的“预测模型”,预测未来世界状态,在大脑凭空演练一遍,再在现实生活中提前作出反应。

这个“预测模型”在2024年空前爆火,而它还有另一个更广为人知的名字——世界模型。

所谓的世界模型,终极目标是让模型理解世界的基础规则,长时间稳定地对未来进行预测,最终面向不同任务采取不同形式对未来的“预测”进行表达。

在视频生成领域,就是通过世界模型生成各类视频;在具身智能领域是通过世界模型生成自身需要完成的各类动作;在自动驾驶领域,则是通过世界模型来预测自动驾驶的任务。

世界模型,自动驾驶“下一站”

2024年2月,OpenAI发布了文生视频大模型Sora,其能够根据用户提供的文本描述生成长达60秒的视频。

Sora的发布,引爆全球市场,此后,有关世界模型的讨论几乎贯穿了2024整年。从虚拟游戏到医疗健康,从机器人到自动驾驶,各行各业都极度关注这个未来发展的注定方向。

到了2024年年底,12月5日OpenAI宣布,将连续12个工作日宣发新产品和新功能。五日后,OpenAI再次宣布,旗下视频生成模型Sora正式面向大众推出。

Sora发展之际,世界模型在自动驾驶领域的发展也如火如荼地推进,而这背后有其必然性。

一方面,自动驾驶发展逐渐走进深水区,车企纷纷布局以人工智能为核心的自动驾驶。亿欧智库数据显示,中国L2+智驾渗透率将持续快速增长。2023年高速NOA与城区NOA的渗透率分别为4%和0.1%,预计2024年L2+智驾功能将达到8.5%。随着NOA功能迎来飞速发展,预计2030年渗透率将达到80%。市场规模层面,预计2024年NOA功能市场规模将达到190亿元,2030年有望超3000亿元。

自动驾驶的飞速发展,对数据有了进一步要求。厂家需要丰富、复杂场景来锻炼汽车的智能驾驶能力,然而现实生活中数据采集成本居高不下,部分危险场景难以采集,长尾场景稀缺,影响智能驾驶进一步发展。

因此,采用合成数据来助力自动驾驶模型训练成了有效的解决方案,世界模型正是这样的场景生成和预测器,能够为自动驾驶模型训练提供丰富虚拟场景。

另一方面,端到端智能驾驶方案已成为行业公认智驾未来发展方向之一,而其对世界模型也有更高的需求。

过去多模块化的智能驾驶方案可以对感知和规控模块分别进行验证,在感知端层面,工程师可以将感知的结果和带有标注的真实世界状况直接对比,进行开环监测;在规控模块,可以依靠仿真工具将世界的各类场景输入,通过环境的变换来给模型反馈,进行闭环的验证规控算法性能。

而端到端的智能驾驶方案,则是将感知、预测、规划、控制集成一体,这就要求仿真工具既可以逼真地还原外部环境,同时又能给模型反馈实现闭环测试,这是世界模型可以达到的。

此外,随着AI进一步演进,交互式AI是大规模AI系统的发展方向,被动形态的AI最终将演化为主动形态的AI,具体到汽车领域也不例外。而这背后离不开世界模型的作用。与传统互联网数据相比,世界模型更加贴近对真实世界的感受认识、推理决策,能够实现真实数据的自主采集和学习,更加可能打造交互式AI。

过去,是由人向AI主动提出问题,AI被动向访问者给予反馈。发展到交互式AI阶段,将是AI主动感知周围环境,并主动提问,从而变成一个能主动行动的实体。交互式AI的上车,将会给汽车领域带来划世纪的变革。其与道路环境的交互,将会带来真正的自动驾驶;与驾乘人员交互,则是实现多模态数据识别和语义分析,打造多功能交互式智能座舱。

总的来说,在自动驾驶领域,世界模型有着多种作用。其可以生成诸多逼真的场景,生成稀缺、难以采集的场景,为模型训练提供足量的数据;同样生成的场景也可以作为仿真测试工具对算法进行闭环验证;最后,多模态的世界模型可以直接生成驾驶策略来指导自动驾驶行为。

国内外纷纷入局,抢滩“世界模型”赛道

作为自动驾驶的“下一站”,世界模型自然成为了国内外厂商争相抢滩的赛道。

“鲶鱼”特斯拉自然是没放过这个新兴领域。

在CVPR2023上,特斯拉对其端到端模型进行了简单的介绍,希望能够构建一个完整的4D神经网络来理解世界运行的规律。

随后,特斯拉介绍了其感知基础模型的构建方式,算法先将外部的信息经过特征提取网络进行压缩和特征提取,送入基于Transformer的模型,构建对于4D的时空环境的理解。之后根据不同的任务需求,加入不同的解码器或者其它算法模块来实现不同任务。

英国自动驾驶公司Wayve.ai专注于研究端到端(e2e)深度学习自动驾驶系统领域,并在2023年发布了GAIA-1模型,它可以依靠视频、文本和动作的输入生成逼真的视频。模型可以生成连贯场景,其中对象处于合理位置并展现合理交互状态。与此同时,模型有着强泛化性和创造性,可以产生训练集里面尚未明确出现的对象和场景。并且可以根据上下文信息生成连贯动作和响应,并展示出对3D几何的理解,比如道路不平整引起的视角俯仰的情况。

英伟达在近期2024年GTC大会上展示了其世界模型领域的最新进展,通过将包括传感器参数、自车行为、2D/3D检测框、Token化的传感器感知数据等多模态数据输入模型训练,并让模型预测未来驾驶场景,自动驾驶基础模型可以稳定生成多个摄像头拍摄到的驾驶场景演变。

国内厂商也在加速跟进世界模型的搭建。

2024年7月27日,蔚来在“NIO IN 蔚来创新科技日”上发布了智能驾驶世界模型NWM(NIO WorldModel,蔚来世界模型)。

亿欧汽车获悉,蔚来世界模型NWM,是一个多元自回归生成式的具身驾驶模型,可全量理解数据、具有长时序推演和决策能力,能在100毫秒内推演出216种可能发生的场景,寻找到最优决策。作为生成式模型,NWM可将3秒钟的驾驶视频作为Prompt(提示词),生成长达120秒的视频。NWM还具备与生俱来的闭环仿真测试能力,已在复杂交互场景中全面测试并验证性能。

理想汽车在2024年下半年也推出了“端到端+VLM”智驾方案,其中引入了“重建+生成的世界模型”,帮助其智驾方案迭代升级。理想的世界模型,利用3D高斯模型做场景重建,利用扩散模型做场景生成,以重建仿真和生成仿真两种技术路线,为智驾方案提供了“错题集”和“模拟题”。

“未来自动驾驶竞争在云端。”

小鹏汽车副总裁、自动驾驶负责人李力耘认为目前行业主流端到端发展路线有三种,其中小鹏汽车正在研发的就是第三种云端大模型(foundation model),即在云端建立大模型,其容纳的参数量是车端模型的数百倍,在云端实现强化学习训练,再复刻到车端大模型上,形成闭环。

数据显示,在云端大模型的加持下,小鹏汽车的智驾参数量比传统车端大模型多达80倍,能带来8倍有效视觉感知信息量。

除了整车厂,科技企业也纷纷布局世界模型领域。

专注通用视觉大模型公司极佳科技联合中国科学院自动化研究所、理想汽车、北京大学、慕尼黑工业大学等单位提出DriveDreamer4D,其可以大幅提升多种自动驾驶4D重建算法的效果。DriveDreamer4D 可以为驾驶场景提供丰富多样的视角(包括变道、加速和减速等)数据,以增加动态驾驶场景下的闭环仿真能力。DriveDreamer4D 利用世界模型作为数据引擎,基于真实世界的驾驶数据合成新轨迹视频。如下图所示,DriveDreamer4D 不仅可以提升多种重建算法(PVG,S3Gaussian,Deformable-GS)的图像渲染质量,还可以提升驾驶前景(车辆)和背景(车道线)的时空一致性。

商汤绝影在近期也全新升级并发布世界模型“开悟”。基于多模态大模型打造的绝影世界模型,能够理解真实世界的物理规则、交通规则。在真实的基础上,“开悟”生成的场景视频,时间最长为150秒、分辨率可达1080P、视角可以实现11V。据商汤绝影官方披露,“开悟”基于1024类场景,能够泛化出更多平行世界,打造了千万级的生成场景库,预计2025年对行业开放。

此外,地平线元戎启行以及momenta皆有传出布局世界模型的消息。

结语

但值得注意的是,虽然人人都想分“世界模型”一杯羹,但其发展面临着技术等多方面的挑战。

一方面,世界模型依赖大量高质量的数据进行训练和测试,获取和处理这些数据耗时耗力。无论是在数据收集、标注还是处理方面,各玩家都需要取得进一步突破,以确保模型能从多样化和高质量数据中学习。

另一方面,训练和运行世界模型需要大量的计算资源,需要在硬件和算法方面取得进展,以更好地处理高维数据和复杂场景。

除了技术难题之外,世界模型还面临着数据隐私、模型可解释性、数据偏见等等伦理和安全问题需要解决。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
上海野生动物园蜘蛛猴“豆豆”与饲养员互薅头发视频走红,工作人员:“豆豆”行为展示有3个时间段

上海野生动物园蜘蛛猴“豆豆”与饲养员互薅头发视频走红,工作人员:“豆豆”行为展示有3个时间段

极目新闻
2026-05-15 17:50:58
大喜之日,伴娘在婚床上被强奸,且看当年这桩丑陋的大案始末

大喜之日,伴娘在婚床上被强奸,且看当年这桩丑陋的大案始末

长安一孤客
2026-05-15 19:26:59
U17国足22年首入四强!媒体人热议:计划又有变,中国足球回来了

U17国足22年首入四强!媒体人热议:计划又有变,中国足球回来了

奥拜尔
2026-05-16 03:07:36
变天!曝皇马主席将约谈姆巴佩,或效仿C罗拉莫斯离队,无人不可触碰

变天!曝皇马主席将约谈姆巴佩,或效仿C罗拉莫斯离队,无人不可触碰

冷桂零落
2026-05-16 08:33:28
科学家证实:只要连续两天不吃饭,就能够重建整个免疫系统?

科学家证实:只要连续两天不吃饭,就能够重建整个免疫系统?

Thurman在昆明
2026-05-15 05:50:50
波尔图主帅:葡超夺冠后我醒来,穆帅就打电话来祝贺我

波尔图主帅:葡超夺冠后我醒来,穆帅就打电话来祝贺我

懂球帝
2026-05-16 10:52:10
四川武警营门推哨兵后续:大家都搞错了罪名,她面临的不是袭警罪

四川武警营门推哨兵后续:大家都搞错了罪名,她面临的不是袭警罪

奇思妙想草叶君
2026-05-13 18:25:17
钟南山发现:能活到90岁的老人,基本在60岁,就已经不做这6事了

钟南山发现:能活到90岁的老人,基本在60岁,就已经不做这6事了

医学科普汇
2026-05-13 23:30:08
以色列斩首10·7最后一名仍在作战的哈马斯领导人,狂投13枚炸弹

以色列斩首10·7最后一名仍在作战的哈马斯领导人,狂投13枚炸弹

桂系007
2026-05-16 04:00:35
大瓜!曝某童星被抓踩缝纫机,团队接管账号打掩护,网传是张一山

大瓜!曝某童星被抓踩缝纫机,团队接管账号打掩护,网传是张一山

喜欢历史的阿繁
2026-05-16 06:58:46
一条“千里雨带”正向东移动,北京主要降雨时段将于午后开启

一条“千里雨带”正向东移动,北京主要降雨时段将于午后开启

新京报
2026-05-16 09:49:08
特斯拉上线全新优惠,真的猛!

特斯拉上线全新优惠,真的猛!

花果科技
2026-05-16 10:54:56
特朗普43岁小儿媳穿旗袍赴宴,华裔设计师作品,前私教自认普通

特朗普43岁小儿媳穿旗袍赴宴,华裔设计师作品,前私教自认普通

译言
2026-05-15 12:26:05
效率极佳,卡斯尔16投11中斩落32分11板,正负值+28

效率极佳,卡斯尔16投11中斩落32分11板,正负值+28

懂球帝
2026-05-16 13:08:42
石家庄火锅店凶案:36岁店主杀害46岁合伙人,警方通报还原真相

石家庄火锅店凶案:36岁店主杀害46岁合伙人,警方通报还原真相

老猫观点
2026-05-16 09:04:35
陪玩陪睡根本不够!认干爹、舔手指,背地里的阴暗面完全藏不住了

陪玩陪睡根本不够!认干爹、舔手指,背地里的阴暗面完全藏不住了

杰丝聊古今
2026-05-03 13:35:27
体检报告中,若3个指标都正常,基本可以排除很多疾病

体检报告中,若3个指标都正常,基本可以排除很多疾病

芹姐说生活
2026-05-08 19:06:29
水谷隼深夜怒批张本智和:别再丢人了!赛前狂言只会让国乒痛下杀手!

水谷隼深夜怒批张本智和:别再丢人了!赛前狂言只会让国乒痛下杀手!

最爱乒乓球
2026-05-16 06:05:03
击败世界第10!中国女网15岁超新星崛起:3大10后小花看齐郑钦文

击败世界第10!中国女网15岁超新星崛起:3大10后小花看齐郑钦文

李喜林篮球绝杀
2026-05-15 12:06:56
重磅!穆里尼奥出任皇马主帅!

重磅!穆里尼奥出任皇马主帅!

足球王国
2026-05-16 13:08:04
2026-05-16 13:27:00
亿欧
亿欧
更多优质行业资讯请访问亿欧网
134225文章数 95392关注度
往期回顾 全部

科技要闻

涨的是车价,要的是老命

头条要闻

30岁女子用爬楼机锻炼几分钟摔倒 抢救110分钟后身亡

头条要闻

30岁女子用爬楼机锻炼几分钟摔倒 抢救110分钟后身亡

体育要闻

35岁坎特,干了一件这辈子最吵的事

娱乐要闻

张嘉译和老婆的差距让人心酸

财经要闻

造词狂魔贾跃亭

汽车要闻

高尔夫GTI刷新纽北纪录 ID. Polo GTI迎全球首秀

态度原创

教育
时尚
房产
手机
数码

教育要闻

市教委主任点赞!京城名校长不让孩子“你上我下的竞争”牛在哪里?

0缓震的鞋,怎么就火了?

房产要闻

老黄埔热销之下,珠江春,为何去化仅3成?

手机要闻

CounterPoint称三星Galaxy S26系列手机首发全球销量增长13%

数码要闻

华硕ROG枪神10X旗舰电竞台式机发布:内置全息风扇+RTX5080

无障碍浏览 进入关怀版