在将“减少事故”作为第一要务的前提下,蔚来采用端到端架构的增强版AEB率先在Banyan 2.6.5版本实现上车了。现在,是时候对蔚来智能驾驶整体的端到端思路进行披露了。
7月27日,蔚来智能驾驶研发副总裁——任少卿在NIO IN上讲解了「蔚来世界模型NWM」的时空认知、想象重构等能力。
模型应有的关键能力
任少卿认为,主动安全最大的挑战,还是在于覆盖真实而复杂的场景。
但经过统计,法规场景实际只占真实世界场景的10%。就此,蔚来引入了端到端技术。例如,其端到端架构下想增强版AEB,所覆盖的场景比标准AEB高达6.7倍之多。
不过,有端到端够了吗?
在此问题上,任少卿与多位专家一样,给出了否定的答案。
(相关阅读:蔚来AI平台负责人白宇利:「端到端」并非灵丹妙药)
“人类大脑有两个非常核心的能力,第一个是空间能力,第二个是理解能力,也叫想象重建的能力。”
任少卿认为,一个智能体要想像人一样聪明,就需要具备空间认知,和想象推演能力。
“所以端到端是不够的,因为端到端的模型并不具备这两个核心能力,而我们希望去构建一个具备这种能力的模型。”
经过一年的开发和训练,任少卿觉得,已经是时候分享蔚来的世界模型NWM了,因为它已经面临上车量产了。
空间认知+想象重建
从任少卿的现场展示来看,NWM能够基于真实视频进行重构,“想象”出一个平行世界,并且生成各类天气、各类时段,各类路况的场景。
“NWM相当于看了很多视频,学习了真实世界的千万种可能,并且能在脑海里想象重构出来。”
任少卿还称,从算法端的架构来说,NWM还会带来额外的好处:
1、既然是直接录入的过程,所以不太需要数据标注。“当然这也需要有非常多的努力,但是我们可以相对容易地做到千万Clips,甚至更高的数据量的训练。”
2、因为需要重建视频,接入信息也会更多,这使得模型的收敛速度更快,想象的能力也会更强。
3、相比于之前的算法,NWM生成的视频长度会长很多。从展示的视频来看,其两分钟以上的时长,被认为超过了现在绝大多数的视频生成软件。
这就意味着它需要生成非常复杂的变化,同时又要符合动态和静态的物理规律,对于时空的理解也要更深。
“同时,相比于去年的架构,蔚来的算法架构NADArch2.0有了翻天覆地的变化。基于该架构,我们将产品端的功能收敛到了两个产品——全域领航辅助2.0,智能安全辅助2.0。其中点到点的领航辅助功能下半年会上车,端到端GOA也会陆续上车。
主要困难点
不过,为了做好这件事,其实有非常多的困难:
1、想象重建能力的精确度,需要依赖数据的真实和数量。
“比如说树木你每天都能看到,想象的时候它就会非常的具体;但如果是一个一两年才能看到一次的东西,想象的时候可能就非常的模糊。”
2、比较长的视频需要加强时间轴上的连贯性,所以蔚来开发了新的时空encoding的方式,使得它的持续连贯性更好。
3、一些工程上的困难,主要在数据训练和内存上。
对于数据层面,任少卿表示,数据不是简单堆叠即可,而是需要更精确、更有价值,这是群体智能帮助解决的。这样一来,从拿到数据和到验证数据,实际上大幅降低了对数据量的要求,也提高了数据的有效性。
每0.1秒生成216种可能
任少卿还指出,除了开放式的想象,蔚来也希望NWM能接受一些指令:例如左转右转、左变道、右变道等,以及任意打方向盘的角度、控制速度等微观细节,都可以让模型按照人为的控制,去进行一系列想象的行为。
在某些特殊场景中,例如看不到前因后果的刮蹭事故,也可以让模型穿回到事故前的三秒钟,让它学习如果遇到这种场景可以怎么做。目前看,NWM只是看了视频,就自然而然地学会了踩急刹车。
当然,除了有时空认知能力之外,模型最终还是要学会开车,也就是输出规划轨迹。
他表示,在NWM的脑海中,每0.1秒就会生成216种可能的轨迹,并对每一个轨迹进行评估,选出来最好的。
优势总结
相比于常规的端到端的模型,NWM有3个优势:
1、在空间理解上,蔚来通过深层次模型,重构传感器输入的方式,更加泛化地抽取了信息,使得模型对于空间的理解更加深入。
2、从时间的角度来说,我们通过指挥部的方式来自动建模常识区的环境,它在推演维度上它有更强的能力。
3、NWM基于自监督模式,无需人工标注,能学得更快。
“我们有大量的量产车,可以把世界模型的版本去分发到10万辆级的量产车上,去对比人类驾驶的状态,也可以去对比前面的稳定版本。虽然它还没有这么聪明,但它更稳定,是会生长得更成熟的智驾方案。”
仿真模型带来更多可能
至于蔚来的仿真模型,是使用了真实的视频去重建世界。它可以切换到任意角度,分析细节信息,然后重建三维世界。
仿真的生成结果给NWM提供了更多可能,可以帮助它去想象接下来可能发生的结果。
也就是说,基于蔚来Simulation的仿真,NWM可以想象出千万种可能。而仿真也可以根据NWM的想象,根据输出的轨迹,去生成千万种可能,一一去做对比和验证。
这样的结果是,让万千世界想象的结果更真,让它驾驶的输出更好。
关于组织架构调整
技术的阶段性变化,很可能意味着研发团队架构的大幅调整。对此,任少卿介绍称,尽管在蔚来研发系统中,各个模块的模型化各有早晚——比如感知的模型化较早,规划模型化较晚,但无论如何,每个模块中都有做模型的人与写代码的人。
“现在我们希望模型不再是分散的,而是整合为一个统一的模型,所以团队也要整合到一起,但团队规模不会变小。技术架构的更新,是为了迭代更快,效果更好。”
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.