6月28日,马斯克在自家社交媒体发文称,“汽车第一次自动交付给主人”,并断言“这一壮举不仅提前一天完成,还标志着自动驾驶技术迈出了历史性的一步” 。同一天,特斯拉公布一段视频,这两Model Y(参数丨图片)从特斯拉奥斯汀工厂出发,全程无驾驶员/安全员,自称无远程操作员。完全自主地驶出停车场,经过城市路段、上下告诉,历经30分钟车程,来到用户家门口,把自己交付给客户。
![]()
客户也在几个小时后发表了感言。这通操作具备以上所有要素,但在国内舆论圈几乎没激起什么水花(除了雷军发了一条微博),讨论度很低。
孤证不立
有人认为,原因在于国内法规不允许,导致该操作无法效仿。两国在自动驾驶/辅助驾驶上法规的思路上的确存在差异。在探索技术商业化这方面,中国是典型的“法律后置”思路,即监管发现技术可能性之后,颁发多个试点牌照,成熟了逐步放开商业运营。这意味着只要主机厂在中等样本规模上证实了能力之后,法规是会开绿灯的。反之,法规不允许的话无须假装抱怨,归根结底是没能力。这个能力要求成功概率相当高(譬如高于99.99%),相差的0.01%,就是厂家应该承担责任的那部分。
最容易想到的是,如果是一个孤例,那的确没太大意义(多年前就能做到类似的事情,但一直未能证明商业上的可靠性)。这辆车尽管最高时速116公里,但24公里的路程,花费30分钟,意味着大部分时间为低速行驶(考虑到奥斯汀郊区白天路况相当宽松)。
![]()
尽管该视频声称一刀未剪(有加速),但还是太容易作弊了。就算无远程操作员,想提高成功率的话,可以提前采好这个路段的高精度地图数据,做一个特供版。用高精图匹配+博弈算法,处理特殊路况;如果还想继续提升成功率,就影子驾驶跑熟这段路,本车采用熟路通勤模式,零接管还是很容易做到的,大不了就多次尝试。
如果样本大到一定程度(比如上千个交付案例,用户一定距离内随机选定),还是能说明特斯拉具备了“自动交付”能力,焦点就变成工程可靠性的问题。
学习路线占优
特斯拉HW5.0的配置,业内已经耳熟能详:感知硬件由12颗摄像头、4颗毫米4D波雷达、12颗超声波雷达组成。GPU+IMU(惯性测量单元)用于精确定位和姿态感知。FSD算力芯片由Dojo架构双芯片组成(液冷),总算力1.1EFLOPS。顺便说一句,Dojo超算中心也用的是同一类芯片,只不过是25基本tile(瓦片)组成一个训练模组,120个模组组成一个计算集群。
而其软件(FSD V14.x)为典型的“一段式”端到端神经网络,即从感知(实际上是摄像头和毫米波雷达的融合数据)直接映射到驾驶决策。
该系统基于训练,模仿人类的驾驶行为,生成驾驶轨迹。理论上,FSDV14.x有能力规划包含高速、城市道路、住宅区在内最优路径。
自2022年起(国内要到2023年)直到今天,这种端到端神经网络,成为智驾的首选路线。而在此之前,以及最近,逻辑驱动路径成为AI演化的另一条路。
走这条路的开发人员认为,人类智能的精髓在于推理。核心是符号表征知识,依据规则操作符号表达式。而端到端为代表的神经网络路线,则认为智能的本质在于神经网络的学习。虽然人类拥有真正的神经网络,而计算机只有模拟的神经网络(本质都一样:多个输入信号经过神经节形成输出, 而输入信号则来自其他神经,神经节在计算机里相当于一组函数)。这条路线的精髓在于,理解学习是如何发生的。
![]()
学习的瓶颈在于“黑箱”
端到端训练无非是调整多个输入信号的权重,观察输出的变化。这种方式更像是生物进化中的突变。随机调整一个权重,看看神经系统表现,是变好了还是变差了。如果变好,就保留这个改动。问题是,神经系统的权重数量可能高达万亿级别,如果每一次突变都用海量样本验证效果,效率简直令人发指。
如果改变一下思路,将数据直接给到神经网络底层(也就是初始输入端),信息经过多层多节点一直传递到输出层,得到一个预测结果。将这一结果与已知答案比较。然后就将误差从输出层反向传回网络。网络可以计算出,对每一个输入权重进行微小调整,降低结果产生正面还是负面的影响(此时仍然是定性分析)。然后更新权重,重新微调并计算。只要重复这个过程,预测表现会越来越好。事实证明,结果收敛很快。
这个过程,就是训练。神经网络占住业内主流地位已经多年。而神经网络用于智驾,基本上依赖算力和经验,简单说就是实证主导。就连陶哲轩也吐槽说,这个过程中,学界几乎毫无贡献。
![]()
以上过程,揭示了模型能工作,但为什么如此,人类不知道。对我们来说,端到端是黑箱。AI元老杰弗里·辛顿甚至预言,AI将发展出人类无法理解的内部语言。
现在问题还没有那么严重。但是,端到端智驾在多数时候的对策看上去都是合理的,但少数时候莫名其妙,明明是相似场景相似任务,却莫名其妙地失败了。深度学习和训练本身不可解释。系统越强大(模型参数越多、算力越强),就越不透明。
推理与理解
和毫米波雷达只接收到物理信号不同,视觉图像也是一种语义理解,而语义理解是一种高纬度的理解。雷达再先进(包括激光雷达),也不会看出一个小孩在横穿马路,它顶多会告诉你,前方150米有个移动小目标,大小未知、横向移动速度5m/s。重要的并非识别障碍物,而是理解人类规则。
既然视觉可以真正理解,推理就重新变得受重视。有学者强烈怀疑神经网络处理语言的能力(这也是为什么端到端要用规则兜底)。语言的核心是符号表达,大语言本身就是强大的建模媒介。GPT和DeepSeek为代表的大语言模型,都是如此。
句法并非重要,语言的真正功能是提供词语。这些词语“如同积木”(也是辛顿说的),构建了人类对世界的理解。
而大语言模型,实际上将词义视为一大堆特征的集合。比如,“白色货柜车”与“白色大车”,在语义上接近,因为它们激活的特征集高度重合。从智驾的角度,可以将其视为同一类东西,进一步区分的必要性不大。
智驾系统理解交通规则、场景和相关视觉语言,在某种程度上都可以被视为基于推理的预测。即让一个语义特征,去预测下一个语义特征,和聊天机器人的原理极为相似。用在道路上,能描绘一个交通参与者的连续运动轨迹,预测其在下一秒出现的地方。幸好,它们不会飞,也不会原地旋转,自由度相当有限,很容易预测。
这些预测,最终学到了能够捕捉交通场景结构的规则,即读懂交通。这和人类开车时的大脑活动已经很相似。不用说,谷歌发明的Transformer架构,提升了模型预测的能力。即便场景再复杂、参数再多,更多的参与者,并且需要处理不少模糊和歧义支出,但都可以根据预测误差回馈来矫正系统。而所有要素“握手”的过程,就构成了场景理解。
从这个意义上讲,特斯拉和其他公司的端到端,都非学会规则,只是学会如何模仿人类开车。现在的结果不可控、过程黑盒子,似乎成为通向L3的障碍。
而逻辑推理,则可能规避这一点。关键是如何让一个系统,同时容纳学习与推理两种方式。
![]()
回到开端,结论呼之欲出,假定场景再复杂一点,特斯拉很难在上千次自动交付中均成功,而一例失败就可能造成严重后果。特斯拉的车载Soc和云的算力更强、训练和转移效率更高,可能领先于中国厂商,但大家彼此没有本质区别,都没有实现场景泛化能力。
真正的自动交付,和“无人车组成车队服务于城市人群,夜晚到郊区充电”这样智慧城市幻想,实际上是一回事。现在并无希望做到这一点,新的支撑理论尚未诞生。
![]()
颇具讽刺意味的是,8月8日,据说马斯克已经下令关闭Dojo超算项目,团队正在集散。负责人彼得·班农即将离开公司。而Dojo对于训练特斯拉的FSD至关重要。
特斯拉不大可能放弃FSD路线,可能依赖其他公司(英伟达、AMD)提供算力。这对于试图放“交付大新闻”未果的特斯拉来说,打击更大一点。也许是时候探索AI在自动驾驶领域的新路线了。
注:图片部分来源网络,如有侵权,联系删除。
AI Agent颠覆了端到端了吗?
“消失的前车”透露了智驾哪方面缺陷?
克服AI幻觉?也许在开智驾倒车
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.