特斯拉“自动交付”，国内为什么没人学|无人车|神经网络|知名企业|埃隆_马斯克|自动驾驶技术|特斯拉(公司)

特斯拉“自动交付”，国内为什么没人学

分享至

6月28日，马斯克在自家社交媒体发文称，“汽车第一次自动交付给主人”，并断言“这一壮举不仅提前一天完成，还标志着自动驾驶技术迈出了历史性的一步” 。同一天，特斯拉公布一段视频，这两Model Y（参数丨图片）从特斯拉奥斯汀工厂出发，全程无驾驶员/安全员，自称无远程操作员。完全自主地驶出停车场，经过城市路段、上下告诉，历经30分钟车程，来到用户家门口，把自己交付给客户。

客户也在几个小时后发表了感言。这通操作具备以上所有要素，但在国内舆论圈几乎没激起什么水花（除了雷军发了一条微博），讨论度很低。

孤证不立

有人认为，原因在于国内法规不允许，导致该操作无法效仿。两国在自动驾驶/辅助驾驶上法规的思路上的确存在差异。在探索技术商业化这方面，中国是典型的“法律后置”思路，即监管发现技术可能性之后，颁发多个试点牌照，成熟了逐步放开商业运营。这意味着只要主机厂在中等样本规模上证实了能力之后，法规是会开绿灯的。反之，法规不允许的话无须假装抱怨，归根结底是没能力。这个能力要求成功概率相当高（譬如高于99.99%），相差的0.01%，就是厂家应该承担责任的那部分。

最容易想到的是，如果是一个孤例，那的确没太大意义（多年前就能做到类似的事情，但一直未能证明商业上的可靠性）。这辆车尽管最高时速116公里，但24公里的路程，花费30分钟，意味着大部分时间为低速行驶（考虑到奥斯汀郊区白天路况相当宽松）。

尽管该视频声称一刀未剪（有加速），但还是太容易作弊了。就算无远程操作员，想提高成功率的话，可以提前采好这个路段的高精度地图数据，做一个特供版。用高精图匹配+博弈算法，处理特殊路况；如果还想继续提升成功率，就影子驾驶跑熟这段路，本车采用熟路通勤模式，零接管还是很容易做到的，大不了就多次尝试。

如果样本大到一定程度（比如上千个交付案例，用户一定距离内随机选定），还是能说明特斯拉具备了“自动交付”能力，焦点就变成工程可靠性的问题。

学习路线占优

特斯拉HW5.0的配置，业内已经耳熟能详：感知硬件由12颗摄像头、4颗毫米4D波雷达、12颗超声波雷达组成。GPU+IMU（惯性测量单元）用于精确定位和姿态感知。FSD算力芯片由Dojo架构双芯片组成（液冷），总算力1.1EFLOPS。顺便说一句，Dojo超算中心也用的是同一类芯片，只不过是25基本tile（瓦片）组成一个训练模组，120个模组组成一个计算集群。

而其软件（FSD V14.x）为典型的“一段式”端到端神经网络，即从感知（实际上是摄像头和毫米波雷达的融合数据）直接映射到驾驶决策。

该系统基于训练，模仿人类的驾驶行为，生成驾驶轨迹。理论上，FSDV14.x有能力规划包含高速、城市道路、住宅区在内最优路径。

自2022年起（国内要到2023年）直到今天，这种端到端神经网络，成为智驾的首选路线。而在此之前，以及最近，逻辑驱动路径成为AI演化的另一条路。

走这条路的开发人员认为，人类智能的精髓在于推理。核心是符号表征知识，依据规则操作符号表达式。而端到端为代表的神经网络路线，则认为智能的本质在于神经网络的学习。虽然人类拥有真正的神经网络，而计算机只有模拟的神经网络（本质都一样：多个输入信号经过神经节形成输出，而输入信号则来自其他神经，神经节在计算机里相当于一组函数）。这条路线的精髓在于，理解学习是如何发生的。

学习的瓶颈在于“黑箱”

端到端训练无非是调整多个输入信号的权重，观察输出的变化。这种方式更像是生物进化中的突变。随机调整一个权重，看看神经系统表现，是变好了还是变差了。如果变好，就保留这个改动。问题是，神经系统的权重数量可能高达万亿级别，如果每一次突变都用海量样本验证效果，效率简直令人发指。

如果改变一下思路，将数据直接给到神经网络底层（也就是初始输入端），信息经过多层多节点一直传递到输出层，得到一个预测结果。将这一结果与已知答案比较。然后就将误差从输出层反向传回网络。网络可以计算出，对每一个输入权重进行微小调整，降低结果产生正面还是负面的影响（此时仍然是定性分析）。然后更新权重，重新微调并计算。只要重复这个过程，预测表现会越来越好。事实证明，结果收敛很快。

这个过程，就是训练。神经网络占住业内主流地位已经多年。而神经网络用于智驾，基本上依赖算力和经验，简单说就是实证主导。就连陶哲轩也吐槽说，这个过程中，学界几乎毫无贡献。

以上过程，揭示了模型能工作，但为什么如此，人类不知道。对我们来说，端到端是黑箱。AI元老杰弗里·辛顿甚至预言，AI将发展出人类无法理解的内部语言。

现在问题还没有那么严重。但是，端到端智驾在多数时候的对策看上去都是合理的，但少数时候莫名其妙，明明是相似场景相似任务，却莫名其妙地失败了。深度学习和训练本身不可解释。系统越强大（模型参数越多、算力越强），就越不透明。

推理与理解

和毫米波雷达只接收到物理信号不同，视觉图像也是一种语义理解，而语义理解是一种高纬度的理解。雷达再先进（包括激光雷达），也不会看出一个小孩在横穿马路，它顶多会告诉你，前方150米有个移动小目标，大小未知、横向移动速度5m/s。重要的并非识别障碍物，而是理解人类规则。

既然视觉可以真正理解，推理就重新变得受重视。有学者强烈怀疑神经网络处理语言的能力（这也是为什么端到端要用规则兜底）。语言的核心是符号表达，大语言本身就是强大的建模媒介。GPT和DeepSeek为代表的大语言模型，都是如此。

句法并非重要，语言的真正功能是提供词语。这些词语“如同积木”（也是辛顿说的），构建了人类对世界的理解。

而大语言模型，实际上将词义视为一大堆特征的集合。比如，“白色货柜车”与“白色大车”，在语义上接近，因为它们激活的特征集高度重合。从智驾的角度，可以将其视为同一类东西，进一步区分的必要性不大。

智驾系统理解交通规则、场景和相关视觉语言，在某种程度上都可以被视为基于推理的预测。即让一个语义特征，去预测下一个语义特征，和聊天机器人的原理极为相似。用在道路上，能描绘一个交通参与者的连续运动轨迹，预测其在下一秒出现的地方。幸好，它们不会飞，也不会原地旋转，自由度相当有限，很容易预测。

这些预测，最终学到了能够捕捉交通场景结构的规则，即读懂交通。这和人类开车时的大脑活动已经很相似。不用说，谷歌发明的Transformer架构，提升了模型预测的能力。即便场景再复杂、参数再多，更多的参与者，并且需要处理不少模糊和歧义支出，但都可以根据预测误差回馈来矫正系统。而所有要素“握手”的过程，就构成了场景理解。

从这个意义上讲，特斯拉和其他公司的端到端，都非学会规则，只是学会如何模仿人类开车。现在的结果不可控、过程黑盒子，似乎成为通向L3的障碍。

而逻辑推理，则可能规避这一点。关键是如何让一个系统，同时容纳学习与推理两种方式。

回到开端，结论呼之欲出，假定场景再复杂一点，特斯拉很难在上千次自动交付中均成功，而一例失败就可能造成严重后果。特斯拉的车载Soc和云的算力更强、训练和转移效率更高，可能领先于中国厂商，但大家彼此没有本质区别，都没有实现场景泛化能力。

真正的自动交付，和“无人车组成车队服务于城市人群，夜晚到郊区充电”这样智慧城市幻想，实际上是一回事。现在并无希望做到这一点，新的支撑理论尚未诞生。

颇具讽刺意味的是，8月8日，据说马斯克已经下令关闭Dojo超算项目，团队正在集散。负责人彼得·班农即将离开公司。而Dojo对于训练特斯拉的FSD至关重要。

特斯拉不大可能放弃FSD路线，可能依赖其他公司（英伟达、AMD）提供算力。这对于试图放“交付大新闻”未果的特斯拉来说，打击更大一点。也许是时候探索AI在自动驾驶领域的新路线了。

注：图片部分来源网络，如有侵权，联系删除。

AI Agent颠覆了端到端了吗？

“消失的前车”透露了智驾哪方面缺陷？

克服AI幻觉？也许在开智驾倒车

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.