网易首页 > 网易号 > 正文 申请入驻

AI Agent颠覆了端到端了吗?

0
分享至

这几个月,已经有些科技企业和主机厂试图用AI Agent(智能体)做自动驾驶,声称能规避端到端的弊端。当然,这些做法也没大声嚷嚷。一个是监管因素,另一个可能是AI Agent才刚刚起步。

端到端的长尾能力,为什么不行

经过一年多的商业化落地,端到端+VLM(视觉语言大模型)在长尾场景中表现不如期待,背后的原因是决策短视。在中我们曾经讨论过,端到端往往以单帧画面、单步动向作为决策依据,缺乏对未来数秒内连贯的规划能力,没有形成“策略序列”。这一点上不如人类。其实无须长尾,就一个简单的左转,端到端也是只考虑下一秒动作,没有完整的通过路口的规划。之所以实际动作看上去还算连贯,是由多个“下一秒动作”串起来。一旦中间出岔子,需要改变计划的时候,系统就缺乏应变能力。

背后还有一个原因,就是端到端的感知是被动的。模型训练阶段就固定接收低维度文本指令(如速度、导航信息)和完整视觉信息。对图像的关键细节缺乏关注,形成视觉忽视。到底什么才被认定为“关键细节”,是人类驾驶的核心技能。


比如等待左转的经典场景:左转灯刚亮,右侧人行横道远端晃过一团影子。电光火石间,人马上就察觉到存在两个不合理之处:一个是人行横道方向正处于红灯,另一个即便在人行道上,这个速度也绝对不是行人。只有注意到“异常”,才会及时刹车。多半是外卖电动车顺人行横道闯红灯抢行。

如果只注重信号灯、交通规则和前一秒的画面,就不会有制动决策。端到端的无依托左转向来有问题,就是因为处理不了这种复杂场景。

对于不确定又很关键的视觉信息,人类司机的处理方式,通常都是“再看一眼”或“凑近点看”。如果情况紧急则采取保守策略。

显然,人类应对长尾的行为,包含了策略序列和主动感知两个重要能力。

世界模型的合成数据,两种大模型训练效果不同

有些企业就想用AI Agent的方式来解决解决长尾问题。在线互动上,智能体已经获得广泛应用。想想打银行客服电话,对面是谁接起电话。智能体不止能当客服和电子助手,在线教学、客户专业支持、数据库助手……看上去智能体似乎更胜任与人类互动。在车端,智能体也首先用于座舱互动。

将其作为聊天助手,其引擎通常就是LLM(大语言模型)。如果搭建VLA(语言-视觉-行为大模型),即从思考范式上成为一个驾驶智能体(模拟司机),是不是能够更好地解决长尾问题,让智驾具备L3能力呢。

两者都需要大模型训练、蒸馏和车端转移小模型。不过,两者区别几乎体现在所有环节。端到端为了应对长尾,需要大量实车数据。世界模型生成的合成数据,用于端到端训练效果不好。


简单说,合成数据可以扩充样本,但是没办法解决“零样本泛化”的问题。比如我们用各种“鬼探头”合成数据训练端到端大模型,感觉练得也挺好的,结果一上路,碰到一辆驴车,又懵了。长尾是无穷无尽的,非结构性场景最好由认知推动,由数据推动的端到端训练效果不理想。模拟考经常得高分,一上正式考场就考砸。

Agent可以玩命用世界模型训练。合成环境对现实物理模拟很粗糙,但Agent可以通过视觉轨迹奖励,优化决策。与端到端的被动视觉不同,Agent通过多次主动视觉-动作的反馈,探索合理策略。这和人思维模式很像了,面对陌生场景,用保守方法(低速跟前车,随时改变策略)试错。而不是像端到端那样的内部黑箱。

看和听的能力

主动视觉有两个特征,一个是“对齐”,另一个是自动调整权重。调权重很容易理解,在雨雪雾天气里面,激光雷达和摄像头都会受到强干扰,而且这些干扰很难用滤波手段去除。这个时候,如果降低摄像头感知权重,提升毫米波雷达权重,将减少误判。人也是如此,黑暗的环境下,人虽然不能像蝙蝠那样发出超声波探路,但不由自主“竖起耳朵”专注于声音,同时降低视觉敏感度。

而“对齐”也是人类的核心技能。面对一幅画面或者动态图,如果有人说,找找画面里面的“半个苹果”,你还会关注每个细节吗?显然不,你只会快速扫描整幅图,去找那个符合语言特征的玩意。顺便说一句,驾驶当中,交通标志标线、各种画面、人类口语,都是“大语言”。

这就是语言和图像的“对齐”。一句话一般只与画面中特定细节对应。如果提供一个长文本,任何受过基础教育的人,也是迅速找到与图画描述有关的词句。然后和画面特定位置建立映射。Agent也具有这个能力,即建立了跨模态语义匹配与融合能力。


一辆车如果由AI Agent驾驶,人可以随时发号施令:“跟住前面第二辆红车,别管眼前这辆白的”。系统自己会选择“一组”合理策略执行这道模糊的命令。

想做到这一点,需要完成视觉语言的基座训练(主要练“对齐”),思维-动作后训练(其中关键是扩散模型,持续预测轨迹和环境,以便调整),强化训练(包含刚才说的奖励模型)。这些训练完成之后,能在车端运行的AI Agent也就有了。

内化规则

和端到端需要另加规则兜底不同,AI Agent可以内化规则,就通过奖励函数学习的方式。比如让行救护车、消防车等,Agent计算“让行代价=延误时间×急迫系数”、“不让行风险=事故概率×伤亡可能性”等量化规则,而非依赖一堆条件语句。

AI Agent的核心突破在于,分层推理将数据转化为可交互的知识,其训练过程更接近人类驾驶员的经验积累模式——在理解规则的基础上通过实践优化策略。也因为同样原因,人可以与AI Agent互动,参与驾驶。这是“人机共驾”的高级阶段,不是通过控制权交接,而是用语言就能互动和干预。

语言映射和决策-行为多次反馈机制,与人开车的方式也很类似。与端到端相比,强学习的AI Agent更像人,其推理结果和行为模式都可以验证和反推,与端到端不同。

两者暂时各擅胜场

说了这么多AI Agent的优点,是不是说它可以一脚将端到端踢开,成为智驾主流?AI Agent有个很大的缺点——决策时间长,都是秒级的。对于一些紧急情况,显然不行。因此有些企业试图让端到端主导99%的L2场景,即轻量化思考;只有1%左右的长尾场景,由AI Agent来完成复杂博弈。后者的思维链也不能太长,最多三四层。再长的话人受不了,就像临门一脚思考人生一样诡异。

当然这是实验性质的。两种架构融合在一起,才有商业化部署的价值(比如云端协同)。如果能为世界模型开发出高保真物理引擎,强化学习可能训练出同时具备精准控制和复杂博弈能力的时敏型驾驶模型。

这需要解决三个问题:逻辑链的实时性瓶颈、神经符号系统保障决策的可解释性、跨场景认知迁移机制。

当前条件下,端到端方案仍是L2量产的最优解。虽然没摸到其能力边界,但有能力登上L3高台阶的,大概率是AI Agent,只要解决其思考时长问题。而复杂泊车等非时敏型场景,现在AI Agent就已经解决得很好。


自动驾驶的核心矛盾,一直都是无限场景空间与有限训练资源的对抗。端到端方案更倾向于通过实车数据提升数据利用效率,AI Agent则通过决策范式以降低数据依赖。两者关系如同内燃机与电动机——短期并存满足不同场景需求,长期催生融合新架构。或者还有一种可能,就是其中一种解决自身瓶颈,从而取代对方。看长期的话,AI Agent更有希望做到这一点。

注:图片部分来源网络,如有侵权,联系删除。

“消失的前车”透露了智驾哪方面缺陷?

克服AI幻觉?也许在开智驾倒车

2025过半,整车市场终局的端倪

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
破防了!狗咬人事件追踪:李律师发近20条作品,为申某良无罪辩护

破防了!狗咬人事件追踪:李律师发近20条作品,为申某良无罪辩护

火山诗话
2025-11-17 12:50:06
事关你的驾驶证!本月全面启用!

事关你的驾驶证!本月全面启用!

云上阳新
2025-11-18 15:52:44
太独!出手48次比全队多15次,丢掉铜牌,国家队不需要这样的后卫

太独!出手48次比全队多15次,丢掉铜牌,国家队不需要这样的后卫

南海浪花
2025-11-18 19:51:07
多人退订日本环球影城门票,平台:有相关政策,预计退款时间为60个工作日

多人退订日本环球影城门票,平台:有相关政策,预计退款时间为60个工作日

极目新闻
2025-11-18 14:06:30
郑丽文提“一国两区”,蓝营民调大涨;民进党没招了,再打抗中牌

郑丽文提“一国两区”,蓝营民调大涨;民进党没招了,再打抗中牌

前沿天地
2025-11-18 14:47:14
甲流来袭,医生提醒:少吃牛奶鸡蛋,多吃5样,免疫力拉满不中招

甲流来袭,医生提醒:少吃牛奶鸡蛋,多吃5样,免疫力拉满不中招

爱生活的陶哥
2025-11-17 10:52:41
泪目!女排30岁美女奥运冠军轰11分晋级:最后一舞冲冠又美又能打

泪目!女排30岁美女奥运冠军轰11分晋级:最后一舞冲冠又美又能打

李喜林篮球绝杀
2025-11-17 19:26:18
果然,中日谈完,中方收抗议通知,外交部:日本必须给中国一交代

果然,中日谈完,中方收抗议通知,外交部:日本必须给中国一交代

潮鹿逐梦
2025-11-18 20:06:18
一旦开打,要让解放军“找不着北”,继王世坚之后,于北辰也火了

一旦开打,要让解放军“找不着北”,继王世坚之后,于北辰也火了

沧海旅行家
2025-11-18 12:52:41
心痛!宁波一5个月大婴儿因心脏手术离世,眼角还挂着泪痕

心痛!宁波一5个月大婴儿因心脏手术离世,眼角还挂着泪痕

恪守原则和底线
2025-11-18 10:47:58
15万奖金分给四支女篮队伍引争议:人均不足万元是否合理?

15万奖金分给四支女篮队伍引争议:人均不足万元是否合理?

运动全视界
2025-11-17 18:30:13
逐利执法新花样?苏州一被告人取保4年,借钱退赃9000万后再逮捕

逐利执法新花样?苏州一被告人取保4年,借钱退赃9000万后再逮捕

塔子山评说
2025-11-17 11:51:14
中方不见日本首相,不到24小时,高市报复来了,自卫队电磁炮亮相

中方不见日本首相,不到24小时,高市报复来了,自卫队电磁炮亮相

吴欣纯Deborah
2025-11-18 18:59:27
一夜负债200亿?电动车巨头轰然倒塌:终于活成贾跃亭信徒

一夜负债200亿?电动车巨头轰然倒塌:终于活成贾跃亭信徒

蔡蔡说史
2025-11-15 05:12:34
李春来同志突发疾病逝世

李春来同志突发疾病逝世

新京报
2025-11-16 19:20:24
小天才电话手表惊爆“大瓜”:孩子的孤独,正在被偷偷卖钱…

小天才电话手表惊爆“大瓜”:孩子的孤独,正在被偷偷卖钱…

妈咪OK
2025-11-17 15:43:33
多部日本电影撤档!院线经理回应《鬼灭之刃》20日停映

多部日本电影撤档!院线经理回应《鬼灭之刃》20日停映

释凡电影
2025-11-18 04:12:09
日本专家对比中日军事实力:若发生空战和海战,还是日本更强?

日本专家对比中日军事实力:若发生空战和海战,还是日本更强?

云上乌托邦
2025-09-04 11:45:33
鸠山由纪夫一针见血:让叫声最响的高市当了首相,全日本都有责任

鸠山由纪夫一针见血:让叫声最响的高市当了首相,全日本都有责任

文史旺旺旺
2025-11-17 20:38:04
中方不再相劝,中部空军枪已上膛,美媒:高市已无法阻止中国反击

中方不再相劝,中部空军枪已上膛,美媒:高市已无法阻止中国反击

钦点历史
2025-11-18 18:23:40
2025-11-18 21:12:49
新浪汽车出品 incentive-icons
新浪汽车出品
一家有理想的汽车媒体
4121文章数 1162关注度
往期回顾 全部

科技要闻

小米:汽车及AI等业务首次单季度经营盈利

头条要闻

学者:高市涉台言论给李在明提了醒 韩方举措意在摸底

头条要闻

学者:高市涉台言论给李在明提了醒 韩方举措意在摸底

体育要闻

结束最后一次对决,陈梦和朱雨玲笑着相拥

娱乐要闻

宋佳夺影后动了谁的奶酪

财经要闻

中美机器人爆发了一场论战

汽车要闻

搭载1.5T增程动力 吉利银河V900官图发布

态度原创

亲子
手机
游戏
公开课
军事航空

亲子要闻

从敏上岸换成畅上岸孩子不舒服是怎么回事

手机要闻

高通骁龙8 Gen5首个跑分出炉:单核接近、多核超骁龙8至尊版

真正可以搬砖的手游来了!大话手游交易服搬砖,免费抽特权卡!

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

日媒扬言要"击沉福建舰" 专家:玩火自焚

无障碍浏览 进入关怀版