想象你开车经过同一个复杂路口——早高峰时公交车占道、外卖电动车穿插、行人闯红灯。第一次你手忙脚乱,第三次你已经知道哪个时间点最危险。人类司机靠经验,自动驾驶靠摄像头。但同济大学和合作者的最新研究问了一个问题:如果AI也能"记得"上次怎么过的这个路口,决策会不会更稳?
这篇发表在同行评审论文中的系统叫KEPT(基于视觉语言模型的连续驾驶帧知识增强轨迹预测),核心思路很直白:别每次都当新司机。
![]()
KEPT怎么工作的?
系统用前视摄像头实时录像,同时检索一个大规模真实驾驶片段库,找到历史上相似的交通场景。这些"记忆"被输入视觉语言模型(一种能同时处理图像和文本的AI),作为结构化推理的一部分。
研究者特意强调了这一步的必要性。大型视觉语言模型单独使用时有个老毛病:会"幻觉"(生成看似合理但实际不符合物理规律的建议),或者忽略真实世界的约束条件。KEPT的检索机制相当于给模型装上护栏——你不是凭空想象怎么开,而是参考真实发生过、被验证过的类似情况。
具体流程是:当前场景→检索相似历史片段→结合两者预测短期行驶轨迹。检索速度被控制在实时驾驶可接受的范围内。
比现有系统强在哪?
研究团队在nuScenes基准测试(自动驾驶领域广泛使用的公开数据集)上做了验证。KEPT在开放环路指标上超过了两种对照:传统的端到端规划系统,以及较新的纯视觉语言规划方案。
数字层面:预测误差降低,潜在碰撞指标下降,同时保持检索速度满足实时性要求。
但论文作者也留了余地——这还不是能直接上路的成熟系统。nuScenes是开放环路测试,意味着系统只输出规划轨迹,不真正控制车辆;真实道路的闭环验证、极端 corner case 的覆盖,都是未完成的功课。
为什么"记忆"这个方向值得关注?
这里可以展开一场小型辩论。
正方:记忆是填补自动驾驶短板的合理路径
现有系统的核心困境是"看得清但想不明"——传感器能360度感知,却在复杂动态交通中做出短视决策。这不是硬件问题,是推理深度问题。
人类司机的决策优势恰恰来自经验压缩:不需要实时计算所有物理方程,而是调用"这种情况我见过"的模式匹配。KEPT的检索-推理架构,本质上是在用工程手段模拟这种认知捷径。
更深层看,这触及自动驾驶的一个结构性矛盾:端到端神经网络追求泛化,但交通场景的长尾分布意味着"没见过"的情况永远存在。用显式记忆库做检索增强,是在泛化和特例之间找平衡——既保留神经网络的灵活,又用真实案例锚定决策的物理合理性。
反方:记忆库的规模和维护是隐形陷阱
检索系统的天花板取决于记忆库的质量和覆盖度。论文没有公开库的具体规模,但一个必须面对的问题是:要覆盖多少城市、多少天气条件、多少交通文化,才能保证"检索得到"而非"检索不到"?
更麻烦的是记忆的新鲜度。道路施工、交通规则调整、新建路口——静态地图尚且需要持续更新,动态驾驶记忆的维护成本只会更高。如果检索到的"相似场景"其实是过期数据,系统反而会被误导。
还有工程落地的现实:检索延迟、存储成本、多车协同时的记忆同步,都是论文验证阶段未充分暴露的问题。nuScenes的开放环路成绩,到城市NOA(Navigate on Autopilot,导航辅助驾驶)的闭环部署,中间隔着产品化的深沟。
判断:这不是终极答案,但是有价值的认知转向
KEPT的真正意义不在于当前指标,而在于它代表的方法论迁移——从"训练一个更聪明的模型"转向"给模型配备可查询的外部知识"。
这和当下大语言模型领域的检索增强生成(RAG)趋势同频。当模型参数无法无限膨胀,用外部记忆扩展能力边界成为共识。自动驾驶的特殊性在于,它的"知识"必须是物理世界的真实轨迹,而非互联网文本,这使得记忆库的构建更重、更贵,但也更不可替代。
对行业的影响可能是分层的:短期内,记忆增强可能作为安全模块,嵌入现有端到端系统,负责高风险场景的二次校验;中期看,车云协同架构下,单车记忆与云端案例库的实时交互,会成为技术竞争的关键变量;长期而言,如果记忆库能跨车型、跨厂商共享(类似高精地图的联盟模式),可能重塑自动驾驶的数据壁垒格局。
一个值得追踪的信号是:Waymo、特斯拉、华为ADS等头部玩家的技术路线,是否会在未来12-18个月内出现类似的"记忆"模块。论文的学术验证到工程落地的时差,往往是判断技术趋势真伪的试金石。
至于普通用户,可以期待的是:未来某次乘坐Robotaxi经过混乱路口时,车辆的减速和变道可能不再那么"机械"——不是因为算法更复杂,而是因为它隐约"记得"上次这里发生过什么。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.