一个让不少工程师头疼的问题:大模型做高层推理时滴水不漏,可一旦要把这些决策变成方向盘转角和油门开度,延迟、可解释性、工程部署就全成了拦路虎。深圳市大数据研究院、香港中文大学(深圳)、中国科学院深圳先进技术研究院、澳门大学联合研究团队拿出的方案,是把这件事拆成了快慢两条线——大模型只管慢速的语义理解和决策,经典规划器和控制器负责快速执行,中间用两座“桥”把语义意图稳定地传递下去。这篇题为《Bridging Large-Model Reasoning and Real-Time Control via Agentic Fast-Slow Planning》的论文,已经被ICRA 2026接收。
框架的名字叫Agentic Fast-Slow Planning,核心逻辑是按时间尺度分工。感知、推理、规划、控制这四个环节不再强行揉在一起:大模型承担慢速、高层的语义理解与决策,A*规划器负责可解释的长程轨迹生成,MPC控制器则做快速的闭环跟踪和安全执行。
![]()
研究团队在CARLA仿真场景里跑了一组对比实验,结果表明AFSP在鲁棒性和效率上都压过了纯MPC和A*引导的MPC基线——最大横向偏差最高降低了约45%,任务完成时间缩短超过12%。这套架构不是什么概念验证,而是在实际驾驶任务里同时做到了更稳、更快、更安全。
大模型这几年正在从感知工具转向自主系统的推理引擎,在自动驾驶里被寄望承担复杂场景理解、风险判断和任务决策这些高层认知工作。问题在于,一旦把触角伸向轨迹规划和底层控制,大模型推理延迟高、输出偏语言形式的短板立刻暴露出来,而控制和优化模块需要的是低延迟、可验证、可部署。
此前有两条主流路线:一条让大模型直接输出轨迹或控制参数,形式上端到端,但脆弱、难验证,实时闭环的工程约束也够不着;另一条让大模型在线调整MPC的目标或参数,虽然缓解了部分运行问题,可慢速推理和快速控制仍然耦合在一起,高层语义到底怎么稳定作用于中层规划,这个问题并没有被正面回答。AFSP这套“快慢思考”框架的价值恰恰在于把大模型从实时环路里解放出来,同时建立了一套跨层桥接逻辑:慢速的大模型做理解和决策,快速的经典模块管执行,两者之间用清晰、可解释的接口连起来。
第一座桥叫Perception2Decision,负责把视觉输入翻译成大模型看得懂、也够得着的拓扑表示。直接把原始图像扔给大模型,计算开销和带宽成本都高得离谱,图像里还掺杂大量与驾驶决策无关的细节。AFSP的做法是先在端侧用轻量化VLM提取交通场景的拓扑图,只保留车辆、障碍物、距离、方位、相对关系这些和决策直接相关的结构化信息,然后把这份紧凑的拓扑表示送到云端,由LLM输出符号化的驾驶决策——比如LEFT、RIGHT、KEEP,以及对应的驾驶风格。
这一步的关键不只是压缩数据,而是把视觉输入转换成更贴近交通决策逻辑的中间表示,让大模型的推理聚焦在真正重要的结构关系上,同时给下游规划层提供一个语义接口。实验数据也支撑了这个设计:在相同提示词条件下,基于拓扑图输入的LLM拿到的场景决策匹配得分平均达到0.73,而平均推理时延从VLM方案的10.24秒降到了4.13秒。
第二座桥叫Decision2Trajectory,瞄准的是“让大模型指导规划,而不是替代规划”。大模型擅长输出语言,但直接让它生成长程、可执行、可验证的轨迹,目前仍然面临长程一致性、可解释性和工程稳定性上的挑战。AFSP的思路是只保留大模型产出的交通决策逻辑,再把这部分逻辑翻译成经典规划算法能解读的启发式代价。
具体操作是把LLM输出的语义决策注入A*规划器,以软约束的形式影响搜索过程。好处有两层:一是让生成的轨迹朝着符合语义意图的方向偏置,二是不把语言决策当成硬约束,经典搜索在几何可行性和鲁棒性上的优势得以保留。这样一来,这套设计既用上了大模型的推理能力,又没有把它强行塞进实时控制回路。
光有语义引导还不够,经典规划算法在实际使用中严重依赖经验性超参数。研究团队发现,不同超参数会让路径生成行为发生显著变化——有的导致动作过早触发,有的造成语义不匹配,还有的引入不必要的振荡。这意味着即使桥接逻辑设计得再漂亮,如果还靠人工反复调参,系统的可迁移性和可部署性就打了折扣。
AFSP于是又加了一个Agentic Refinement Module,借助大模型的推理能力把“观察反馈—分析问题—调整参数—再次尝试”这套人工流程自动化:系统从云端记忆中检索相似场景的初始参数配置,再根据当前轨迹的反馈迭代优化超参数,直到拿到更合适的规划结果。这样一来,大模型不单参与了高层决策,还兼任了规划器的自适应调参角色。
从CARLA仿真的数据来看,AFSP在决策质量和实时性之间找到了一个
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.