ICLR 2026 | 北航于海洋教授团队：自驾在线建图时间稳定性评测基准|选型|时序|可靠性

ICLR 2026 | 北航于海洋教授团队：自驾在线建图时间稳定性评测基准

2026-04-01 08:26:03　来源: 将门创投

北京举报

分享至

这一帧里，车道线清晰可见；下一帧，却悄然消失。边界线方才还安分地待在左侧，转瞬却抖到右边，这些发生在时间维度上的闪烁与漂移，在只关注「单帧精度」的评测体系中几乎完全隐身，却足以让规划与决策误判可通行区域，甚至误判潜在碰撞。若高精地图在时间轴上站不稳，再漂亮的 mAP，也难称可靠。这项被ICLR 2026接收的工作，首次将在线高精地图的时间稳定性系统化、量化为一套评测基准：提出存在、定位、形状三类稳定性指标，并汇总为mAS（mean Average Stability），在42 个模型及其变体上进行了全面实测。结论直截了当：精度（mAP）与稳定性（mAS）是相对独立的评价标准。不少在榜单上表现亮眼的模型，在时间稳定性上却明显失分。作者团队来自北航、上交、智源与清华，基准与代码已全面开源，推动社区在「精度 + 稳定性」的双目标下重新审视模型选型与迭代路径。

论文标题： Stability Under Scrutiny: Benchmarking Representation Paradigms for Online HD Mapping 论文链接： https://arxiv.org/abs/2510.10660 代码链接： https://github.com/bhsh0112/MapStableTest 项目主页： https://stablehdmap.github.io/

一、被忽视的维度：单帧准了，多帧稳了吗？

当前在线建图方法，几乎清一色围绕mAP等指标竞争单帧表现，却鲜少追问：在同一段道路、连续多帧输入下，模型的输出是否前后一致。如果某一帧车道线画得分毫不差，下一帧却突然消失或发生剧烈位移，对下游模块而言，这样的地图更像是一位「间歇性失明」的向导，可靠性无从谈起。

图1：不稳定地图元素对下游任务的影响。左：超车时前方车道线突然消失，误判驶向路缘；右：邻车变道时车道线闪烁，被误判为碰撞轨迹。

该工作将稳定性正式提升为与精度并列的评估维度，并给出一套可复现、可扩展的评测流程：从连续帧中同一地图元素的预测出发，聚焦三件事：①是否频繁消失（存在）、②位置是否漂移（定位）、③形状是否突变（形状），并将其整合为统一的稳定性指标 mAS。

二、怎么衡量「稳」：存在、定位、形状

评估流程可以概括为四步：在连续多帧里取帧对 → 用 GT 做中介做跨帧实例匹配 → 几何对齐并重采样到可逐点比较 → 在匹配好的点上算三类稳定性。

存在稳定性（Presence）：同一元素在前后帧是「都检出」或「都没检出」，还是前一帧有、后一帧没（闪烁）？前者稳，后者不稳。
定位稳定性（Loc）：重采样后的折线在对应点上位置差多大，相当于车道线在帧间「左右晃」的程度。
形状稳定性（Shape）：前后帧折线曲率是否一致，区分的是「弯道被识别成直道」或形状在帧间变化这类问题。

三类指标按权重合成单实例稳定性，再按类别与整体取平均，得到mAS。mAS 越接近 1，连续帧间越一致；偏低则要么闪烁多，要么位置/形状抖动大，实车中会表现为地图「不稳、不可信」。下图是各模型在 mAS 与 mAP 等多维上的雷达图。

图2：各模型在 mAS、Shape、Loc、Presence、mAP、显存、参数量、FPS 等维度的雷达图。三、42个模型及其变体的结论：精度与稳定性脱钩

在nuScenes验证集上，作者对42 个在线高精地图模型及变体做了评估（涵盖 BeMapNet、PivotNet、MapTR、MapTRv2、StreamMapNet、MGMap、GeMap、MapQR、MapTracker、HRMapNet 等），用三个研究问题组织结论。

表1：代表性模型及配置在稳定性上的表现。 3.1 高 mAP 不等于高 mAS

mAP 与 Presence、Loc、Shape、mAS 的散点关系见下图（气泡大小表示参数量）。点分布很散，说明单帧精度高和多帧稳定是两回事：有的模型 mAP 不错但 mAS 偏低，同一段路跑多帧时车道线会时有时无或位置抖；也有 mAS 高、mAP 一般的模型，单帧略逊但输出更稳，更适合给规划用。

图3：mAP 与各稳定性指标的散点图；气泡大小表示参数量。

mAS 跨模型差异很大：最低约71.6（MapTR），最高约91.9（StreamMapNet），相差约 20 分，对应实车中「闪烁与位移」体感的明显差别。多数模型落在 71.6–78.0 的中低区间，稳定性仍是普遍短板。

3.2 传感器、编码器、时序与训练：不是「加就变稳」

引入 LiDAR：通常能抬升 mAP，但对 mAS 并非总是利好。MapTR 融合后 mAS 提升约 3.4%，而 GeMap 却下降约 3.9%。若多传感器融合未针对时序一致性设计，反而可能引入新的不稳定源。
更换 BEV 编码器（以 MapTR 为例）：整体 mAS 接近（71.3–71.9），但侧重点不同，GKT 更有利于存在稳定性，BEVFormer / BEVPool 则在定位稳定性上更占优，选型需贴合下游最敏感的失效模式。
引入时序建模：原生时序架构优势明显，如StreamMapNet（91.9 mAS）、MapTracker（90.4 mAS）。而在非时序模型中「外挂」时序模块，效果高度依赖具体设计：MapTR + GKT 时 mAS 下降约 7%，MapTR + BEVFormer 却实现 mAS +2.4%、mAP +28.1% 的双提升。时序并非插件，而是架构层面的系统工程。
更强骨干与更长训练：往往推高 mAP，却对 mAS 呈现三种典型模式——稳定性被侵蚀、趋于饱和，或二者兼得。个别配置（如 MapQR）显示精度与稳定性可以同时提升，但整体来看，稳定性必须被显式建模与优化，无法仅靠“堆精度”顺带获得。

图4：时序融合对 MapTR 在不同 BEV 编码器下的影响。四、对领域意味着什么

这项工作首次把在线高精地图的时间稳定性做成可复现的基准：用 Presence、Loc、Shape 与 mAS 量化「连续帧一致程度」，在 42 个模型及其变体变体上验证了mAP 与 mAS 的脱钩，并系统审视了传感器、骨干、BEV 编码器、时序输入等维度对二者的不同影响。基准与工具已开源，方便社区在选型与迭代时同时看精度和稳定性。

一句话：刷榜 mAP 的在线建图，若在时间维度上不稳，很可能正在「坑」规划模块；把时间稳定性和精度一起纳入评估与设计，是走向更可靠自动驾驶地图的一条必要路径。

欢迎对高精地图与自动驾驶感知感兴趣的研究者、工程师关注与引用。

Illustration generated by AI.

-The End-

扫码观看！

本周上新！

“AI技术流”原创投稿计划

TechBeat是由将门创投建立的AI学习社区（www.techbeat.net）。社区上线700+期talk视频，3000+篇技术干货文章，方向覆盖CV/NLP/ML/Robotis等；每月定期举办顶会及其他线上交流活动，不定期举办技术人线下聚会交流活动。我们正在努力成为AI人才喜爱的高质量、知识型交流平台，希望为AI人才打造更专业的服务和体验，加速并陪伴其成长。

投稿内容

// 最新技术解读/系统性知识分享 //

// 前沿资讯解说/心得经历讲述 //

投稿须知

稿件需要为原创文章，并标明作者信息。

我们会选择部分在深度技术解析及科研心得方向，对用户启发更大的文章，做原创性内容奖励

投稿方式

发送邮件到

yimingzhang@thejiangmen.com

或添加工作人员微信（aceyiming）投稿，沟通投稿详情

关于我“门”

将门是一家以专注于数智核心科技领域的新型创投机构，也是北京市标杆型孵化器。公司致力于通过连接技术与商业，发掘和培育具有全球影响力的科技创新企业，推动企业创新发展与产业升级。

将门成立于2015年底，创始团队由微软创投在中国的创始团队原班人马构建而成，曾为微软优选和深度孵化了126家创新的技术型创业公司。

如果您是技术领域的初创企业，不仅想获得投资，还希望获得一系列持续性、有价值的投后服务，欢迎发送或者推荐项目给我“门”:

bp@thejiangmen.com

点击右上角，把文章分享到朋友圈

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.