这一帧里,车道线清晰可见;下一帧,却悄然消失。边界线方才还安分地待在左侧,转瞬却抖到右边,这些发生在时间维度上的闪烁与漂移,在只关注「单帧精度」的评测体系中几乎完全隐身,却足以让规划与决策误判可通行区域,甚至误判潜在碰撞。若高精地图在时间轴上站不稳,再漂亮的 mAP,也难称可靠。这项被ICLR 2026接收的工作,首次将在线高精地图的时间稳定性系统化、量化为一套评测基准:提出存在、定位、形状三类稳定性指标,并汇总为mAS(mean Average Stability),在42 个模型及其变体上进行了全面实测。结论直截了当:精度(mAP)与稳定性(mAS)是相对独立的评价标准。不少在榜单上表现亮眼的模型,在时间稳定性上却明显失分。作者团队来自北航、上交、智源与清华,基准与代码已全面开源,推动社区在「精度 + 稳定性」的双目标下重新审视模型选型与迭代路径。
![]()
论文标题: Stability Under Scrutiny: Benchmarking Representation Paradigms for Online HD Mapping 论文链接: https://arxiv.org/abs/2510.10660 代码链接: https://github.com/bhsh0112/MapStableTest 项目主页: https://stablehdmap.github.io/
一、被忽视的维度:单帧准了,多帧稳了吗?
当前在线建图方法,几乎清一色围绕mAP等指标竞争单帧表现,却鲜少追问:在同一段道路、连续多帧输入下,模型的输出是否前后一致。如果某一帧车道线画得分毫不差,下一帧却突然消失或发生剧烈位移,对下游模块而言,这样的地图更像是一位「间歇性失明」的向导,可靠性无从谈起。
![]()
图1:不稳定地图元素对下游任务的影响。左:超车时前方车道线突然消失,误判驶向路缘;右:邻车变道时车道线闪烁,被误判为碰撞轨迹。
该工作将稳定性正式提升为与精度并列的评估维度,并给出一套可复现、可扩展的评测流程:从连续帧中同一地图元素的预测出发,聚焦三件事:①是否频繁消失(存在)、②位置是否漂移(定位)、③形状是否突变(形状),并将其整合为统一的稳定性指标 mAS。
二、怎么衡量「稳」:存在、定位、形状
评估流程可以概括为四步:在连续多帧里取帧对 → 用 GT 做中介做跨帧实例匹配 → 几何对齐并重采样到可逐点比较 → 在匹配好的点上算三类稳定性。
存在稳定性(Presence):同一元素在前后帧是「都检出」或「都没检出」,还是前一帧有、后一帧没(闪烁)?前者稳,后者不稳。
定位稳定性(Loc):重采样后的折线在对应点上位置差多大,相当于车道线在帧间「左右晃」的程度。
形状稳定性(Shape):前后帧折线曲率是否一致,区分的是「弯道被识别成直道」或形状在帧间变化这类问题。
三类指标按权重合成单实例稳定性,再按类别与整体取平均,得到mAS。mAS 越接近 1,连续帧间越一致;偏低则要么闪烁多,要么位置/形状抖动大,实车中会表现为地图「不稳、不可信」。下图是各模型在 mAS 与 mAP 等多维上的雷达图。![]()
图2:各模型在 mAS、Shape、Loc、Presence、mAP、显存、参数量、FPS 等维度的雷达图。 三、42个模型及其变体的结论:精度与稳定性脱钩
在nuScenes验证集上,作者对42 个在线高精地图模型及变体做了评估(涵盖 BeMapNet、PivotNet、MapTR、MapTRv2、StreamMapNet、MGMap、GeMap、MapQR、MapTracker、HRMapNet 等),用三个研究问题组织结论。![]()
表1:代表性模型及配置在稳定性上的表现。 3.1 高 mAP 不等于高 mAS
mAP 与 Presence、Loc、Shape、mAS 的散点关系见下图(气泡大小表示参数量)。点分布很散,说明单帧精度高和多帧稳定是两回事:有的模型 mAP 不错但 mAS 偏低,同一段路跑多帧时车道线会时有时无或位置抖;也有 mAS 高、mAP 一般的模型,单帧略逊但输出更稳,更适合给规划用。![]()
图3:mAP 与各稳定性指标的散点图;气泡大小表示参数量。
mAS 跨模型差异很大:最低约71.6(MapTR),最高约91.9(StreamMapNet),相差约 20 分,对应实车中「闪烁与位移」体感的明显差别。多数模型落在 71.6–78.0 的中低区间,稳定性仍是普遍短板。
3.2 传感器、编码器、时序与训练:不是「加就变稳」
引入 LiDAR:通常能抬升 mAP,但对 mAS 并非总是利好。MapTR 融合后 mAS 提升约 3.4%,而 GeMap 却下降约 3.9%。若多传感器融合未针对时序一致性设计,反而可能引入新的不稳定源。
更换 BEV 编码器(以 MapTR 为例):整体 mAS 接近(71.3–71.9),但侧重点不同,GKT 更有利于存在稳定性,BEVFormer / BEVPool 则在定位稳定性上更占优,选型需贴合下游最敏感的失效模式。
引入时序建模:原生时序架构优势明显,如StreamMapNet(91.9 mAS)、MapTracker(90.4 mAS)。而在非时序模型中「外挂」时序模块,效果高度依赖具体设计:MapTR + GKT 时 mAS 下降约 7%,MapTR + BEVFormer 却实现 mAS +2.4%、mAP +28.1% 的双提升。时序并非插件,而是架构层面的系统工程。
更强骨干与更长训练:往往推高 mAP,却对 mAS 呈现三种典型模式——稳定性被侵蚀、趋于饱和,或二者兼得。个别配置(如 MapQR)显示精度与稳定性可以同时提升,但整体来看,稳定性必须被显式建模与优化,无法仅靠“堆精度”顺带获得。

这项工作首次把在线高精地图的时间稳定性做成可复现的基准:用 Presence、Loc、Shape 与 mAS 量化「连续帧一致程度」,在 42 个模型及其变体变体上验证了mAP 与 mAS 的脱钩,并系统审视了传感器、骨干、BEV 编码器、时序输入等维度对二者的不同影响。基准与工具已开源,方便社区在选型与迭代时同时看精度和稳定性。
一句话:刷榜 mAP 的在线建图,若在时间维度上不稳,很可能正在「坑」规划模块;把时间稳定性和精度一起纳入评估与设计,是走向更可靠自动驾驶地图的一条必要路径。
欢迎对高精地图与自动驾驶感知感兴趣的研究者、工程师关注与引用。
Illustration generated by AI.
-The End-
扫码观看!
本周上新!
“AI技术流”原创投稿计划
TechBeat是由将门创投建立的AI学习社区(www.techbeat.net)。社区上线700+期talk视频,3000+篇技术干货文章,方向覆盖CV/NLP/ML/Robotis等;每月定期举办顶会及其他线上交流活动,不定期举办技术人线下聚会交流活动。我们正在努力成为AI人才喜爱的高质量、知识型交流平台,希望为AI人才打造更专业的服务和体验,加速并陪伴其成长。
投稿内容
// 最新技术解读/系统性知识分享 //
// 前沿资讯解说/心得经历讲述 //
投稿须知
稿件需要为原创文章,并标明作者信息。
我们会选择部分在深度技术解析及科研心得方向,对用户启发更大的文章,做原创性内容奖励
投稿方式
发送邮件到
yimingzhang@thejiangmen.com
或添加工作人员微信(aceyiming)投稿,沟通投稿详情
关于我“门”
将门是一家以专注于数智核心科技领域的新型创投机构,也是北京市标杆型孵化器。 公司致力于通过连接技术与商业,发掘和培育具有全球影响力的科技创新企业,推动企业创新发展与产业升级。
将门成立于2015年底,创始团队由微软创投在中国的创始团队原班人马构建而成,曾为微软优选和深度孵化了126家创新的技术型创业公司。
如果您是技术领域的初创企业,不仅想获得投资,还希望获得一系列持续性、有价值的投后服务,欢迎发送或者推荐项目给我“门”:
bp@thejiangmen.com
![]()
点击右上角,把文章分享到朋友圈
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.