网易首页 > 网易号 > 正文 申请入驻

同济团队获CVPR最佳学生论文奖,为单目3D目标检测算法提供新思路

0
分享至

“此次获得 CVPR 最佳学生论文奖,所有作者都很意外。由于上海疫情我们无法赴美参会,最后决定线上参会。大会召开前不到一周,我们才知道获奖。直到颁奖仪式开始,我们才知道获得了最佳学生论文奖,这给我们今后的工作带来了巨大的激励作用。”同济大学助理教授表示。据介绍,他们获奖的这篇新论文,为计算机视觉领域中的单目 3D 目标检测算法提供了新思路。


当下,单目 3D 目标检测是一个被广泛研究的问题。目前的主流方法有两类:第一种是利用深度神经网络直接回归目标在 3D 空间中的位姿,第二种是利用 2D-3D 关联点基于视觉几何的 PnP 推算。


在这两个方法里,前者过于依赖基于训练数据的监督学习,同时对训练的技巧要求较高比如需要调参,而且任务的泛化性难以保证。后者则需要使用额外方式提取 2D-3D 关联点,但是现有方法在神经网络模型优化和 PnP 几何优化上,无法做到很好的衔接,这容易致使训练后的整体模型参数,在质量上处于次优状态。


故该工作旨在解决以上两个问题:一方面,在神经网络的学习中添加一种推断方式的先验即 PnP,这要求网络的推断必须最大程度符合几何投影关系;另一方面,把网络模型的优化、即误差的反向传播,作用于 PnP 求解过程,其关键在于建立一种可导的误差传播方式。


因此,课题组提出 EPro-PnP 这一架构,将传统方法中确定位姿的输出方式、即位姿的唯一解,用概率分布进行替换,并用 KL 损失建立关于概率密度分布的损失函数。同时,他们还提出基于蒙提卡罗的损失函数求导计算,以实现可导的误差传播,从而为端到端的整体网络架构的优化提供可能。


而由于在网络前向传播过程中集成了 PnP 几何推断,这使得网络的中间输出具有一定可解释性。这时,网络不再是一个完全的黑盒模型,故比传统的监督学习方法更先进。而在对安全性要求较高的实际应用任务比如自动驾驶场景中,模型的可解释性具有很高的关注度。


同时,EPro-PnP 这一架构具备很高的可迁移性,它不局限在单目 3D 目标检测任务上,也可用于物体几何形状已知的 6 自由度位姿估计任务中,性能表现也较为出众。

在第一轮审稿意见公布后,研究人员仔细阅读了每一条意见,发现审稿人总体上比较认可这一工作。审稿人认为,将基于位姿概率分布的 EPro-PnP 架构用于神经网络对 2D-3D 点关联的学习,可以克服使用传统 PnP 造成的不可导问题,具有一定的理论价值。


同时,审稿人也认同此次成果可给其他涉及几何关系学习的工作带来一定启发,对于单目 3D 目标检测、以及物体的 6 自由度位姿估计任务的实验结果呈现和分析上,审稿人也比较满意。


当然,审稿人也就初稿指出了一些问题:比如,部分公式的解释不够清晰;KL 损失的求导过程说明略显不足;以及 EPro-PnP 架构在单目 3D 目标检测和物体 6 自由度位姿估计两个任务上的关键异同点的解释有待完善等。


遵循审稿人的意见,该团队对论文进行修改和完善,并把总结后的内容回复给审稿人。这些回复里,包括对公式和推导过程的进一步阐释、就运行时间对模型运行效率的补充、以及部分实验分析的补充说明等。


而此次工作的开展,可追溯到该团队的上一项工作,即 CVPR 2021 的论文成果——MonoRUn。当时,课题组提出这样一个关于单目 3D 目标检测的模型:利用 2D-3D 点关联估计目标的位姿。但和本次工作的不同在于,上一工作主要基于目标物体上的稠密关键点的 2D-3D 关联,同时使用的是 2 阶段的目标检测网络,并对重投影的像素坐标进行高斯分布建模,以模拟重投影误差的概率分布,即估计的不确定性。


虽然上一工作也取得了不错的性能,但他们认为模型在学习方面的设计不够完善,而且无法轻易迁移到其他任务上。这一“不满足”,也是引出本次工作的最初始驱动力。定下目标之后,该团队对此前模型进行剖析,结果发现传统 PnP 算法在与神经网络结合时所导致的不可导问题,制约了整体模型的优化。


通过对上一工作进行分析和总结,尤其是在模型数学层面的分析。他们发现,可利用概率分布代替 PnP 固定解,并集成进 KL 损失函数,来实现可导设计的方式。为了对 KL 损失进行求导,课题组又引入蒙提卡罗方法,并在实验中发现使用 AMIS 算法较为有效。


另一个需要解决的问题是:关联点的权重估计问题。受当前比较流行的 Transformer 模型的启发,通过借鉴 Deformable DETR 网络的结构,他们设计出稀疏的 2D 点提取方式、以及权重的估计分支。


经过一系列的网络结构改进和参数优化,该团队最终在 nuScenes 和 LineMOD 数据集上取得了比较满意的结果,此次论文的主体部分也得以诞生。


由于该研究侧重于自动驾驶环境感知技术,因此该团队希望能将其集成在车载自动驾驶感知系统中。当然,他们在论文中也证明过,在已知物体的 6 自由度估计上,EPro-PnP 这一架构也具有良好的应用潜力。


因此,研究人员认为工业机器人领域中的物品识别与抓取、智能体的 3D 环境建模、以及其他涉及几何关系学习的任务,都是该成果的潜在应用场景。但是,当下基于单目的 3D 目标位姿估计的精度仍然有待提高,在一些对安全和精度有着较高要求的任务里,还无法实现直接应用。


不过,此次方法和其他方式的 3D 位姿估计方法、比如基于激光雷达等感知模态结合,将改善现有方法的稳定性和准确性。


在目标检测领域里,新成果可谓层出不穷,模型结构、学习方法等细分领域几乎每天都有新创意。说,在网络模型对几何关系的学习领域,此次工作算是实现了一个小方面的突破,期间也借鉴和参考了不少现有工作。


后续,该团队将把 EPro-PnP 迁移到现有其他工作上,结合新的网络结构和学习方法进一步提升模型在 3D 目标检测以及物体 6 自由度估计任务上的性能。另一方面,其还考虑把几何关系学习任务与其他视觉任务相结合,建立更具有一般性的优化求解方式,从而提高模型的多任务处理能力。


表示,研究中令人印象深刻的是本项工作的主力成员——陈涵晟同学优秀的科研素养。该工作前后持续大概半年,并非预想得那么顺利,尤其是陈同学在多地之间的辗转。前期工作是该生在学校完成的,之后他又去了阿里实习,并在实习中继续推进,然后又回到学校继续完善。大部分时间里,工作都推进得很艰难,实验结果也不太理想。


在 CVPR 截稿不到 1 个月时,实验才基本完成,随后展开紧张的论文撰写和修改,最终完成投稿。此间,陈涵晟同学投入了巨大的精力,并和在日常讨论中始终保持积极向上的心态。如今,陈涵晟在继续完成其研究生学位。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
捷克球迷怒斥韩国!没有裁判你们赢不了,如果输给了中国我们认了

捷克球迷怒斥韩国!没有裁判你们赢不了,如果输给了中国我们认了

酷侃体坛
2026-06-12 18:57:01
世界杯没开始,法国队先赢一局?全员拎着“一套房”出行,把机场走出高定T台!

世界杯没开始,法国队先赢一局?全员拎着“一套房”出行,把机场走出高定T台!

新欧洲
2026-06-12 20:40:21
《剑星:血雨》女主再遭知名外媒抨击称其过于性感

《剑星:血雨》女主再遭知名外媒抨击称其过于性感

3DM游戏
2026-06-12 09:09:10
刘宇宁发文回应恋情:清醒坦荡的态度,才是明星该有的模样

刘宇宁发文回应恋情:清醒坦荡的态度,才是明星该有的模样

陈意小可爱
2026-06-13 00:50:31
克罗地亚美女总统,身材丰满穿紧身球衣助阵,是世界杯头号女球迷

克罗地亚美女总统,身材丰满穿紧身球衣助阵,是世界杯头号女球迷

秋姐居
2026-06-12 22:00:29
谢娜再次翻车,这一次,她踢到铁板了

谢娜再次翻车,这一次,她踢到铁板了

桌子的生活观
2026-06-12 11:58:27
谢娜巡演风波升级!官方出手,更多荒唐行为被扒,张杰都救不了她

谢娜巡演风波升级!官方出手,更多荒唐行为被扒,张杰都救不了她

李健政观察
2026-06-11 21:45:16
看世界杯遭持枪抢劫中国男子发声:头被枪抵着,为保命全程配合,大使馆迅速介入,现已在机场准备回国

看世界杯遭持枪抢劫中国男子发声:头被枪抵着,为保命全程配合,大使馆迅速介入,现已在机场准备回国

潇湘晨报
2026-06-12 16:20:20
台军首次在西部海岸,朝中国大陆方向射击30枚海马斯火箭弹。

台军首次在西部海岸,朝中国大陆方向射击30枚海马斯火箭弹。

果妈聊娱乐
2026-06-12 11:56:07
国安部披露:在我国某海域发现有较大型活体海洋动物被挂上传感器,窃取海洋敏感数据

国安部披露:在我国某海域发现有较大型活体海洋动物被挂上传感器,窃取海洋敏感数据

每日经济新闻
2026-06-12 13:16:05
鹅腿阿姨真正可怕的地方

鹅腿阿姨真正可怕的地方

燕梳楼频道
2026-06-12 14:09:06
遥遥领先!余承东:世界还不知大模型是何物,我们就发布了盘古

遥遥领先!余承东:世界还不知大模型是何物,我们就发布了盘古

鞭牛士
2026-06-12 17:20:32
北京法院判决:将鸭肉冒充鹅肉制作成“烧鹅”销售,销售金额29万余元,犯生产、销售伪劣产品罪

北京法院判决:将鸭肉冒充鹅肉制作成“烧鹅”销售,销售金额29万余元,犯生产、销售伪劣产品罪

北大法律信息网
2026-06-11 17:40:31
27公斤被盗黄金悉数追回,南京警方破获国内最大黄金盗窃案件

27公斤被盗黄金悉数追回,南京警方破获国内最大黄金盗窃案件

现代快报
2026-06-12 14:11:13
财务造假!10家A股公司退市,超25万股东踩雷

财务造假!10家A股公司退市,超25万股东踩雷

21世纪经济报道
2026-06-12 18:59:56
国家出手!扬州“毒牙刷”曝光,成本价6分,原材料才是致癌物

国家出手!扬州“毒牙刷”曝光,成本价6分,原材料才是致癌物

姩姩有娱
2026-06-12 15:03:40
随着韩国2-1捷克,赛后球迷不得不承认的4个事实,国足永远比不上

随着韩国2-1捷克,赛后球迷不得不承认的4个事实,国足永远比不上

生活新鲜市
2026-06-12 15:29:49
太沉重了!一张殡仪馆的电子显示屏8位逝者,有6人未能活到55岁

太沉重了!一张殡仪馆的电子显示屏8位逝者,有6人未能活到55岁

火山詩话
2026-06-12 08:54:20
1.6万亿大撤退!国家队从“托底”变“调仓”,散户的路更难走了

1.6万亿大撤退!国家队从“托底”变“调仓”,散户的路更难走了

史行途
2026-06-12 16:29:34
江苏师大两名外籍留学生插队吐口水还动手打人,市民追两条街制服

江苏师大两名外籍留学生插队吐口水还动手打人,市民追两条街制服

大厂编外实习生
2026-06-12 15:56:50
2026-06-13 02:19:00
DeepTech深科技 incentive-icons
DeepTech深科技
麻省理工科技评论独家合作
16823文章数 515010关注度
往期回顾 全部

科技要闻

刚刚,人类历史上首位万亿美元富豪诞生!

头条要闻

美加墨世界杯第二场比赛就现空座 英媒:尴尬

头条要闻

美加墨世界杯第二场比赛就现空座 英媒:尴尬

体育要闻

欧洲恐韩?肉德维德?

娱乐要闻

一天4个瓜,肖战热巴最意外

财经要闻

万亿美元顺差背后,透露这些信号

汽车要闻

标配激光雷达/双动力可选 昊铂S600限时售17.99万起

态度原创

本地
家居
旅游
时尚
公开课

本地新闻

AK刘彰邂逅河北南大港湿地

家居要闻

空间微调 移形换境

旅游要闻

印度有钱人真多酷暑办理旅游签证!不是有钱任性,是热到活不下去

夏天别总穿一身白或一身黑!试试一半彩色、一半基础色,高级亮眼

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版