网易首页 > 网易号 > 正文 申请入驻

人体姿态估计中可靠不确定性量化的突破性方法

0
分享至

在自动驾驶汽车和协作机器人的世界里,机器能够准确判断人体姿态并非易事,更难的是让机器知道"它不确定的程度"。想象一辆自动驾驶汽车需要判断行人是否将要横穿马路,或工业机器人需要确认工人的手臂位置以避免碰撞,如果估计错误,后果可能不堪设想。本文介绍了一项突破性研究,通过同时量化两种关键不确定性——认知不确定性(数据本身的随机性)和模型不确定性(模型对未知情况的把握程度),让人工智能系统能够"知道它不知道什么"。研究者发现,通过特别的校准技术,可以让机器生成可靠的置信区间,在面对模糊图像、遮挡或未知场景时做出更谨慎的判断,这对于安全关键应用而言无异于一场静默的革命。姿态识别的双重挑战

人体姿态估计技术,简单来说就是让计算机能够从图像或视频中识别出人体各个关节点的位置。这项技术已经广泛应用在自动驾驶、工业安全、人机交互等多个领域。想象一下,当一辆自动驾驶汽车在城市道路行驶时,需要实时判断行人的动作意图——是将要横穿马路还是只是站在路边等待?又或者,一个协作机器人需要知道工人的手臂位置,以避免在工厂环境中发生碰撞事故。

在这些安全关键的场景中,人工智能系统不仅需要给出准确的姿态估计结果,更重要的是需要知道自己的估计有多可靠。2023年,布拉姆拉格等研究者在国际计算机视觉会议(ICCV)上提出了一个关键问题:如何让机器不仅给出预测,还能准确表达对预测的确信程度?

这里面涉及两种核心的不确定性。第一种是认知不确定性(aleatoric uncertainty),它来源于数据本身的随机性,比如图像模糊、低对比度或遮挡造成的信息丢失。这种不确定性即使收集再多的数据也无法消除。就像投掷一枚硬币,即使你知道硬币的一切物理特性,也无法百分百预测它会正面朝上还是反面朝上。

第二种是模型不确定性(epistemic uncertainty),它反映了模型对所处理数据的陌生程度。当模型遇到训练中从未见过的场景时,这种不确定性就会增加。比如,一个在白天道路场景训练的姿态估计模型,当遇到夜间或雨雪天气的图像时,会因为不熟悉而产生较高的模型不确定性。随着更多样本数据的收集和模型的更新,这种不确定性可以逐渐减少。

大多数现有的姿态估计方法只关注预测的准确性,却忽略了不确定性的量化。这就好比一个气象预报员总是自信满满地预测"明天一定是晴天",而不是更谨慎地说"明天有80%的概率是晴天"。在安全关键应用中,这种过度自信可能导致灾难性后果。

研究表明,目前主流的深度学习模型普遍存在"过度自信"问题。即使在面对模型完全不熟悉的场景,它们也会给出看似确定的预测,而没有任何对不确定性的提示。在布拉姆拉格的研究中,他们发现即使是那些被设计用来表达不确定性的模型,其原始输出也往往不够可靠,需要额外的校准步骤。

一个典型的例子是,当一个人体姿态估计模型面对部分被遮挡的人体时,如果没有不确定性量化机制,模型会"装作"自己看到了被遮挡的关节,给出一个虚假的确定位置。而具备不确定性量化能力的模型则会表明:"这个关节位置我不太确定,可能在这个区域范围内",这对下游决策系统至关重要。

在2021年的一项研究中,研究人员测试了多种人体姿态估计模型在面对遮挡、模糊和域偏移(比如从室内场景到室外场景)时的表现。结果显示,几乎所有模型在这些挑战条件下都会产生错误预测,但更严重的是,它们并没有给出任何关于预测不可靠的警告信号。

双重量化新方法

那么,如何让人工智能系统同时量化这两种不确定性呢?布拉姆拉格团队提出了两种方法进行比较:最大后验估计(MAP)结合蒙特卡洛丢弃法,以及一种较新的方法——深度证据回归(DER)。

最大后验估计是一种被广泛应用的方法。它不仅预测人体关节的位置,还预测与每个关节相关的方差。简单来说,它让神经网络不仅输出"我认为手腕在这里",还输出"我对这个预测的不确定程度是多少"。这个方差就代表了认知不确定性。

为了同时获取模型不确定性,研究者使用了蒙特卡洛丢弃法。这听起来很复杂,但基本原理很直观:通过在神经网络的多个层中随机"关闭"一部分神经元,然后多次运行同一输入,观察输出的变化程度。如果网络对同一输入给出的预测差异很大,说明模型对这类输入的不确定性高。

研究团队在实验中,对模型的最后三层应用了50次随机丢弃,并计算这些样本的方差作为模型不确定性的度量。这就像让50位略有不同训练背景的专家看同一张图片,然后观察他们意见的分歧程度。分歧越大,模型不确定性越高。

另一种方法是深度证据回归(DER),这是一种更为新颖的方法。DER的独特之处在于它能够在单次前向传播中同时估计两种不确定性,而不需要昂贵的多次采样步骤。DER通过拟合正态逆伽玛分布的参数来实现这一点。对于非专业人士来说,可以把它想象成这样:DER不仅预测了关节位置的分布,还预测了这个分布本身的可靠性。

在数学上,DER输出四个参数:μ(位置)、λ(精度)、α(形状)和β(尺度)。从这四个参数中,可以计算出认知不确定性E[σ] = β/(α-1)和模型不确定性Var[μ] = β/λ(α-1)。虽然公式看起来复杂,但实际上,这让模型能够在一次计算中同时表达"我认为答案是什么"和"我对自己的答案有多确定"。

对于多变量的情况(比如同时考虑x、y、z三个坐标轴上的不确定性),两种方法都有各自的扩展版本。多变量MAP方法通过估计精度矩阵的Cholesky分解来确保数值稳定性。而多变量DER则使用正态-逆威沙特分布作为多变量高斯分布的共轭先验。

在实际应用中,DER方法显示出明显的计算效率优势。由于不需要多次采样,DER在训练和推理过程中的速度比MAP快了约三倍。这对于需要实时处理的应用,如自动驾驶或工业安全监控,具有重要意义。

研究者在多个数据集(包括MS-COCO、MPII、H36M和自创的SIM数据集)上测试了这两种方法。结果表明,两种方法在准确性方面表现相近,但DER在计算效率和不确定性估计的质量上略胜一筹。特别是在对模糊图像、遮挡和域偏移这类常见挑战的处理上,DER显示出更符合直觉的不确定性估计。

具体来说,当研究者向图像中添加人为遮挡(比如遮住手腕)时,DER能够正确地增加被遮挡关节的认知不确定性估计,而模型不确定性的增加相对较小。这符合我们的直觉:遮挡导致的信息丢失主要影响认知不确定性,而非模型不确定性。

数字校准的艺术

当我们谈论机器学习模型的不确定性预测时,有一个现实问题必须面对:大多数深度学习模型天生就是"过度自信"的。就像一个从未出过国的人信誓旦旦地描述巴黎的细节一样,神经网络往往会对自己不确定的事情给出看似确定的答案。布拉姆拉格团队在2023年的研究中清晰地展示了这一点——无论是采用最大后验估计(MAP)还是深度证据回归(DER),模型输出的原始不确定性估计都不够可靠。

那么,什么是"可靠"的不确定性估计呢?以天气预报为例,如果气象局预测明天有70%的概率下雨,那么从长期来看,在所有预测为70%概率下雨的日子里,实际下雨的比例应该接近70%。这就是所谓的校准(calibration)。在人体姿态估计领域,如果模型说某个关节有90%的概率在特定区域内,那么实际上该关节应该有90%的时间确实落在这个区域内。

研究者发现,使用MAP和DER方法得到的直接不确定性估计往往不满足这一标准。具体来说,对于一个完全校准的模型,当我们绘制预测的置信区间与实际经验累积密度函数(CDF)的关系图时,应该看到一条完美的对角线。但实际上,研究结果显示原始的不确定性估计曲线明显偏离了对角线,这表明模型的不确定性预测过度自信或过度保守。

为了解决这个问题,布拉姆拉格团队采用了一种称为等渗回归(isotonic regression)的技术进行校准。这种方法非常直观:它基于验证数据集,找出模型预测的置信水平与实际观察到的准确率之间的映射关系,然后使用这个映射关系来调整新数据的不确定性预测。

在实践中,研究者创建了一个校准数据集,其中包含每个样本的预测累积密度函数值和实际经验累积密度函数值的对应关系。基于这个数据集,他们训练了一个辅助的等渗回归模型,该模型能够将原始的置信区间映射到校准后的置信区间。

值得注意的是,校准分别针对每个关节和每个坐标维度进行,这确保了校准的精确性。实验结果令人振奋:校准后,所有模型的期望校准误差(ECE)显著降低。例如,在MS-COCO数据集上,单变量DER模型的认知不确定性ECE从0.204降至0.025,而模型不确定性ECE从0.054降至0.006。类似的改进在其他数据集上也有体现。

校准后的置信区间不仅在数学上更加可靠,在实际应用中也更具解释性。想象一个自动驾驶系统能够准确地报告:"我有95%的把握认为行人的右手在这个区域内",而不是给出一个看似精确但实际上可能完全错误的点估计。这种可靠的不确定性表达对于安全关键应用至关重要。

除了校准之外,研究者还评估了预测的不确定性与实际误差之间的相关性。理想情况下,预测的不确定性应该与实际误差成正比——当预测错误较大时,模型应该表现出较高的不确定性。在MS-COCO数据集上的实验表明,单变量DER模型在认知不确定性方面展现出最强的相关性(0.87的皮尔逊相关系数),而多变量MAP模型在模型不确定性方面表现最佳(0.92的相关系数)。

这些相关性分数不仅超过了之前的研究成果,还证明了所提出的方法能够有效地捕捉预测误差与不确定性之间的关系。简单来说,这意味着当模型"不确定"时,它通常确实是错的,而当它"确定"时,它通常是对的。这种一致性对于构建可信的人工智能系统至关重要。

不确定性的真实考验

证明模型能够产生数学上可靠的不确定性估计是一回事,但在真实世界的复杂情况下验证这些估计的合理性则是另一回事。为此,布拉姆拉格团队设计了一系列实验,专门挑战模型在常见困难场景下的不确定性估计能力。考虑到DER方法的稳定性和计算效率优势,他们将这些深入实验集中在单变量DER模型上。

第一个实验聚焦于标签噪声注入。在现实世界中,训练数据的标签往往存在误差——人工标注者可能对关节位置有不同的判断,或者标注工具本身可能存在精度限制。这种标签噪声是典型的认知不确定性来源,理论上应该主要影响模型的认知不确定性估计,而非模型不确定性估计。

为了测试这一点,研究者在自己创建的SIM数据集上进行了实验。SIM数据集是一个模拟的街景数据集,包含11个摄像头视角和3D扫描的人物,最重要的是,它具有一致的高质量标签。研究者在这个基础上添加了不同水平的高斯噪声(标准差从0.0到0.5不等),然后使用这些带噪声的数据训练DER模型。

实验结果证实了研究者的假设:随着添加标签噪声的增加,模型预测的认知不确定性显著上升,而模型不确定性仅有轻微增加。具体来说,当标签噪声的标准差增加到0.5时,平均预测的认知方差增加了约5倍,而模型不确定性的增加不到1倍。这表明DER能够正确地将标签噪声归因于认知不确定性。

实验还揭示了一个有趣的现象:在零噪声情况下,模型仍然预测了少量的认知不确定性。这可以解释为数字化过程中不可避免的少量误差,比如当边界框小于网络输入所需尺寸时进行上采样造成的伪影。

第二个实验专注于遮挡问题,这是人体姿态估计中最常见且最具挑战性的情况之一。研究者在所有数据集的图像上放置了人工遮挡物(白色、灰色和高斯模糊),遮挡物的大小从边界框对角线的10%到50%不等。遮挡物主要放置在手腕关节上,但有时也会影响到其他关节。

这个实验的结果非常直观:随着遮挡物尺寸的增加,被遮挡关节的预测认知不确定性也相应增加。当遮挡物尺寸达到边界框对角线的50%时,预测的认知不确定性比无遮挡情况下高3-4倍。模型不确定性也有所增加,但增幅较小,且与认知不确定性的相对增长率相似。

这种模式在遮挡关节数量增加时也有类似表现。当多个关节被遮挡时,整体的认知和模型不确定性都有所增加,但以认知不确定性的增加更为显著。这符合我们的直觉:遮挡导致的信息丢失主要是一个认知不确定性问题,因为即使是理想的模型也无法准确定位完全被遮挡的关节。

这两个实验结果强化了DER方法在实际应用中的可行性。它不仅能够在数学上产生校准的不确定性估计,还能够在面对现实世界的挑战(如标签噪声和遮挡)时做出符合直觉的反应。这使得DER成为资源受限平台上进行不确定性量化的有吸引力的候选方法。

值得注意的是,研究者也观察到一个潜在的局限性:在某些情况下,DER对两种不确定性的区分可能不够彻底。这可能是因为DER的不确定性分解依赖于单个λ参数,这一点在之前的研究中也有所提及。尽管如此,总体而言,DER仍然展示了令人印象深刻的不确定性估计能力,特别是考虑到它不需要昂贵的蒙特卡洛采样步骤。

参考资料

  1. Bramlage, L., Karg, M., &; Curio, C. (2023). Plausible Uncertainties for Human Pose Regression. ICCV 2023.

  2. Kendall, A., &; Gal, Y. (2017). What Uncertainties Do We Need in Bayesian Deep Learning for Computer Vision?

  3. Amini, A., et al. (2020). Deep Evidential Regression.

  4. Kuleshov, V., Fenner, N., &; Ermon, S. (2018). Accurate Uncertainties for Deep Learning Using Calibrated Regression.

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
看!一个非常不好的消息:中国超2亿独生子女面临的严峻问题来了

看!一个非常不好的消息:中国超2亿独生子女面临的严峻问题来了

娱乐圈见解说
2026-01-29 10:06:00
医院多名医生接连受贿被捕,院长引咎辞职!

医院多名医生接连受贿被捕,院长引咎辞职!

医脉圈
2026-01-30 20:57:35
刺激!贺希宁43分杀红眼!白边封神24+18拯救卢伟,上海复仇深圳

刺激!贺希宁43分杀红眼!白边封神24+18拯救卢伟,上海复仇深圳

后仰大风车
2026-01-30 21:40:56
梁田同志逝世

梁田同志逝世

澎湃新闻
2026-01-30 01:51:08
涉案金额800余万元,抓获嫌疑人55人!菏泽一县警方成功打掉犯罪团伙...

涉案金额800余万元,抓获嫌疑人55人!菏泽一县警方成功打掉犯罪团伙...

菏泽头条
2026-01-30 11:45:16
一项全球性研究表明:哪怕喝下去一滴酒都会影响你的整体健康

一项全球性研究表明:哪怕喝下去一滴酒都会影响你的整体健康

科海识贝sci
2026-01-30 23:27:33
一纸提名引爆史诗级抛售:现货白银一度跌36% 金价失守5000大关

一纸提名引爆史诗级抛售:现货白银一度跌36% 金价失守5000大关

财联社
2026-01-31 04:10:11
央视怒批,人民日报点名封杀,这5位目无法纪的大网红,彻底凉凉

央视怒批,人民日报点名封杀,这5位目无法纪的大网红,彻底凉凉

一娱三分地
2025-12-04 17:00:33
湖人与骑士谈判亨特交易!愿出八村垒克内克特 为后詹时代做准备

湖人与骑士谈判亨特交易!愿出八村垒克内克特 为后詹时代做准备

罗说NBA
2026-01-31 05:58:26
离婚6年,马伊琍终于坦白,当年和文章离婚,从不全是因为姚笛

离婚6年,马伊琍终于坦白,当年和文章离婚,从不全是因为姚笛

胡一舸南游y
2026-01-31 00:23:12
深度揭秘 | 焦俊贤的钱色往事:把“三陪小姐”培养成女干部,贪财好色,生活奢靡

深度揭秘 | 焦俊贤的钱色往事:把“三陪小姐”培养成女干部,贪财好色,生活奢靡

一分为三看人生
2026-01-31 00:09:11
沃什提名引爆金银“血洗”!盘中白银创纪录跌超35%、黄金跌超10%

沃什提名引爆金银“血洗”!盘中白银创纪录跌超35%、黄金跌超10%

华尔街见闻官方
2026-01-31 03:55:48
手表风波7个月后,凤凰传奇确认回归,“挡箭牌”的作用已发挥完

手表风波7个月后,凤凰传奇确认回归,“挡箭牌”的作用已发挥完

老沮系戏精北鼻
2026-01-30 19:39:11
走私犯梁耀华,如何用美女拿下原公安部副部长李纪周?过程精彩

走私犯梁耀华,如何用美女拿下原公安部副部长李纪周?过程精彩

扬平说史
2026-01-29 21:29:24
伊朗总统已逃往俄罗斯?一架神秘的政府飞机在莫斯科降落引猜测

伊朗总统已逃往俄罗斯?一架神秘的政府飞机在莫斯科降落引猜测

聚焦热点内幕
2026-01-31 04:32:25
廖锡龙同志生平

廖锡龙同志生平

新京报政事儿
2026-01-30 08:26:37
美国政府又“停摆”?特朗普发声!黄金、白银再爆发!

美国政府又“停摆”?特朗普发声!黄金、白银再爆发!

证券时报e公司
2026-01-30 08:13:06
全球为啥没一个国家仿造歼-20,瑞典已破译!

全球为啥没一个国家仿造歼-20,瑞典已破译!

老范谈史
2026-01-30 20:28:17
华为手机必败?万众期待的国外7.5寸折叠手机将至,将王炸天下?

华为手机必败?万众期待的国外7.5寸折叠手机将至,将王炸天下?

小柱解说游戏
2026-01-31 06:10:17
私募大佬林园再次喊话:黄金没有价值!这一点我完全赞同巴菲特的观点!

私募大佬林园再次喊话:黄金没有价值!这一点我完全赞同巴菲特的观点!

王爷说图表
2026-01-30 23:12:18
2026-01-31 06:40:49
臆说历史 incentive-icons
臆说历史
作有深度的历史解读
162文章数 287关注度
往期回顾 全部

科技要闻

意念控制机器人不是科幻 1-2年就落地

头条要闻

特朗普:已向伊朗告知达成协议的最后期限

头条要闻

特朗普:已向伊朗告知达成协议的最后期限

体育要闻

“假赌黑”的子弹,还要再飞一会儿吗?

娱乐要闻

警方通报金晨交通事故,否认网传骗保

财经要闻

水贝惊雷:揭秘杰我睿百亿黄金赌局的背后

汽车要闻

合资品牌首搭800V/5C快充 东风日产NX8将于3、4月上市

态度原创

旅游
本地
房产
手机
军事航空

旅游要闻

“史上最长春节假期”:“分段式过节”流行,年初三成出行高峰

本地新闻

云游中国|拨开云雾,巫山每帧都是航拍大片

房产要闻

藏不住的小城大事,海澄新城执掌自贸港风口,进阶兑现美好生活新篇

手机要闻

三星Galaxy S26 Ultra手机官方渲染图曝光

军事要闻

新西兰拒绝特朗普:不加入"和平委员会"

无障碍浏览 进入关怀版