网易首页 > 网易号 > 正文 申请入驻

计算机视觉在头部姿势估计中的应用

0
分享至

头部姿态估计在计算机视觉领域占有重要的一席之地,它是从数字图像中推测出人类头部姿势的过程。就像语音识别一样,头部姿势估计可能会成为计算机类人发展的又一里程碑。

头部姿态估计的复杂性

相比于面部检测和识别,可适用于头部姿势估计的系统或通用解决方案较少,其固有的复杂性使其难以解决,以下详细叙述其复杂性。

一个理想的头部姿势估计器需要综合考虑各种影响因素,包括多源非Lambertian光照、相机畸变、投影几何等物理现象,以及面部表情、生物外观以及帽子、眼镜等附件的存在。

虽然这看起来像是视觉任务的明确规范,但头部姿势估计有多种解释。

在最粗略的层面上,头部姿势估计适用于识别离散方向头部的算法,例如,正面与左/右侧面视图。在精细(即粒度)层面,头部姿势估计可能是跨多个自由度 (DOF) 的连续角度测量。

在计算机视觉的背景下,头部姿势估计最常被解释为推断人头部相对于相机视图方向的能力。更严格地说,头部姿势估计是推断头部相对于全局坐标系方向的能力。为了消除透视失真造成的感知偏差,需要了解相机的内在参数。

尽管会存在一些歧义,但通常仍然可以将人头建模为一个没有实体的刚性物体,那么头部姿势就被限制在了3个自由度内。


总之,头部姿势估计需要考虑头部的多自由度运动,如前后和左右弯曲、水平旋转等,这也造成了该问题的复杂性。

除此之外,头部姿势估计需要与视线估计相结合,因为视线方向往往受头部姿势的影响。

生理学研究表明,一个人对凝视的预测来自头部姿势和眼睛方向的结合。通过以数字方式合成不同头部方向上,特定眼睛方向的图像,可以确定观察者对凝视的解释偏向于目标头部的方向。


头部姿势估计方法

头部姿势估计有以下八种方法,外观模板法、探测器阵列法、非线性回归法、流形嵌入法、灵活模型法、几何法、追踪法和混合法。以下分别介绍各方法及其优缺点。

外观模板法是将已标记有离散姿势的一组模板与待估计的头部图像进行比较,以找到最相似的视图。


对于更复杂的方法来说,外观模板法存在许多优点。模板具有可扩展性,使系统能够适应各种实际情况。

此外,通过外观模板法创建训练数据语料库,只需要从原始图像中裁剪出头部图像并提供其姿势注释,不像其他方法需要提供负面训练示例或面部特征点。

外观模板对图像的分辨率没有要求,高、低分辨率图像均能处理。

然而,外观模板同样有许多不尽如人意的地方。例如,如果不使用某些插值方法,外观模板就只能估计离散的姿势位置。

使用外观模板法时,通常假设头部区域已经被检测和定位,如果在这一步产生误差,将会影响到最终的准确性。

外观模板法还可能对计算效率产生影响。随着更多模板被添加到样本集中,图像比较将会造成大量的计算消耗。

尽管有这些限制,但外观模板最重要的问题是它们在错误的假设下运行,即图像空间中的成对相似性可以等同于姿势相似性。

考虑同一个人的两张姿势略有不同的图像和不同人的两张相同姿势的图像。在这样的情况下,与姿势变化相比,不同的人对图像带来的影响可能会导致出现更多差异,并且模板匹配在这种情况下会将图像与错误的姿势相关联。

尽管这种影响可能会随着姿势的广泛变化而减弱,但仍然不能保证成对相似性对应于姿势域中的相似性,例如,面部的右侧轮廓图像可能与左侧轮廓图像更相似,而不是正视图。

因此,即使每个人都有一组同质的离散姿势,模板比较中的错误也会导致姿势估计中的大量误差。

探测器阵列法借助于一系列头部检测器来实现头部姿势估计。头部检测器通过训练得到,每个探测器都被训练适应特定姿势。


类似于外观模板,探测器阵列直接在图像块上运行,但区别是,探测器阵列法不是简单地将图像与大量单独的模板进行比较,而是借助探测器来探测图像。探测器使用有监督的学习算法,通过大量图像数据训练得到。

与其他方法相比,探测器阵列法少了对头部进行定位的步骤,因为探测器自身就能判别头部与否。将探测器应用于图像的子区域,可以同时执行检测和姿态估计。

此外,与外观模板法有显著不同的是,探测器阵列采用学习型算法,可通过学习,忽略与姿势变化无关的外观变化。类似于外观模板法,探测器阵列法对图像的分辨率也没有要求,高、低分辨率图像均能处理。

当然,该方法也存在一些缺点。首先,为各个离散的姿势均训练多个探测器将会是非常繁琐的事。对于用作头部探测器和姿势估计器的探测器阵列,由于训练必须在许多负面的非面部示例上进行,更多的训练数据是必要的。

此外,随着探测器数量的增加,可能会出现系统性问题。

如果两个探测器调谐到非常相似的姿势,则对于一个探测器是正训练示例的图像对于另一个必须是负训练示例。当正面和负面的例子在外观上非常相似时,尚不清楚突出的探测方法是否可以学习出成功的模型。

该方法得出的结果是离散的,若想得到连续的估计结果,只能进行粗略的估计,并有可能在多个探测器同时对正图像进行分类时产生歧义,这正是大部分探测器都以二进制作为输出的后果。

此外,探测器数量的增加势必导致计算需求的大幅增加,使得实现大阵列实时系统的可能性微乎其微。

非线性回归法的主要目的是寻找从图像或特征数据到头部姿势测量的功能映射,这需要借助于非线性回归工具。


在用于头部姿势估计的非线性回归工具中,神经网络在文献中使用最广泛。 一个例子是使用多层感知器 (MLP),尽管这种方法有效,但它类似于探测器阵列和外观模板,仅提供离散位置处姿势的粗略估计。

神经网络方法的优点很多,例如,效率高,只需要裁剪标记的面部进行训练,在近场和远场图像中均能保持良好的工作状态,能在实际应用中给出一些最准确的结果。

神经网络方法的主要缺点是它们很容易因头部定位不佳而出错。为了减少这种误差源,一个建议的解决方案是,可以使用一个卷积网络通过显式建模一些移位、比例和失真不变性来扩展 MLP。

流形嵌入方法的主要特征是降维,即寻找模拟头部姿势连续变化的低维人形折叠。新图像可以嵌入到这些流形中,然后用于嵌入模板匹配或回归。


任何降维算法都可以被认为是对流形嵌入的尝试,但挑战在于创建一种能够成功恢复头部姿势同时忽略其他图像变化来源的算法。

主成分分析(PCA)及其非线性核化版本(KPCA)是两种最流行的降维技术。 研究表明,与使用 Gabor 小波预处理的外观模板匹配相比,使用PCA得到结果与最终所需的头部姿势相似性关联更大。

然而,PCA 和 KPCA 是头部姿势估计问题中较差的技术。

标准 PCA 的线性限制使其无法充分表示姿势变化引起的非线性图像变化。此外,这些方法是无监督技术,不使用训练期间通常可用的姿势标签,因此,无法保证其主要成分将与姿势变化相关,而与外观变化无关。

到目前为止提到的流形嵌入方法仍然存在一些弱点。除了 LDA 和 KLDA 之外,这些技术中的每一种都以无监督的方式运行,忽略了训练期间可能可用的姿势标签。因此,他们倾向于为身份和姿势构建流形。

作为该问题的一种解决方案,可以通过为每个可以对齐在一起的主题创建一个单独的流形来将身份与姿势分开。要从特征空间映射到嵌入空间,可以使用径向基函数执行非线性插值。

然而,这种方法也有其弱点,因为外观变化可能是由于身份和姿势以外的因素造成的,例如光照。

对于更通用的解决方案,不是为每个变体制作单独的流形,而是可以创建单个流形,该流形使用偏向于具有较小姿态差异的样本的距离度量。这一变化被证明可以提高 Isomap、LLE 和 LE 的头部姿势估计性能。

一个需要考虑的困难是训练数据的异质性,这在许多现实世界的训练场景中很常见。

为了对身份建模,需要多人来训练流形,但通常不可能从每个人那里获得定期的姿势采样。相反,训练图像包括每个人的一组不相交的姿势,需要从某个连续测量设备采样。

针对此问题的一种建议补救措施是,为每个对象创建个性化子流形,并使用它们来渲染对象之间缺失的离散姿势的虚拟重建。

这项工作引入了同步子流形嵌入 (SSE),这是一种线性嵌入,它创建一个投影矩阵,最小化每个样本与其最近的重建邻居(基于姿势标签)之间的距离,同时最大化来自同一主题的样本之间的距离。

上文中描述的所有流形嵌入技术都是线性或非线性方法。线性技术的优点是可以通过矩阵乘法进行嵌入,但缺乏非线性技术的表示能力。

作为这些方法之间的中间地带,全局头部姿势流形可以通过一组局部线性流形来近似。这已经在 PCA、LDA 和 LPP 的头部姿势估计中得到证明。

前面的方法将头部姿势估计视为信号检测问题,将图像像素的矩形区域映射到特定的姿势方向,而灵活模型则采用不同的方法。

灵活模型法把头部姿态估计看作一个灵活的模型,这种方法可以通过在有限的姿势空间内建立一个灵活的模型来实现。


这种方法的优点在于,它可以适应不同的头部姿势,而不需要对每个头部姿势都进行建模。

除了姿势标签外,灵活模型法还需要注释面部特征的训练数据,这使其能够在特征级别而不是全局外观级别进行比较。

其优点在于它可以适应不同的人脸形状和姿态,具有较高的灵活性。例如,弹性块图可以表示非刚性或可变形的物体,可以用于比较不同姿态下的人脸。

活动外观模型可以从多个人脸数据中学习主要的形状和纹理变化,可以用于对新的人脸进行形状和姿态估计。

此外,灵活模型法还可以使用纹理信息和迭代搜索来适应新的人脸图像,可以提供较高的精度。

但它也存在一些缺点,例如,其对个体外貌的变化和环境因素的敏感性较高。由于个体外貌、光照、背景、摄像机几何等因素的差异,这种方法的准确性可能受到影响。

此外,由于模型需要精确地捕捉头部的形态和姿势变化,灵活模型法需要大量的训练数据和高计算能力。

综上,灵活模型法在真实世界的应用受到了一定的限制。

几何方法使用如眼睛、嘴巴和鼻尖等特征的位置来确定姿态。通常需要在图像中检测和定位头部区域,然后使用几何特征来估计头部姿态,可以使用传统的计算机视觉技术,如特征提取、特征匹配和相机标定等。


其优点是可以准确地估计头部姿态,并且不需要先验知识或训练数据。

然而,缺点是这些方法对头部区域的检测和定位非常敏感,因此定位误差可能会降低估计的准确性。此外,这些方法对光照和遮挡等因素也非常敏感。

追踪方法是通过发现视频帧之间的小姿态变化来高精度地追踪头部的位置和姿态。通常使用刚性三维头部模型来估计头部的旋转和平移,以确定最佳拟合。


追踪方法的优点是能够高精度地跟踪头部,但缺点是需要准确的位置和姿态初始化才能生成新模型或调整现有模型。

混合方法是将多种方法结合起来,以克服单一方法的局限性。例如,可以将外观模板方法与几何方法相结合,通过匹配面部特征点和外观模板来估计头部姿态。

另外,可以将追踪方法与模型方法相结合,使用追踪方法来跟踪头部运动,并使用模型方法来估计头部姿态。


混合方法的优点是可以充分利用多种方法的优点,提高头部姿态估计的准确性和鲁棒性。缺点是需要更复杂的算法和更多的计算资源。

不同的方法各有优缺点,需要根据具体应用场景选择合适的方法。

未来的展望

头部姿态估计技术将在创造智能环境、计算机用户界面和汽车安全等领域产生深远影响。

在智能会议室中,头部姿态可用于识别参与者之间的非言语交流,提供易于搜索的索引。

在计算机用户界面中,头部姿态可用于控制鼠标、响应弹出对话框或与虚拟人物交互。

在汽车安全方面,头部姿态估计可用于识别驾驶员的视觉注意力和心理状态,减少驾驶员对道路交通的疏忽和意外事故的发生。

未来,随着技术的不断提升和扩展,头部姿态估计技术将在人机交互和安全领域实现更多的突破和进展。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
英国18岁女孩打开泰国丛林酒店房门:约2000只蛾涌来,眼镜蛇张口猛扑

英国18岁女孩打开泰国丛林酒店房门:约2000只蛾涌来,眼镜蛇张口猛扑

红星新闻
2024-06-02 18:02:36
张口就要大合同,最后沦为笑柄!这6位球员毫无自知之明!

张口就要大合同,最后沦为笑柄!这6位球员毫无自知之明!

大卫的篮球故事
2024-06-03 16:01:45
阿根廷的生活水平到底是什么样的?

阿根廷的生活水平到底是什么样的?

火山杂谈
2024-06-02 22:35:58
胰腺癌发病率越来越高,是长期素引起的?医生:3个习惯要注意

胰腺癌发病率越来越高,是长期素引起的?医生:3个习惯要注意

碧晴养生汇
2024-06-02 15:58:27
巧遇黄仁勋 喜曝小费给的超级大

巧遇黄仁勋 喜曝小费给的超级大

楚门记
2024-06-03 09:14:14
太惨了!4月燃油轿车销量榜,朗逸无缘冠军,帕萨特第3,雅阁第10

太惨了!4月燃油轿车销量榜,朗逸无缘冠军,帕萨特第3,雅阁第10

小鱼来聊车
2024-06-02 19:42:58
中国空调市场“洗牌”:格力跌出了前三,黑马竟然是“门外汉”?

中国空调市场“洗牌”:格力跌出了前三,黑马竟然是“门外汉”?

奇奇怪怪的冒险
2024-06-03 03:29:36
退休妈妈为无房儿子杭州招婚:女孩父母有退休金!单亲家庭免谈!

退休妈妈为无房儿子杭州招婚:女孩父母有退休金!单亲家庭免谈!

娱乐洞察点点
2024-06-03 11:52:25
美就解放军环岛军演表态:两党已达成共识,若大陆攻台,美将出兵

美就解放军环岛军演表态:两党已达成共识,若大陆攻台,美将出兵

国学聚焦
2024-06-02 19:21:13
日本乒乓球名将水谷隼直言:中国乒乓球强大根本原因不在技术过硬

日本乒乓球名将水谷隼直言:中国乒乓球强大根本原因不在技术过硬

开心体育站
2024-05-31 18:35:04
朱芳雨:周琦续约还在谈判中,去辽宁是谣言,萨林杰太贵了买不起

朱芳雨:周琦续约还在谈判中,去辽宁是谣言,萨林杰太贵了买不起

元爸体育
2024-06-03 16:03:47
胡锡进评论铁头在靖国神社涂鸦撒尿的行为,网友们怒了!!!

胡锡进评论铁头在靖国神社涂鸦撒尿的行为,网友们怒了!!!

鬼菜生活
2024-06-03 12:27:52
复旦大学金融专硕就业率才40%,引应届生吐槽:书白读,20W白花了

复旦大学金融专硕就业率才40%,引应届生吐槽:书白读,20W白花了

东东趣谈
2024-06-03 11:24:06
独行侠祭出毒计,防死塔图姆放掉布朗,利用总决赛MVP从内部分化

独行侠祭出毒计,防死塔图姆放掉布朗,利用总决赛MVP从内部分化

毒液体育
2024-06-03 10:43:17
他们不会想到几十年后的同胞会来为侵略者庆祝!

他们不会想到几十年后的同胞会来为侵略者庆祝!

吴女士
2024-05-04 12:47:19
乌克兰第三突击旅对战争发表强硬声明:所有俄罗斯目标都必须摧毁

乌克兰第三突击旅对战争发表强硬声明:所有俄罗斯目标都必须摧毁

探索星空
2024-06-01 11:33:49
中国正式官宣!大幅提高美欧进口车关税,美国欧洲反应激烈

中国正式官宣!大幅提高美欧进口车关税,美国欧洲反应激烈

星辰故事屋
2024-05-31 20:31:20
大量上市,夏天使劲吃!才3块钱一斤,高钾低钠,健脾养胃促消化

大量上市,夏天使劲吃!才3块钱一斤,高钾低钠,健脾养胃促消化

花小猫的美食日常
2024-06-02 17:00:53
说实话,我确实不大理解,今天看到相关新闻时很震惊。

说实话,我确实不大理解,今天看到相关新闻时很震惊。

火山杂谈
2024-05-31 23:29:47
吴艳妮人气堪比奥运冠军!长发披肩没化大浓妆 网友称赞:格局大

吴艳妮人气堪比奥运冠军!长发披肩没化大浓妆 网友称赞:格局大

念洲
2024-05-29 11:59:28
2024-06-03 18:22:44
书侃小吏史
书侃小吏史
往事速推,史料未及!
2798文章数 180关注度
往期回顾 全部

科技要闻

2万字演讲|黄仁勋剧透 未来3年新品有这些

头条要闻

武汉一警察与歹徒搏斗身中15刀牺牲细节:现场异常逼仄

头条要闻

武汉一警察与歹徒搏斗身中15刀牺牲细节:现场异常逼仄

体育要闻

万人空巷!皇马举行欧冠夺冠庆典

娱乐要闻

混战升级!编剧赵冬苓力挺王阳遭围攻

财经要闻

接班100天,宗馥莉急了

汽车要闻

搭载华为HiCAR 传祺M6 MAX售14.58万元

态度原创

艺术
亲子
家居
数码
公开课

艺术要闻

穿越时空的艺术:《马可·波罗》AI沉浸影片探索人类文明

亲子要闻

宝妈发现新大陆 迫不及待让萌娃试试 网友:你搁这包饭团呢?

家居要闻

静谧极简 让空间回归本质

数码要闻

618序幕揭开,这款洗净比天花板洗衣机一定会是你的菜!

公开课

近视只是视力差?小心并发症

无障碍浏览 进入关怀版