网易首页 > 网易号 > 正文 申请入驻

差分卷积在计算机视觉中的应用

0
分享至

本文主要介绍由Oulu大学主导的几个差分卷积(Difference Convolution)工作及其在图像、视频领域中的应用。 相关工作已被 TPAMI, TIP, CVPR’20, ICCV’21 (Oral), IJCAI’21 等顶级期刊会议接收,并斩获两项国际大赛冠亚军(1st Place in the ChaLearn multi-modal face anti-spoofing attack detection challenge with CVPR 2020 [16] 和 2nd Place on Action Recognition Track of ECCV 2020 VIPriors Challenges [17])。

一、鼻祖LBP的简单回顾

在传统的手工特征中,比较经典的有Oulu提出的 LBP(Local Binary Patterns),即局部二值模式 [1],至今引用已有16000+。最初的LBP是定义在3×3邻域内的,以邻域中心像素为阈值,将相邻的8个像素的灰度值与其进行差分比较,若周围像素值大于中心像素值,则该像素点的位置被标记为1,否则为0。这样,邻域内的8个点经比较可产生8位二进制数(通常转换为十进制数即LBP码,共256种),即得到该邻域中心像素点的LBP值,并用这个值来反映该区域的纹理信息。

图1. LBP算子提取流程

用公式表示为:

LBP算子运算速度快,同时聚合了邻域内的差分信息,对光照变化较为鲁棒;同时也能较好地描述细粒度的纹理信息,故在早期纹理识别,人脸识别等都被广泛应用。下图为人脸图像在做LBP变换后的LBP码图像,可以看出脸部局部纹理特征较好地被表征:

二、中心差分卷积CDC

在人脸活体检测中的应用 [2,3]

CDC代码链接: https://github.com/ZitongYu/CDCN/blob/master/CVPR2020_paper_codes/models/CDCNs.py

Vanilla卷积通常直接聚合局部intensity-level的信息,故

1. 容易受到外界光照等因素的影响;

2. 比较难表征细粒度的特征。

在人脸活体检测任务中,前者容易导致模型的泛化能力较弱,如在未知的光照环境下测试性能较低;后者会导致难以学到防伪本质的细节信息,如spoof的材质。考虑到空间差分特征具有较强光照不变性,同时也包含更细粒度的spoof线索(如栅格效应,屏幕反射等),借鉴传统LBP的差分思想,我们提出了中心差分卷积(Central difference convolution, CDC)

图3. 中心差分卷积CDC

假定邻域 R 为3x3区域,公式表达如下:

为了更好同时利用 intensity-level 和 gradient-level 的信息,我们通过超参 θ∈[0,1] 及共享卷积可学习的权重,统一了VanillaConv和CDC,而无需额外的可学习参数(和可忽略的计算量)。故更generalized的CDC公式为:

θ 控制着差分卷积及Vanilla卷积的贡献,值越大意味着gradient clue占比越重;当 θ=0 时,就成了Vanilla卷积。文章 [3]中也具体对比了CDC与前人工作Local Binary Convolution [4], Gabor Convolution [5] 和 Self-Attention layer [6],有兴趣的请查阅原文。

图4. 在OULU-NPU数据集协议1上的消融实验,ACER值越低,性能越好。(a) CDC超参theta的影响; (b) 几种卷积性能对比。

上图可见,当 θ>0.3 时,使用CDC效果总比单独Vanilla卷积要好(也就是 θ=0 )。我们也观察到,当 θ=0.7 时,该协议下活体检测性能处于最优,并优于LBConv [4]和GaborConv [5]。

三、交叉中心差分卷积C-CDC在人脸活体检测中的应用

C-CDC代码链接: https://github.com/ZitongYu/CDCN/blob/master/DC_CDN_IJCAI21.py

考虑到CDC需要对所有邻域特征都进行差分操作,存在着较大的冗余,同时各方向的梯度聚合使得网络优化较为困难,我们提出了交差中心差分卷积(Cross-CDC),将CDC解耦成水平垂直和对角线两个对称交叉的子算子:

图5. 交差中心差分卷积。上为水平垂直方向C-CDC(HV),下为对角方向C-CDC(DG)。

具体实现只需将感受野从原本的3x3邻域 R 改成对应水平垂直或者对角方向的子邻域 S 即可。使用C-CDC(HV)或者C-CDC(DG)后,如下表所示,网络的参数量和FLOPs都大幅度减少,并取得与原本CDC媲美的性能。

在下图(b)消融实验中可见,相比CDC (ACER=1%),C-CDC(HV) 和 C-CDC(DG)也能取得相当的性能。有趣的是,如果对于VanillaConv进行HV或者DG方向的分解,性能就会下降得比较严重,intensity-level信息对于充足感受野范围需求较大。

在边缘检测中,如下图(a)所示,经典的传统操作子(如Roberts, Sobel和LoG)都采用差分信息来表征边缘上下文的突变及细节特征。而我们通过下图(b)中发现,经过训练的基于VanillaConv的CNN,其学习到Kernel存在着典型的高斯分布,使得卷积操作对邻域特征进行平滑,因此容易淹没边缘特征,跟传统操作子的差分操作不匹配。

为了高效地引入差分操作到CNN中,借鉴于Extended LBP (ELBP) [9],我们提出了像素差分卷积(Pixel difference convolution, PDC)。根据候选像素对的采样策略,PDC具体分为下图所示三种子形式,其中CPDC类似CDC对邻域特征进行中心差分;而APDC对邻域进行顺时针方向的两两差分;最后RPDC对更大感受野5x5邻域的外环与内环进行差分。

图8. PDC的三种形式CPDC, APDC 和 RPDC

文中另外一个贡献是提出了高效转换PDC为VanillaConv的实现及推导证明,即先计算卷积核weights间的difference,接着直接对输入的特征图进行卷积。该tweak不仅可以加速training阶段,而且还可降低在inference阶段的额外差分计算量。以CPDC为例,转换公式如下:

具体的三种PDC如何组合效果最好,可阅读文章消融实验及分析。最后下图可视化了PiDiNet-Tiny网络配套VanillaConv或者PDC后的特征图及边缘预测。明显的是,使用PDC后,gradient信息的增强有利于更精确的边缘检测。

图9. 使用VanillaConv及PDC后的可视化效果


五、时空差分卷积3D-CDC在视频手势/动作识别中的应用 [10]

3D-CDC代码链接: https://github.com/ZitongYu/3DCDC-NAS/blob/master/3DCDC.py

不同于静态spatial图像分析,帧间的motion信息在spatio-temporal视频分析中往往扮演着重要角色。很多经典motion算子,如光流optical flow和动态图dynamic image的计算都或多或少包含着帧内spatial、帧间temporal、帧间spatio-temporal的差异信息。当下主流的3DCNN一般都采用vanilla 2D、3D、伪3D的卷积操作,故较难感知细粒度的时空差异信息。与部分已有工作设计额外Modules(如OFF [11],MFNet [12])的思路不同,我们设计了时空差分卷积(3D-CDC)来高效提取时空差异特征,可取代Vanilla3DConv,直插直用于任何3DCNN,并无额外参数开销。

下图给出了C3D模型基于3D-CDC家族的性能,可见针对不同模态(尤其是RGB和光流),在大部分 取值 下3D-CDC-T和3D-CDC-TR能带来额外的视频表征收益( 仅为使用Vanilla3DConv)。

文献 [13] 将 CDC 思想应用到图卷积中,形成差分图卷积(Central Difference Graph Convolution,CDGC)。

文献 [14] 将 CDC 应用到实时 Saliency detection 任务中。

文献 [15] 将 3D-CDC 应用到 人脸远程生理信号rPPG测量 中。

七、总结与展望

一方面,如何将可解释性强的经典传统算子(如LBP, HOG, SIFT等)融入到最新的DL框架(CNN,Vision Transformer,MLP-like等)中来增强性能(如准确率,迁移性,鲁棒性,高效性等),将是持续火热的topic;另外一方面就是探索和应用到更多vision tasks 来服务计算机视觉落地。

Reference:

[1] Timo Ojala, et al. Multiresolution gray-scale and rotation invariant texture classification with local binary patterns. TPAMI 2002.

[2] Zitong Yu, et al. Searching central difference convolutional networks for face anti-spoofing. CVPR 2020.

[3] Zitong Yu, et al. Nas-fas: Static-dynamic central difference network search for face anti-spoofing. TPAMI 2020.

[4] Juefei Xu, et al. Local binary convolutional neural networks. CVPR 2017.

[5] Shangzhen Luan, et al. Gabor convolutional networks. TIP 2018.

[6] Ramachandran Prajit, et al. Stand-alone self-attention in vision models. NeurIPS 2019.

[7] Zitong Yu, et al. Dual-Cross Central Difference Network for Face Anti-Spoofing. IJCAI 2021.

[8] Zhuo Su, et al. Pixel Difference Networks for Efficient Edge Detection. ICCV 2021 (Oral)

[9] Li Liu, et al. Extended local binary patterns for texture classification. Image and Vision Computing 2012.

[10] Zitong Yu, et al. Searching multi-rate and multi-modal temporal enhanced networks for gesture recognition. TIP 2021.

[11] Shuyang Sun, et al. Optical flow guided feature: A fast and robust motion representation for video action recognition. CVPR 2018.

[12] Myunggi Lee, et al. Motion feature network: Fixed motion filter for action recognition. ECCV 2018.

[13] Klimack, Jason. A Study on Different Architectures on a 3D Garment Reconstruction Network. MS thesis. Universitat Politècnica de Catalunya, 2021.

[14] Zabihi Samad, et al. A Compact Deep Architecture for Real-time Saliency Prediction. arXiv 2020.

[15] Zhao Yu, et al. Video-Based Physiological Measurement Using 3D Central Difference Convolution Attention Network. IJCB 2021.

[16] Zitong Yu, et al. Multi-modal face anti-spoofing based on central difference networks. CVPRW 2020.

[17] Haoyu Chen, et al. 2nd place scheme on action recognition track of ECCV 2020 VIPriors challenges: An efficient optical flow stream guided framework. arXiv 2020.

Illustrastion by Julia Gnedina from Ico ns8

-The End-

ICML直播研讨会报名传送门

▲ 点击上方海报了解更多详情

扫码观看!

本周上新!

关于我“门”

将门是一家以专注于发掘、加速及投资技术驱动型创业公司的新型创投机构,旗下涵盖将门创新服务将门技术社群以及将门创投基金

将门成立于2015年底,创始团队由微软创投在中国的创始团队原班人马构建而成,曾为微软优选和深度孵化了126家创新的技术型创业公司。

如果您是技术领域的初创企业,不仅想获得投资,还希望获得一系列持续性、有价值的投后服务,欢迎发送或者推荐项目给我“门”:

bp@thejiangmen.com

点击右上角,把文章分享到朋友圈

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
又有30个高盛重仓股暴涨,14个直接涨停,名单出炉,2个主线

又有30个高盛重仓股暴涨,14个直接涨停,名单出炉,2个主线

鹏哥投研
2026-05-24 11:45:34
局部暴雨,雷雨阵风7~9级,山东大范围降雨马上到,最新天气预报

局部暴雨,雷雨阵风7~9级,山东大范围降雨马上到,最新天气预报

鲁中晨报
2026-05-24 17:43:13
一个男人在低谷时,拼命社交、到处找机会都是下策,最明智的做法,是狠心在这两件事上做“反人性”的投资

一个男人在低谷时,拼命社交、到处找机会都是下策,最明智的做法,是狠心在这两件事上做“反人性”的投资

心理观察局
2026-05-08 09:00:04
一场3-0,让凯恩领跑金球奖!穆帅现身,拜仁创4大纪录,三冠加身

一场3-0,让凯恩领跑金球奖!穆帅现身,拜仁创4大纪录,三冠加身

等等talk
2026-05-24 04:28:38
SpaceX第三代星舰成功发射,最难的几件事才刚开始

SpaceX第三代星舰成功发射,最难的几件事才刚开始

DeepTech深科技
2026-05-23 20:13:07
原来有钱人的钱都是这么来的?网友分享的太震撼,让人大开眼界!

原来有钱人的钱都是这么来的?网友分享的太震撼,让人大开眼界!

夜深爱杂谈
2026-05-22 08:01:32
从5登春晚到创业破产,曾是“央视宠儿”的平安,如今咋样了?

从5登春晚到创业破产,曾是“央视宠儿”的平安,如今咋样了?

汉字笔迹心理分析
2026-05-20 16:07:35
上海一奥迪女销售请客户吃饭,细节被爆出,父母:脸都被丢尽了

上海一奥迪女销售请客户吃饭,细节被爆出,父母:脸都被丢尽了

红豆讲堂
2025-04-14 12:25:10
全力以赴!利物浦官宣赛事预热海报,三大核心出镜 胜利势在必得

全力以赴!利物浦官宣赛事预热海报,三大核心出镜 胜利势在必得

阿讯说天下
2026-05-24 17:38:01
今晚直播决赛!桥本帆乃香战大藤沙月,林德VS吴晙诚男单争冠!

今晚直播决赛!桥本帆乃香战大藤沙月,林德VS吴晙诚男单争冠!

好乒乓
2026-05-24 15:21:39
这个时代第一人!连续8赛季联赛金靴,世界杯再进4球超大罗登顶

这个时代第一人!连续8赛季联赛金靴,世界杯再进4球超大罗登顶

体育世界
2026-05-24 14:24:05
美国对台政策已变?德国记者:从现在起,台湾要提防特朗普

美国对台政策已变?德国记者:从现在起,台湾要提防特朗普

毕殿龙
2026-05-24 17:53:53
赛季最佳爆冷!C罗无缘沙特联赛大奖,昔日切尔西失意球星登顶

赛季最佳爆冷!C罗无缘沙特联赛大奖,昔日切尔西失意球星登顶

夜白侃球
2026-05-24 10:18:13
特朗普宣布增派5000名士兵!爱尔兰总统的妹妹康诺利,被以色列扣押!

特朗普宣布增派5000名士兵!爱尔兰总统的妹妹康诺利,被以色列扣押!

咣当地球
2026-05-24 13:49:19
1236胜!!!他还在继续赢!!

1236胜!!!他还在继续赢!!

柚子说球
2026-05-24 08:25:24
大雨过后长沙年嘉湖畔大鱼跃出搁浅,市民公园栈道上捡鱼

大雨过后长沙年嘉湖畔大鱼跃出搁浅,市民公园栈道上捡鱼

半岛晨报
2026-05-23 18:49:29
朱芳雨盯上2米25老熟人!广东内线补强目标曝光,拿啥筹码换呢?

朱芳雨盯上2米25老熟人!广东内线补强目标曝光,拿啥筹码换呢?

烟浔渺渺
2026-05-24 14:19:01
女演员自曝丈夫病情已达重度!黄磊、陈乔恩等明星也确诊;医生:有猝死风险

女演员自曝丈夫病情已达重度!黄磊、陈乔恩等明星也确诊;医生:有猝死风险

鲁中晨报
2026-05-23 09:06:05
2026年反腐风暴正式开打!中纪委明确9大高风险领域集中收网

2026年反腐风暴正式开打!中纪委明确9大高风险领域集中收网

职场资深秘书
2026-05-23 10:57:06
新能源汽车维修遭垄断,4400万车主选择权被锁

新能源汽车维修遭垄断,4400万车主选择权被锁

第一财经资讯
2026-05-11 16:52:11
2026-05-24 18:59:00
将门创投 incentive-icons
将门创投
加速及投资技术驱动型初创企业
2385文章数 596关注度
往期回顾 全部

科技要闻

我戴着摄像头上班,正在帮AI抢走我饭碗

头条要闻

山西矿难遇难者家属:父亲年过半百 我们一直劝他别干了

头条要闻

山西矿难遇难者家属:父亲年过半百 我们一直劝他别干了

体育要闻

唐斯发牌,大头逆袭:骑士跌向残忍夏季

娱乐要闻

王鹤棣掉粉超20万!代言和作品遭抵制

财经要闻

爆炸致82人遇难 留神峪煤业存违法行为

汽车要闻

2027款星途瑶光上市 把"全球车"标准卷进13万级市场

态度原创

本地
房产
时尚
旅游
手机

本地新闻

用云锦的方式,打开江苏南京

房产要闻

疯狂周末,海口楼市突然爆了!

伊姐周六热推:电视剧《嫁金枝》;电视剧《大唐迷雾 第一季》......

旅游要闻

519中国旅游日 | 2026年“5·19中国旅游日”民宿消费季在长沙启动。

手机要闻

iOS 27相机大升级,拍照更懂你

无障碍浏览 进入关怀版