本文是发表在2021年ICCV会议上的一篇文章,今天我们针对文中的关键点进行简要解读。
目的
这篇文章从一个新的角度出发,不同于以往的直接对单个视频进行检测,而是更贴合实际。例如:当一个名人需要来证实一段视频是deepfake自己的脸,只需要她提供自己真实的一段视频来与需要鉴定的视频进行比较即可判定出来。比较符合当前的现实需求。
Motivation
当前的deepfake检测技术很多在面部重建操作上的检测效果不太好,所以作者为了克服这种问题,做出了以下的推断:人面部信息包含了视觉身份和生物特征两部分,并且两者特征之间有关联。但是篡改过的视频会改变两者之间的关联性,与此同时,deepfake中的面部重建方法是会保留身份信息,破坏生物特征的运动。
数据集
在介绍方法前需要特意说明下数据集来方便与网络进行匹配。该论文选择的数据集跟平常的检测deepfake的数据集不一样,选择的是VoxCeleb2数据集,将其中的5120个视频作为训练集,512个作为验证集。每个batch包括64个96帧的视频,其中的64个视频又分别是8个人的8段视频。
论文提出了一种新的方法,通过度量学习和对抗性策略来学习时间层面上的面部特征。
该网络主要由三个结构组成:(1)特征提取;(2)时序ID网络;(3)3DMM生成网络。该网络的三个部分已经在上图中表示出来。
特征提取
对视频中的每一帧提取出面部特征。然后通过一个3D形态模型来讲每个脸映射成一个低维表示(也就是图中显示的人脸形态图)。该表示中包含了关于脸部形状,表情,外貌等信息。下一步是从该低维表示中取回人脸的这些信息参数,作者选用了一种回归框架,将这些信息再次映射成一个62个参数的向量。
时序ID网络
该网络的作用是比较输入的特征之间的相似度,同时也作为一个判别器来与接下来介绍的3DMM生成网络进行对抗学习。流程是:将传入该部分的两个特征向量进行特征映射然后来比较两者之间的相似度,将该相似度与标签对比,如果判定错误则更新3DMM生成网络的参数来使得其生成更能分辨真假之间关键信息的特征。
3DMM生成网络
该网络的作用是生成类似于经过deepfake篡改过的视频,如图上所示:将身份A的面部五官等放到身份B的面部背景上面,也就是与个人视觉身份一致但生物特征不一致的信息。
实验效果
这里只选择了比较常见的在FF++上训练(注意在FF++进行监督训练,基于身份的训练仍然在VoxCeleb2上面),DFDC和Celeb测试的效果展示:
来源:知乎 作者:吃猫的鱼
|深延科技|
深延科技成立于2018年,是深兰科技(DeepBlue)旗下的子公司,以“人工智能赋能企业与行业”为使命,助力合作伙伴降低成本、提升效率并挖掘更多商业机会,进一步开拓市场,服务民生。公司推出四款平台产品——深延智能数据标注平台、深延AI开发平台、深延自动化机器学习平台、深延AI开放平台,涵盖从数据标注及处理,到模型构建,再到行业应用和解决方案的全流程服务,一站式助力企业“AI”化。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.