![]()
60,000张图,4秒训练,20毫秒推理。没有显卡,没有神经网络,只有一个48维的统计向量。这是CIFAKE数据集上跑出的结果,而主流方案还在堆算力、烧GPU。
检测深度伪造(Deepfake)的行业现状,有点像体检报告只写"异常"却不告诉你哪项指标出了问题。神经网络吐出0或1,你信了,但不知道它看见了什么。作者想试试:如果退回到最朴素的统计方法,能走多远?
噪声成了最诚实的告密者
真实相机的噪声有结构,AI生成的噪声是"野生的"。
作者提取了四类特征:噪声残差、傅里叶频谱(FFT)、直方图统计、梯度分布。结果噪声残差以84.8%的线性判别分析(LDA,一种统计分类方法)准确率碾压全场。真实相机的传感器噪声在空间上有关联性——像素和邻居像素"认识"。生成模型没有物理传感器,它的噪声是数学采样,统计特征截然不同。
这个发现本身不算新,但量化到84.8%的准确率时,事情变得有趣了。它意味着你不需要理解ResNet的残差连接,不需要调Adam学习率,只需要测量噪声的空间相关性,就能拦住大部分伪造内容。
FFT特征的数据更极端。频域协方差差距达到6.23×10¹¹,比其他特征高出几个数量级,LDA准确率却只有79.9%。差异真实存在,但决策边界是非线性的。换句话说,FFT里藏着金矿,但线性工具挖不动,得上SVM或一层神经网络。
![]()
48维向量的暴力美学
把四类特征拼成48维,扔进对数几率回归(Logistic Regression),92.9%的ROC-AUC。
训练84,000张图,测试36,000张。4秒。推理20毫秒。这个速度意味着什么?你可以在用户上传视频的间隙完成检测,而不需要排队等GPU集群。作者没有说这比SOTA(当前最优)的深度学习方案更强,但给出了深度学习通常给不了的三样东西:
可解释性——每个特征的权重透明可见。稳定性——小样本扰动不会导致模型崩溃。部署成本——树莓派就能跑。
生产环境的最佳实践可能是混合架构:统计特征做第一道快速筛查,深度模型处理漏网之鱼。这不是"复古战胜未来"的童话,而是不同工具各安其位的务实选择。
热力图:让伪造痕迹显形
作者还做了一件神经网络很难直接做的事—— patch级别的异常定位。每个图像块打分:
![]()
score = 0.45 × 噪声残差 + 0.35 × 频域特征 + 0.20 × 梯度特征
真实图像的热力图平坦均匀。合成图像则在物体边界或生成器丢失空间一致性的区域出现集中异常。这种空间可解释性,是softmax输出一个0.97的"fake"概率给不了的。
你可以指着热力图告诉审核人员:这里,这里,还有这里,生成器在拼接时露出了马脚。
实验用Python、scikit-learn、OpenCV和scikit-image完成。没有PyTorch,没有CUDA,没有分布式训练。工具链简单到像是故意挑衅这个时代的算力崇拜。
这个项目的真正价值或许不在于92.9%这个数字,而在于它提出的问题:当整个行业默认"更复杂=更好"时,有没有人回头检查那些被丢弃的简单假设?噪声、频谱、梯度——这些计算机视觉的"老古董",在特定任务上依然锋利。
作者没有开源代码,但方法描述足够复现。CIFAKE是公开数据集,scikit-learn的文档比大部分论文都清晰。如果你在做内容安全、金融核身、或者任何需要快速部署伪造检测的场景,这可能是一个值得验证的方向。
深度学习的黑箱正在吞噬越来越多的决策权,而有人证明:在某些角落,统计学依然亮着灯。问题是,你愿意为了可解释性和速度,放弃那最后几个百分点的准确率吗?
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.