TPAMI 2025 | 华中科大与大疆等提出LLF-LUT++：4K照片增强仅需13ms，PSNR提升2.64dB！|lut|自适应|滤波器|拉普拉斯|大疆创新

TPAMI 2025 | 华中科大与大疆等提出LLF-LUT++：4K照片增强仅需13ms，PSNR提升2.64dB！

分享至

文章来源：我爱计算机视觉（ID：aicvml）

最近，来自华中科技大学、大疆和香港理工大学的研究者们，为我们带来了一项非常酷的工作。他们提出了一种名为 LLF-LUT++ 的新型金字塔网络，完美解决了高分辨率照片增强中“效果”与“效率”难以兼得的痛点。

想象一下，处理一张4K超高清照片，从普通变得惊艳，需要多长时间？过去那些效果强大的模型可能需要几十甚至上百毫秒，而追求速度的模型效果又往往不尽人意。而 LLF-LUT++ 直接将这个时间压缩到了 13ms，同时在权威数据集上实现了 2.64 dB 的PSNR提升。这几乎意味着，我们可以在手机、无人机等设备上，实时享受到专业级的画质增强效果了。

下面，我们就来一起看看这项技术是如何实现的。

论文标题 : High-resolution Photo Enhancement in Real-time: A Laplacian Pyramid Network
作者团队 : Feng Zhang, Haoyou Deng, Zhiqiang Li, Lida Li, Bin Xu, Qingbo Lu, Zisheng Cao, Minchen Wei, Changxin Gao, Nong Sang, Xiang Bai
所属机构 : 华中科技大学; 大疆创新; 香港理工大学
论文地址 : https://arxiv.org/abs/2510.11613
代码仓库 : https://github.com/fengzhang427/LLF-LUT
录用信息 : TPAMI 2025

研究背景：速度与激情的两难选择

在计算摄影领域，照片增强一直是个热门话题。无论是调整曝光、恢复色彩，还是提升清晰度，目的都是让照片更“好看”。近年来，基于深度学习的方法层出不穷，效果也越来越好。但一个现实问题摆在面前：

性能强大的模型 ：通常网络复杂、计算量大，在电脑上跑跑还行，一旦想部署到手机、无人机这些算力有限的“边缘设备”上，就力不从心了，速度根本跟不上。
追求效率的模型 ：为了快，不得不牺牲模型复杂度，导致增强效果大打折扣，难以满足真实场景的需求。

如何在保证顶级效果的同时，实现超高效率，尤其是在处理4K、8K这类高分辨率图像时，成为了一个亟待解决的难题。这正是 LLF-LUT++ 想要攻克的方向。

LLF-LUT++：全局与局部协同的艺术

为了打破僵局，研究者们提出了一种基于拉普拉斯金字塔（Laplacian Pyramid）分解与重建的思路。它的核心思想是“分而治之”。一张高分辨率图像，可以被分解成一个低分辨率的基础层（包含全局光影和色彩信息）和多个高频层（包含边缘和纹理细节）。

这样一来，我们就可以用不同的策略来处理不同的信息：

全局增强 ：在低分辨率图像上进行，计算量小，可以快速调整整体色调和对比度。
局部增强 ：在高频层上进行，针对性地锐化边缘、增强细节。

LLF-LUT++ 正是基于这个原理构建的。整个框架如下图所示，它主要由全局增强和局部细节精炼两个核心部分组成。

全局增强：基于3D LUT的智能调色

对于全局增强，模型采用了一种图像自适应的3D查找表（3D LUT）技术。你可以把3D LUT想象成一个高级的“调色滤镜”，它定义了输入颜色到输出颜色的映射关系。但传统的LUT是固定的，而LLF-LUT++的LUT是动态生成的，能根据每张图片的内容自适应调整。

为了实现这一点并提高效率，模型首先将高分辨率输入图（I_HR）下采样得到低分辨率版本（I_LR）。然后，一个轻量级的Transformer权重预测器会分析这个低分辨率图像，并预测出两组权重：一组用于优化高分辨率图像，另一组用于优化低分辨率图像。这种双重权重融合策略，可以实现更精细的全局调整。

空间-频率Transformer：更懂图像的权重预测器

如何精准地预测出LUT的权重，是全局增强的关键。研究者们设计了一个新颖的“空间-频率Transformer”（spatial-frequency transformer）。与传统的只关注空间信息的Transformer不同，它还引入了傅里叶变换，从而能够同时捕捉图像在空间维度和频率维度的特征。

简单来说，频率特征能更好地反映图像的整体色调和风格，这对于预测全局调色参数至关重要。该网络以低分辨率图像为输入，通过多层编解码器结构，最终输出用于构建3D LUT的权重，实现了对图像内容的深度理解。

局部精炼：自适应拉普拉斯滤波器

在完成全局增强后，图像被分解到拉普拉斯金字塔中。对于金字塔中的高频层，模型应用了自适应的局部拉普拉斯滤波器（Local Laplacian Filter, LLF）来精炼细节。这个滤波器同样是内容自适应的，它能根据图像的局部特征，智能地增强边缘和纹理，同时避免产生光晕等不自然的瑕疵。

最终，经过精炼的高频层和增强后的低频基础层被重新组合，重建出最终的高质量图像。

实验效果：快得不止一点，效果好得非常明显

是骡子是马，拉出来遛遛。研究者们在两个主流的图像增强基准数据集（HDR+ 和 MIT-Adobe FiveK）上进行了大量实验。

从下面的定量对比表中可以看到，在处理4K分辨率图像时，LLF-LUT++ 的速度达到了惊人的 13ms，远超其他SOTA方法。同时，在HDR+数据集上，比次优方法高出 2.64dB，这是一个非常显著的提升。

在MIT-Adobe FiveK数据集上，LLF-LUT++ 同样在性能和速度上取得了最佳的平衡。

除了冷冰冰的数字，视觉效果的对比更加直观。无论是低分辨率还是原始高分辨率的图像，LLF-LUT++ 处理后的结果在色彩、对比度和细节上都更胜一筹，并且伪影更少。图片左上角的误差图（Error Map）颜色越深表示与专业修图师处理结果的差距越大，可以看到LLF-LUT++的误差图是最暗的。

HDR+ 数据集效果对比：

MIT-Adobe FiveK 数据集效果对比：

此外，论文还做了详尽的消融实验，验证了模型各个组件的有效性。例如，从基线的3D LUT方法开始，逐步加入像素级权重图、Transformer主干、局部拉普拉斯滤波器等，性能一路提升，证明了每个设计都不是多余的。

权重融合策略和金字塔层数的选择也经过了细致的对比分析，确保了最终方案的最优性。

总结

LLF-LUT++ 通过将拉普拉斯金字塔分解与现代深度学习技术（如Transformer和自适应LUT）相结合，成功地在实时高分辨率照片增强任务中实现了SOTA级别的性能和前所未有的速度。这项工作不仅为边缘设备上的高级图像处理铺平了道路，其“全局+局部”和“空域+频域”结合的设计思路，也为其他计算机视觉任务提供了宝贵的借鉴。作者已经开源了代码，CV君强烈建议感兴趣的同学去亲自体验一下。

大家对这个方法怎么看？欢迎在评论区留下你的看法！

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.