网易首页 > 网易号 > 正文 申请入驻

AAAI 2025丨2080Ti 也能 4K 图像抠图 !美图&北交大提出超高分辨率自然图像抠图算法 MEMatte

0
分享至

显存友好的自然图像抠图框架用于在显存受限的场景下(如商用显卡与边缘设备)进行高清图像的精细抠图。

日前,美图影像研究院(MT Lab)联合北京交通大学提出了超高分辨率抠图方法MEMatte (MemoryEfficient),一个显存友好的自然图像抠图框架用于在显存受限的场景下(如商用显卡与边缘设备)进行高清图像的精细抠图。文章已被人工智能顶会 AAAI 2025 接收。

随着摄影设备的性能升级,我们在日常采集到的图像分辨率已经能达到4K乃至8K,这种高分辨率图像有着更好的视觉质感与更丰富的细节内容。而自然图像抠图方法相比于一般的分割方法更善于区分细节充实的场景,因此适用于更复杂的下游任务诸如图像与视频的后期编辑。

当前Transformer (ViT) 为自然图像抠图方法带来了显著的性能提升,这种提升来自于全局注意力模块对图像内容的长程建模能力。然而,基于ViT的抠图方法在计算资源受限的场景下无法处理高分辨率图像,因为ViT内部的全局注意力会产生次方倍的计算开销。此外,抠图任务的特性要求输入能同时保留清晰图像中的细节信息与完整图像中的语义信息,因此无法采用降采样或图像切片等手段来降低模型输入的图像尺寸。这些限制条件要求我们在维持图像输入大小的前提下降低全局注意力对计算资源的消耗。

过往的解决方案包括令牌剪枝与令牌融合,这些方法都需要在模型的不同层以固定比例逐渐丢弃冗余令牌。但是这类方法存在两种缺陷:

(1)丢弃令牌会导致抠图效果显著变差,因为被丢弃的令牌中存在着需要被保留的细节信息;

(2)预设固定的丢弃比例无法适应不同的输入,对于复杂样例丢弃过多信息会导致精度下降,而对于简单样例则依然存在计算冗余。

为了解决上述问题,研究团队提出的MEMatte采用了双分支的令牌路由设计。该设计的核心思想是将包含语义信息的令牌送入全局注意力模块进行处理,并且将其余令牌送入精心设计的轻量化令牌提炼模块 (Light-weight Token Refinement Module, LTRM) 进行处理。令牌的分流是通过动态路由机制 (Batch-constrained Adaptive Token Routing, BATR)进行筛选,在推理时无需预设固定的比例,因此能够输入自适应地进行调整。这一设计显著降低了模型的计算开销,并在Nvidia GeForce 2080Ti 商用 GPU上实现了4K分辨率图像抠图。此外,研究团队还开源了超高分辨率自然图像抠图数据集UHR-395 (Ultra High Resolution dataset),用于高分辨率模型的训练与评估。

MEMatte方法与已有方法在不同分辨率的显存消耗对比对比

UHR-395数据集与其它开源抠图数据集的输入下UHR-395有着最高的平均分辨率

1

方法

在推理过程中,MEMatte的ViT编码器内部的每一个全局注意力模块前都存在一个路由器 (Router)。这个路由器通过局部-全局策略为全局注意力进行令牌重要性评估。该策略对每层的图像输入进行重新映射以及通道拆分后的全局池化操作来兼顾局部与全局信息。此后通过LogSoftmax (LS)操作形成令牌的分流结果。

Router 将分流到全局注意力之外的令牌送入 LTRM 进行处理。LTRM 由数个轻量化组建构成,其中包括两组映射层。此外,深度卷积 (Depth-Wise Convolution, DWC) 层处理局部空间信息,高效通道注意力层 (Efficient Channel Attention, ECA) 处理全局特征信息。

在训练MEMatte时,研究团队采用 BATR 的训练机制,搭配蒸馏学习策略与常规抠图训练损失,实现快速且平稳的模型训练,在训练过程中,假定从数据分布中均匀地采样,则每次的压缩比例应当为一个定值。基于这项假设, BATR 为模型预设了分流比例 来约束模型预测的批次平均分流比例,定义批次平均分流比例 为如下形式:

通过约束模型的预测值与预设值的差异,训练出足够有效的 Router 以自适应的处理各种图像。

MEMatte的训练与推理流程

2

试验结果

实验结果表明,MEMatte在现有的基准以及UHR-395的高分辨率测试集上都领先于过去的方法,并在域外测试集上展现了良好的泛化性能。此外,在抠图测试集Composition-1K上,MEMatte相比于其baseline节省了约88%的显存开销,并降低了约50%的推理时间。

MEMatte与过往方法在通用抠图基准上的比较

MEMatte与过往方法在UHR-395高分辨率测试集上的比较

在高分辨率图像上的抠图效果

研究图案对 Router 分流结果的可视化结果展示了MEMatte在不同的全局注意力层对令牌的选择倾向。MeMatte使中间的自注意力层主要关注物体边缘与细区域的复杂区域,同时避免了令牌通过ViT浅层的自注意力操作,这大幅提高了输入自注意力层的令牌稀疏性。

对Router分流结果的可视化,其中灰色区域是分流向 LTRM 的令牌

3

超高分辨率自然图像抠图数据集

目前公开的抠图数据集难以作为高分辨率抠图的基准,因为它们无法同时兼顾类别多样性和高分辨率。为了解决这一问题,研究团队提出了一个超高分辨率自然抠图数据集UHR-395。该数据集包含11个类别,共395个前景物体,划分为训练集355张以及测试集40张,平均分辨率高达4872×6017。

前景类别分布

图像分辨率分布

为确保标注数据的高质量,每个前景物体的标注结果都通过多轮严格的审核机制,并由抠图领域专家进行最后确认,不合格标注结果均被返回进行重新修正,最终获得高质量的自然图像抠图标注数据。

标注结果展示

4

结语

超高分辨率的自然图像抠图方法对实现复杂图像编辑与视频后期处理等下游任务而言至关重要,在本研究中,来自美图影像研究院(MT Lab)和北京交通大学的研究人员共同提出了 MEMatte 和超高分辨率数据集 UHR-395。与现有的抠图方法相比,采用MEMatte 能够显著降低推理过程中的内存使用量和延迟,在高分辨率和真实世界数据集上实现了最先进的性能,突出了令牌路由机制 BATR和 轻量化令牌细化模块 LTRM 的稳健性,为美图的图像与视频处理能力提供高性能且灵活的技术支撑,为用户带来高效优质使用体验。此外, MEMatte 也有望促进高分辨率抠图的进一步研究。

更多内容,点击下方关注:

未经「AI科技评论」授权,严禁以任何方式在网页、论坛、社区进行转载!

公众号转载请先在「AI科技评论」后台留言取得授权,转载时需标注来源并插入本公众号名片。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
震撼来袭,降维打击!媒体人爆威少已经非常接近加盟新疆队!

震撼来袭,降维打击!媒体人爆威少已经非常接近加盟新疆队!

田先生篮球
2025-09-18 14:13:08
沙特被逼急了,与巴基斯坦建立攻守同盟,可能会获得核保护伞

沙特被逼急了,与巴基斯坦建立攻守同盟,可能会获得核保护伞

战争与帝国
2025-09-18 22:30:29
宫鲁鸣终于松口了!赛后一席话,李梦、王思雨回归国家队希望大增

宫鲁鸣终于松口了!赛后一席话,李梦、王思雨回归国家队希望大增

阿鰤科普记录
2025-09-19 09:46:14
吓死!事发昆明一小区,夫妻二人旅游回家,一开门就看到客厅爬满蛇

吓死!事发昆明一小区,夫妻二人旅游回家,一开门就看到客厅爬满蛇

生活魔术专家
2025-09-18 10:20:37
9月18日俄乌:乌再袭俄两大炼油厂,泽连斯基提出B计划

9月18日俄乌:乌再袭俄两大炼油厂,泽连斯基提出B计划

山河路口
2025-09-18 17:15:55
方媛低调晒出自家豪宅,嫁郭富城后过上贵妇生活,里子面子都有了

方媛低调晒出自家豪宅,嫁郭富城后过上贵妇生活,里子面子都有了

有范又有料
2025-09-18 15:27:28
俄要将战争进行到底,波兰无限期封锁与白俄罗斯接壤的边境

俄要将战争进行到底,波兰无限期封锁与白俄罗斯接壤的边境

山河路口
2025-09-18 23:38:21
普京最新签署,免去他的总统办公厅副主任职务!特朗普:如果油价下跌,普京将别无选择......

普京最新签署,免去他的总统办公厅副主任职务!特朗普:如果油价下跌,普京将别无选择......

每日经济新闻
2025-09-19 07:40:07
穆里尼奥:我离开费内巴切第2天,他们就签了5名球员

穆里尼奥:我离开费内巴切第2天,他们就签了5名球员

懂球帝
2025-09-19 10:14:41
内塔尼亚胡不装了,放话要报复中国,中方的回应,给美以提了个醒

内塔尼亚胡不装了,放话要报复中国,中方的回应,给美以提了个醒

天气观察站
2025-09-18 16:09:02
面对美国“台湾地位未定论”,郑丽文重磅发声,赵少康表态不一般

面对美国“台湾地位未定论”,郑丽文重磅发声,赵少康表态不一般

DS北风
2025-09-18 17:47:04
说“杀死所有中国人”的美国电视节目,被美国政府关闭

说“杀死所有中国人”的美国电视节目,被美国政府关闭

林樾读书
2025-09-19 07:46:40
斯诺登棱镜门事件,美国CIA派十六名特种兵进入澳门,结局如何

斯诺登棱镜门事件,美国CIA派十六名特种兵进入澳门,结局如何

神奇的锤子
2024-09-18 11:27:13
内塔尼亚胡不装了,放话要报复中国,中方的回应,给美以提了个醒

内塔尼亚胡不装了,放话要报复中国,中方的回应,给美以提了个醒

今日美食分享
2025-09-19 15:13:07
卫健委的这组数据,耐人寻味

卫健委的这组数据,耐人寻味

小萝卜丝
2025-09-17 09:54:40
男子8001元捡漏网拍劳力士手表,商家认为亏本拒绝发货,诉至法院获赔7万元

男子8001元捡漏网拍劳力士手表,商家认为亏本拒绝发货,诉至法院获赔7万元

大风新闻
2025-09-18 22:31:20
刘震云:世界上有3件事最愚蠢:一是把钱借出去,等别人主动还...

刘震云:世界上有3件事最愚蠢:一是把钱借出去,等别人主动还...

清风拂心
2025-08-21 17:15:06
已确认:全部关闭!退出中国市场

已确认:全部关闭!退出中国市场

中吴网
2025-09-16 22:31:40
普京不怕北约宣战了,14亿人口大国派兵俄罗斯,锆石击毁沿海目标

普京不怕北约宣战了,14亿人口大国派兵俄罗斯,锆石击毁沿海目标

健身狂人
2025-09-19 11:19:38
辛柏青没想到,《731》上映仅1天,李乃文因一特殊举动口碑暴涨

辛柏青没想到,《731》上映仅1天,李乃文因一特殊举动口碑暴涨

凡知
2025-09-19 12:25:16
2025-09-19 16:23:00
AI科技评论 incentive-icons
AI科技评论
点评学术,服务AI
6929文章数 20685关注度
往期回顾 全部

科技要闻

直击iPhone 17开售:消费者偏爱银色橙色

头条要闻

中美元首被传今天将通话 外交部回应

头条要闻

中美元首被传今天将通话 外交部回应

体育要闻

不会短跑的牙买加人,集体跳槽土耳其

娱乐要闻

关晓彤生日 仅闫妮和化妆师撑场祝福?

财经要闻

"矿霸"填埋万吨危废 当地政府成立调查组

汽车要闻

对话周光:一个技术理想主义者的“蜕变”

态度原创

本地
房产
亲子
时尚
公开课

本地新闻

云游中国|谁懂!在天下第一关拍到史诗感大片

房产要闻

好猛!海南楼市,一批王炸楼盘杀出!

亲子要闻

为什么说:孩子是你轮回,未完的自己?

今秋这件“瘦瘦衫”必穿!巨in巨洋气,上身瘦十斤!

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版