网易首页 > 网易号 > 正文 申请入驻

AAAI 2025丨2080Ti 也能 4K 图像抠图 !美图&北交大提出超高分辨率自然图像抠图算法 MEMatte

0
分享至

显存友好的自然图像抠图框架用于在显存受限的场景下(如商用显卡与边缘设备)进行高清图像的精细抠图。

日前,美图影像研究院(MT Lab)联合北京交通大学提出了超高分辨率抠图方法MEMatte (MemoryEfficient),一个显存友好的自然图像抠图框架用于在显存受限的场景下(如商用显卡与边缘设备)进行高清图像的精细抠图。文章已被人工智能顶会 AAAI 2025 接收。

随着摄影设备的性能升级,我们在日常采集到的图像分辨率已经能达到4K乃至8K,这种高分辨率图像有着更好的视觉质感与更丰富的细节内容。而自然图像抠图方法相比于一般的分割方法更善于区分细节充实的场景,因此适用于更复杂的下游任务诸如图像与视频的后期编辑。

当前Transformer (ViT) 为自然图像抠图方法带来了显著的性能提升,这种提升来自于全局注意力模块对图像内容的长程建模能力。然而,基于ViT的抠图方法在计算资源受限的场景下无法处理高分辨率图像,因为ViT内部的全局注意力会产生次方倍的计算开销。此外,抠图任务的特性要求输入能同时保留清晰图像中的细节信息与完整图像中的语义信息,因此无法采用降采样或图像切片等手段来降低模型输入的图像尺寸。这些限制条件要求我们在维持图像输入大小的前提下降低全局注意力对计算资源的消耗。

过往的解决方案包括令牌剪枝与令牌融合,这些方法都需要在模型的不同层以固定比例逐渐丢弃冗余令牌。但是这类方法存在两种缺陷:

(1)丢弃令牌会导致抠图效果显著变差,因为被丢弃的令牌中存在着需要被保留的细节信息;

(2)预设固定的丢弃比例无法适应不同的输入,对于复杂样例丢弃过多信息会导致精度下降,而对于简单样例则依然存在计算冗余。

为了解决上述问题,研究团队提出的MEMatte采用了双分支的令牌路由设计。该设计的核心思想是将包含语义信息的令牌送入全局注意力模块进行处理,并且将其余令牌送入精心设计的轻量化令牌提炼模块 (Light-weight Token Refinement Module, LTRM) 进行处理。令牌的分流是通过动态路由机制 (Batch-constrained Adaptive Token Routing, BATR)进行筛选,在推理时无需预设固定的比例,因此能够输入自适应地进行调整。这一设计显著降低了模型的计算开销,并在Nvidia GeForce 2080Ti 商用 GPU上实现了4K分辨率图像抠图。此外,研究团队还开源了超高分辨率自然图像抠图数据集UHR-395 (Ultra High Resolution dataset),用于高分辨率模型的训练与评估。

MEMatte方法与已有方法在不同分辨率的显存消耗对比对比

UHR-395数据集与其它开源抠图数据集的输入下UHR-395有着最高的平均分辨率

1

方法

在推理过程中,MEMatte的ViT编码器内部的每一个全局注意力模块前都存在一个路由器 (Router)。这个路由器通过局部-全局策略为全局注意力进行令牌重要性评估。该策略对每层的图像输入进行重新映射以及通道拆分后的全局池化操作来兼顾局部与全局信息。此后通过LogSoftmax (LS)操作形成令牌的分流结果。

Router 将分流到全局注意力之外的令牌送入 LTRM 进行处理。LTRM 由数个轻量化组建构成,其中包括两组映射层。此外,深度卷积 (Depth-Wise Convolution, DWC) 层处理局部空间信息,高效通道注意力层 (Efficient Channel Attention, ECA) 处理全局特征信息。

在训练MEMatte时,研究团队采用 BATR 的训练机制,搭配蒸馏学习策略与常规抠图训练损失,实现快速且平稳的模型训练,在训练过程中,假定从数据分布中均匀地采样,则每次的压缩比例应当为一个定值。基于这项假设, BATR 为模型预设了分流比例 来约束模型预测的批次平均分流比例,定义批次平均分流比例 为如下形式:

通过约束模型的预测值与预设值的差异,训练出足够有效的 Router 以自适应的处理各种图像。

MEMatte的训练与推理流程

2

试验结果

实验结果表明,MEMatte在现有的基准以及UHR-395的高分辨率测试集上都领先于过去的方法,并在域外测试集上展现了良好的泛化性能。此外,在抠图测试集Composition-1K上,MEMatte相比于其baseline节省了约88%的显存开销,并降低了约50%的推理时间。

MEMatte与过往方法在通用抠图基准上的比较

MEMatte与过往方法在UHR-395高分辨率测试集上的比较

在高分辨率图像上的抠图效果

研究图案对 Router 分流结果的可视化结果展示了MEMatte在不同的全局注意力层对令牌的选择倾向。MeMatte使中间的自注意力层主要关注物体边缘与细区域的复杂区域,同时避免了令牌通过ViT浅层的自注意力操作,这大幅提高了输入自注意力层的令牌稀疏性。

对Router分流结果的可视化,其中灰色区域是分流向 LTRM 的令牌

3

超高分辨率自然图像抠图数据集

目前公开的抠图数据集难以作为高分辨率抠图的基准,因为它们无法同时兼顾类别多样性和高分辨率。为了解决这一问题,研究团队提出了一个超高分辨率自然抠图数据集UHR-395。该数据集包含11个类别,共395个前景物体,划分为训练集355张以及测试集40张,平均分辨率高达4872×6017。

前景类别分布

图像分辨率分布

为确保标注数据的高质量,每个前景物体的标注结果都通过多轮严格的审核机制,并由抠图领域专家进行最后确认,不合格标注结果均被返回进行重新修正,最终获得高质量的自然图像抠图标注数据。

标注结果展示

4

结语

超高分辨率的自然图像抠图方法对实现复杂图像编辑与视频后期处理等下游任务而言至关重要,在本研究中,来自美图影像研究院(MT Lab)和北京交通大学的研究人员共同提出了 MEMatte 和超高分辨率数据集 UHR-395。与现有的抠图方法相比,采用MEMatte 能够显著降低推理过程中的内存使用量和延迟,在高分辨率和真实世界数据集上实现了最先进的性能,突出了令牌路由机制 BATR和 轻量化令牌细化模块 LTRM 的稳健性,为美图的图像与视频处理能力提供高性能且灵活的技术支撑,为用户带来高效优质使用体验。此外, MEMatte 也有望促进高分辨率抠图的进一步研究。

更多内容,点击下方关注:

未经「AI科技评论」授权,严禁以任何方式在网页、论坛、社区进行转载!

公众号转载请先在「AI科技评论」后台留言取得授权,转载时需标注来源并插入本公众号名片。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
3-2!张本智和险爆冷!温瑞博受宠赢球!国乒4大教练现场助威!

3-2!张本智和险爆冷!温瑞博受宠赢球!国乒4大教练现场助威!

好乒乓
2026-03-11 12:27:02
伊朗女足已乘飞机回国!登机时痛哭,至少1人拒离开+2人最终留守

伊朗女足已乘飞机回国!登机时痛哭,至少1人拒离开+2人最终留守

二疯说球
2026-03-11 08:11:58
山西王阎锡山的妹妹,没来得及跟哥哥逃到台湾,她的结局如何?

山西王阎锡山的妹妹,没来得及跟哥哥逃到台湾,她的结局如何?

老范谈史
2026-03-03 17:43:41
曼城的痛:26岁阿尔瓦雷斯满分10分+MVP!双响+妙传,导演马竞5-2

曼城的痛:26岁阿尔瓦雷斯满分10分+MVP!双响+妙传,导演马竞5-2

侧身凌空斩
2026-03-11 06:36:49
住家保姆喝光雇主六瓶52年茅台,雇主没让她赔钱,一句话让她崩溃

住家保姆喝光雇主六瓶52年茅台,雇主没让她赔钱,一句话让她崩溃

民间精选故事汇
2026-03-10 17:59:56
“湖南一对老夫妻双双129岁相恋100年”视频引热议 当地回应:境内无如此高龄老人

“湖南一对老夫妻双双129岁相恋100年”视频引热议 当地回应:境内无如此高龄老人

极目新闻
2026-03-10 19:17:59
川音“淫魔”校长:88名女音乐教师,霸占87人,细节曝光不堪入目

川音“淫魔”校长:88名女音乐教师,霸占87人,细节曝光不堪入目

就一点
2026-03-08 10:54:42
纪实 老人狂扇未让座小伙4个耳光后猝死,家属索赔50万,法院判了

纪实 老人狂扇未让座小伙4个耳光后猝死,家属索赔50万,法院判了

谈史论天地
2026-02-19 15:41:31
被李彦宏定调为“All in AI”的百度,跌掉了1000亿

被李彦宏定调为“All in AI”的百度,跌掉了1000亿

奇点湃
2026-03-09 13:36:40
你见过哪些闷声发大财的人?网友:干这个买三套房子,两个门面

你见过哪些闷声发大财的人?网友:干这个买三套房子,两个门面

夜深爱杂谈
2026-02-01 18:57:04
央视直播!中国女篮VS马里,首发更新,张子宇第一次参加国际大赛

央视直播!中国女篮VS马里,首发更新,张子宇第一次参加国际大赛

北纬的咖啡豆
2026-03-11 12:29:40
黄干宗“压寨丈夫” 十三年,那些妇女光着上身,一点不避讳生人

黄干宗“压寨丈夫” 十三年,那些妇女光着上身,一点不避讳生人

蜉蝣说
2025-09-26 10:54:24
走路=续命!研究:每天2小时步行量,让预期寿命直接+11年

走路=续命!研究:每天2小时步行量,让预期寿命直接+11年

时光派健康抗衰
2026-01-13 16:51:51
四十六岁殷桃晒网球照,没修图没滤镜,球鞋带灰却美到骨子里

四十六岁殷桃晒网球照,没修图没滤镜,球鞋带灰却美到骨子里

手工制作阿歼
2026-03-11 15:53:53
特朗普要溜?这一次绝不能让美国轻易地跑了!

特朗普要溜?这一次绝不能让美国轻易地跑了!

李光满说
2026-03-10 15:03:03
张学良谈戴笠之死:他不风流,独好有丈夫的胡蝶,也死在了她手上

张学良谈戴笠之死:他不风流,独好有丈夫的胡蝶,也死在了她手上

王発吃吃喝喝
2026-03-11 10:38:35
巴塞罗那梦碎:阿尔瓦雷斯在击败热刺后承认对马德里竞技很满意

巴塞罗那梦碎:阿尔瓦雷斯在击败热刺后承认对马德里竞技很满意

本泽体育
2026-03-11 09:12:04
为了给前NBA状元霍华德生孩子,篮球宝贝壮壮究竟付出了多大代价

为了给前NBA状元霍华德生孩子,篮球宝贝壮壮究竟付出了多大代价

罗氏八卦
2026-03-10 18:00:03
价值5亿的深圳同安大厦,为何被黑恶势力长期霸占长达10年?

价值5亿的深圳同安大厦,为何被黑恶势力长期霸占长达10年?

微评社
2026-03-10 10:58:37
儿子问我“伊朗为什么总在打仗?”我给他看了这个9岁女孩的故事

儿子问我“伊朗为什么总在打仗?”我给他看了这个9岁女孩的故事

妈咪OK
2026-03-09 10:48:52
2026-03-11 16:43:00
AI科技评论 incentive-icons
AI科技评论
点评学术,服务AI
7111文章数 20739关注度
往期回顾 全部

科技要闻

腾讯急了急了,微信绝密AI智能体首度曝光

头条要闻

博纳影业于冬被澳门永利追讨473万港元 起诉书披露

头条要闻

博纳影业于冬被澳门永利追讨473万港元 起诉书披露

体育要闻

郭艾伦重伤,CBA下半赛季还能期待些什么

娱乐要闻

杨幂连续五年为刘诗诗庆生,刘诗诗回应

财经要闻

油价大转头?一天,从末日到曙光!

汽车要闻

莲花纠偏, 冯擎峰的“收”与“守”

态度原创

手机
游戏
艺术
旅游
军事航空

手机要闻

消息称iPhone 18 Pro系列或复用前代模具,屏下Face ID延期至下代

男有彦祖女有亦菲?曝《三角洲》将联动刘亦菲

艺术要闻

这组剪纸太美了!

旅游要闻

“税动力”激活云南入境游发展新引擎

军事要闻

朝鲜"崔贤"号驱逐舰进行战略巡航导弹试射

无障碍浏览 进入关怀版