网易首页 > 网易号 > 正文 申请入驻

AAAI 2026 Oral|LENS:基于统一强化推理的分割大模型

0
分享至



文本提示图像分割(Text-prompted image segmentation)是实现精细化视觉理解的关键技术,在人机交互、具身智能及机器人等前沿领域具有重大的战略意义。这项技术使机器能够根据自然语言指令,在复杂的视觉场景中定位并分割出任意目标。

然而,当前主流的技术路径,如基于监督式微调(Supervised Fine-Tuning, SFT)的方法,正面临着根本性的瓶颈。这些方法本质上是静态的模式匹配,虽然在特定数据集上表现优异,但其泛化能力往往受限,形成了一个难以逾越的 “能力天花板”。尤其是在处理需要多步、复杂推理的未知指令时,性能会显著下降,其根源在于 SFT 方法在训练中忽略了动态的、显式的推理过程。

为了 shatter 这一能力天花板,我们引入了 LENS(Learning to Segment Anything with Unified Reinforced Reasoning)框架。LENS 摒弃了静态的 SFT,转而采用端到端的强化学习(Reinforcement Learning, RL)机制,将高层次的 “思考” 过程(即思维链推理)与像素级的 “执行” 过程(即图像分割)进行动态的联合优化。通过这种设计,LENS 旨在赋予分割模型真正的、上下文感知的推理能力,从而在根本上提升其在复杂任务中的鲁棒性和泛化性。

本文将深入介绍一下我们 AAAI 荣获 Oral 的工作,“会思考的分割大模型 LENS”。有幸在这次 AAAI 2026 得到了审稿人们一致正面的评价,并被 AC 和 PC 一致同意推荐为 Oral 论文。



  • 论文标题:LENS: Learning to Segment Anything with Unified Reinforced Reasoning
  • 论文链接:https://arxiv.org/abs/2508.14153
  • 代码链接:https://github.com/hustvl/LENS

LENS 框架概览:推理与分割的协同进化

在这个工作中,我们研究了分割大模型领域的一大一小两个关键问题,大问题就是老生常谈的 “泛化能力”,传统分割大模型对未见过的提示和领域的泛化能力往往有限;小问题则是隐藏的 “信息瓶颈”,此前的分割大模型从 “大脑思考”(MLLM)到 “分割解码”(SAM)之间往往只通过单一的分割 Token 传递信息,存在隐形的 “信息输送瓶颈”。



LENS 框架的核心设计在于通过端到端的联合优化,彻底打破传统模型中 “思考”(推理)与 “执行”(分割)之间的信息壁垒。

以往的方法,例如同期的优秀工作 Seg-Zero,采用的是非端到端的设计,即先由推理模型生成边界框和点提示,再交由现成的(off-the-shelf)SAM 进行分割。这种分离式流程的主要缺陷在于误差的单向传播。这意味着像 Seg-Zero 这样的非端到端模型是根本上脆弱的;它们的性能上限被其初始猜测的准确性所锁定。一旦推理阶段的定位出现偏差,下游的分割模型将无法纠正,最终必然导致分割失败。相比之下,LENS 通过其端到端的反馈闭环,具备了即便从不完美的初步定位中也能自我纠正的能力。



LENS 的整体架构由三大核心组件构成,它们协同工作,实现了从高级语义理解到精确像素输出的无缝衔接:

  • 多模态大语言模型 (MLLM) - 推理核心:作为系统的 “大脑”,LENS 采用先进的 MLLM(如 Qwen2.5-VL-3B-Instruct)来处理输入的图像和文本指令。它负责生成详尽的思维链(Chain-of-Thought, CoT)推理过程,并给出一个初步的目标边界框。这一过程不仅是定位,更是对指令的深度理解。





  • 上下文模块 (Context Module) - 信息桥梁:这是 LENS 的关键创新,它充当了 MLLM 和分割模型之间的信息高速公路。该模块由一组可学习的上下文查询(Context Queries)和一个连接器(Connector)组成,其任务是将 MLLM 生成的丰富推理轨迹和定位信息,转化为分割模型能够高效利用的、信息密集的分割提示





  • 分割模型 (SAM-2) - 像素解码器:作为系统的 “双手”,LENS 采用高性能的分割模型(SAM2-Large)。它接收来自上下文模块的复杂指令,并结合原始图像信息,执行精准的像素级掩码生成任务,将推理结果精确地体现在图像上。

通过这种 “推理 - 桥接 - 分割” 三位一体的紧密耦合架构,LENS 实现了推理质量和分割精度的同步提升。这种设计使得最终的分割性能可以直接反作用于推理过程的优化,形成一个完整的闭环,为实现更高水平的通用分割能力奠定了基础。

LENS 框架同时在 “思考推理” 端也做出了改进,我们基于 Group Relative Policy Optimization(GRPO)方法构建了统一强化学习奖励机制(Unified Rewards Scheme)。该奖励机制是多维度的,同时监督以下三个层级的线索:

  1. 格式奖励(Format Reward):确保 MLLM 的输出(包括推理过程和定位结果)遵循预期的结构和格式一致性。
  2. 边界框 IoU 奖励(Box IoU Reward):衡量预测边界框与真实边界框之间的定位准确性。
  3. 分割掩码 IoU 奖励(Segment IoU Reward):评估像素级分割掩码的质量。



通过我们提出的联合优化(将统一的 GRPO 目标与监督分割损失相结合),LENS 能够从奖励驱动的推理改进和直接的分割监督中同时受益。值得一提的是,LENS 的端到端特性解决了定位错误(Grounding Error)向下游传播的问题,如上图右一右二所示,哪怕有些情况定位框是错的,强大的上下文查询(Context Query)也能带领分割模型走向正确。

性能评估与分析



核心结果方面,LENS 取得了文本提示分割任务的最先进性能(SoTA):LENS 在 RefCOCO 系列的基准测试中取得了 81.2% 的平均 cIoU,达到了世界最高水平。在 GroundingSuite-Eval 这类更具挑战性的零样本基准测试中,LENS 展现出卓越的域外泛化能力,cIoU 达到 78.3%,超越第二优方法接近 10%。



这些成果表明,LENS 这一类基于统一强化学习奖励驱动的 CoT 推理方法,能够显著提升文本提示下的分割能力。我们相信,LENS 为强化学习与视觉分割的无缝集成提供了新的思路,并有望推动更通用、更稳健的视觉 - 语言系统的研究。代码和预训练权重已开源(https://github.com/hustvl/LENS),感兴趣的朋友们欢迎研究和使用。我们也期待在 AAAI 2026 与学术界同行进行深入交流。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
公安局局长张安疆同志离世后,一个令人震惊的消息出现了!

公安局局长张安疆同志离世后,一个令人震惊的消息出现了!

李昕言温度空间
2026-05-11 21:53:03
先访华再访日?美方故技重施,中方斩钉截铁,特朗普能否来华?

先访华再访日?美方故技重施,中方斩钉截铁,特朗普能否来华?

赶山的姑娘
2026-05-11 22:42:50
俄罗斯无人机核心负责人科扎连科被捕!曾亲自向普京汇报

俄罗斯无人机核心负责人科扎连科被捕!曾亲自向普京汇报

项鹏飞
2026-05-11 20:08:25
一年用水量达400多吨 背后竟藏离奇谜案?

一年用水量达400多吨 背后竟藏离奇谜案?

环球网资讯
2026-05-11 19:19:57
日本人怒骂张本智和:和松岛辉空都是废物,户上直接被教练开骂

日本人怒骂张本智和:和松岛辉空都是废物,户上直接被教练开骂

童叔不飙车
2026-05-12 02:25:09
爸爸想把房子送给"干女儿"保姆 儿子扣房产证

爸爸想把房子送给"干女儿"保姆 儿子扣房产证

看看新闻Knews
2026-05-11 13:12:03
Here we go!罗马诺:弗里克和巴萨续约至2028年,含续约选项

Here we go!罗马诺:弗里克和巴萨续约至2028年,含续约选项

懂球帝
2026-05-11 21:20:18
坚决抵制!国际足联天价转播权被拒绝后,直接把中文从官网除名

坚决抵制!国际足联天价转播权被拒绝后,直接把中文从官网除名

南方健哥
2026-05-11 22:55:35
出乎所有人预料,特朗普修改访华计划,中方官宣,他必须多来一天

出乎所有人预料,特朗普修改访华计划,中方官宣,他必须多来一天

影孖看世界
2026-05-11 18:05:24
东北一男子养鹿破产,赌气放生了30头鹿,8年后上山,眼前一幕却让他泪崩了...

东北一男子养鹿破产,赌气放生了30头鹿,8年后上山,眼前一幕却让他泪崩了...

背包旅行
2026-05-11 14:51:09
瞒天过海,乌军奇袭俄军指挥部,克宫宣布亚美尼亚背叛组织

瞒天过海,乌军奇袭俄军指挥部,克宫宣布亚美尼亚背叛组织

史政先锋
2026-05-11 20:21:08
伟大的10-4!火箭变身克鲁斯堡8冠王,历史第1人,超越台球皇帝!

伟大的10-4!火箭变身克鲁斯堡8冠王,历史第1人,超越台球皇帝!

刘姚尧的文字城堡
2026-05-11 07:37:31
凌晨1点去复印试卷?17岁女学生深夜消失全网揪心,网友一针见血

凌晨1点去复印试卷?17岁女学生深夜消失全网揪心,网友一针见血

社会日日鲜
2026-05-11 11:02:28
好莱坞辣妈身材大赏,你能认出几位?

好莱坞辣妈身材大赏,你能认出几位?

影视情报室
2026-05-11 10:42:44
结婚登记169.7万对再创新低,算完结婚账,年轻人选择不签字!

结婚登记169.7万对再创新低,算完结婚账,年轻人选择不签字!

眼光很亮
2026-05-11 17:10:16
决定了!拒绝禁赛文班亚马!谢谢你,NBA!

决定了!拒绝禁赛文班亚马!谢谢你,NBA!

篮球实战宝典
2026-05-12 01:04:41
特朗普访华为什么多出了一天?

特朗普访华为什么多出了一天?

深度解析热点
2026-05-12 02:14:47
惊天乌龙!比特币暴跌至2美分,用户集体炸锅,有人狂买有人傻眼

惊天乌龙!比特币暴跌至2美分,用户集体炸锅,有人狂买有人傻眼

奔跑财经
2026-05-11 12:16:16
手机顶部出现这4个图标,马上关机!你的手机可能正在被人控制

手机顶部出现这4个图标,马上关机!你的手机可能正在被人控制

职场资深秘书
2026-05-10 13:51:21
肖华被架上火烤!联盟三大压力缠身,马刺森林狼天王山陷公平争议

肖华被架上火烤!联盟三大压力缠身,马刺森林狼天王山陷公平争议

田先生篮球
2026-05-11 12:46:48
2026-05-12 03:03:00
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12970文章数 142648关注度
往期回顾 全部

科技要闻

黄仁勋:你们赶上了一代人一次的大机会

头条要闻

母女二人一年用水量高达400多吨 警方发现背后隐情

头条要闻

母女二人一年用水量高达400多吨 警方发现背后隐情

体育要闻

梁靖崑:可能是最后一届了,想让大家记住这个我

娱乐要闻

“孕妇坠崖案”王暖暖称被霸凌协商解约

财经要闻

宗馥莉罢免销售负责人 部分业务将外包

汽车要闻

吉利银河“TT”申报图曝光 电动尾翼+激光雷达

态度原创

亲子
教育
本地
健康
房产

亲子要闻

你们都喜欢哪些科目啊?

教育要闻

特朗普访华对美国留学市场是利好吗?中国留美学生规模如何变化?

本地新闻

用苏绣的方式,打开江西婺源

干细胞能让人“返老还童”吗

房产要闻

产业赋能教育!翰林府与北师大的这场签约,绝不那么简单!

无障碍浏览 进入关怀版