网易首页 > 网易号 > 正文 申请入驻

AAAI 2026 Oral|LENS:基于统一强化推理的分割大模型

0
分享至



文本提示图像分割(Text-prompted image segmentation)是实现精细化视觉理解的关键技术,在人机交互、具身智能及机器人等前沿领域具有重大的战略意义。这项技术使机器能够根据自然语言指令,在复杂的视觉场景中定位并分割出任意目标。

然而,当前主流的技术路径,如基于监督式微调(Supervised Fine-Tuning, SFT)的方法,正面临着根本性的瓶颈。这些方法本质上是静态的模式匹配,虽然在特定数据集上表现优异,但其泛化能力往往受限,形成了一个难以逾越的 “能力天花板”。尤其是在处理需要多步、复杂推理的未知指令时,性能会显著下降,其根源在于 SFT 方法在训练中忽略了动态的、显式的推理过程。

为了 shatter 这一能力天花板,我们引入了 LENS(Learning to Segment Anything with Unified Reinforced Reasoning)框架。LENS 摒弃了静态的 SFT,转而采用端到端的强化学习(Reinforcement Learning, RL)机制,将高层次的 “思考” 过程(即思维链推理)与像素级的 “执行” 过程(即图像分割)进行动态的联合优化。通过这种设计,LENS 旨在赋予分割模型真正的、上下文感知的推理能力,从而在根本上提升其在复杂任务中的鲁棒性和泛化性。

本文将深入介绍一下我们 AAAI 荣获 Oral 的工作,“会思考的分割大模型 LENS”。有幸在这次 AAAI 2026 得到了审稿人们一致正面的评价,并被 AC 和 PC 一致同意推荐为 Oral 论文。



  • 论文标题:LENS: Learning to Segment Anything with Unified Reinforced Reasoning
  • 论文链接:https://arxiv.org/abs/2508.14153
  • 代码链接:https://github.com/hustvl/LENS

LENS 框架概览:推理与分割的协同进化

在这个工作中,我们研究了分割大模型领域的一大一小两个关键问题,大问题就是老生常谈的 “泛化能力”,传统分割大模型对未见过的提示和领域的泛化能力往往有限;小问题则是隐藏的 “信息瓶颈”,此前的分割大模型从 “大脑思考”(MLLM)到 “分割解码”(SAM)之间往往只通过单一的分割 Token 传递信息,存在隐形的 “信息输送瓶颈”。



LENS 框架的核心设计在于通过端到端的联合优化,彻底打破传统模型中 “思考”(推理)与 “执行”(分割)之间的信息壁垒。

以往的方法,例如同期的优秀工作 Seg-Zero,采用的是非端到端的设计,即先由推理模型生成边界框和点提示,再交由现成的(off-the-shelf)SAM 进行分割。这种分离式流程的主要缺陷在于误差的单向传播。这意味着像 Seg-Zero 这样的非端到端模型是根本上脆弱的;它们的性能上限被其初始猜测的准确性所锁定。一旦推理阶段的定位出现偏差,下游的分割模型将无法纠正,最终必然导致分割失败。相比之下,LENS 通过其端到端的反馈闭环,具备了即便从不完美的初步定位中也能自我纠正的能力。



LENS 的整体架构由三大核心组件构成,它们协同工作,实现了从高级语义理解到精确像素输出的无缝衔接:

  • 多模态大语言模型 (MLLM) - 推理核心:作为系统的 “大脑”,LENS 采用先进的 MLLM(如 Qwen2.5-VL-3B-Instruct)来处理输入的图像和文本指令。它负责生成详尽的思维链(Chain-of-Thought, CoT)推理过程,并给出一个初步的目标边界框。这一过程不仅是定位,更是对指令的深度理解。





  • 上下文模块 (Context Module) - 信息桥梁:这是 LENS 的关键创新,它充当了 MLLM 和分割模型之间的信息高速公路。该模块由一组可学习的上下文查询(Context Queries)和一个连接器(Connector)组成,其任务是将 MLLM 生成的丰富推理轨迹和定位信息,转化为分割模型能够高效利用的、信息密集的分割提示





  • 分割模型 (SAM-2) - 像素解码器:作为系统的 “双手”,LENS 采用高性能的分割模型(SAM2-Large)。它接收来自上下文模块的复杂指令,并结合原始图像信息,执行精准的像素级掩码生成任务,将推理结果精确地体现在图像上。

通过这种 “推理 - 桥接 - 分割” 三位一体的紧密耦合架构,LENS 实现了推理质量和分割精度的同步提升。这种设计使得最终的分割性能可以直接反作用于推理过程的优化,形成一个完整的闭环,为实现更高水平的通用分割能力奠定了基础。

LENS 框架同时在 “思考推理” 端也做出了改进,我们基于 Group Relative Policy Optimization(GRPO)方法构建了统一强化学习奖励机制(Unified Rewards Scheme)。该奖励机制是多维度的,同时监督以下三个层级的线索:

  1. 格式奖励(Format Reward):确保 MLLM 的输出(包括推理过程和定位结果)遵循预期的结构和格式一致性。
  2. 边界框 IoU 奖励(Box IoU Reward):衡量预测边界框与真实边界框之间的定位准确性。
  3. 分割掩码 IoU 奖励(Segment IoU Reward):评估像素级分割掩码的质量。



通过我们提出的联合优化(将统一的 GRPO 目标与监督分割损失相结合),LENS 能够从奖励驱动的推理改进和直接的分割监督中同时受益。值得一提的是,LENS 的端到端特性解决了定位错误(Grounding Error)向下游传播的问题,如上图右一右二所示,哪怕有些情况定位框是错的,强大的上下文查询(Context Query)也能带领分割模型走向正确。

性能评估与分析



核心结果方面,LENS 取得了文本提示分割任务的最先进性能(SoTA):LENS 在 RefCOCO 系列的基准测试中取得了 81.2% 的平均 cIoU,达到了世界最高水平。在 GroundingSuite-Eval 这类更具挑战性的零样本基准测试中,LENS 展现出卓越的域外泛化能力,cIoU 达到 78.3%,超越第二优方法接近 10%。



这些成果表明,LENS 这一类基于统一强化学习奖励驱动的 CoT 推理方法,能够显著提升文本提示下的分割能力。我们相信,LENS 为强化学习与视觉分割的无缝集成提供了新的思路,并有望推动更通用、更稳健的视觉 - 语言系统的研究。代码和预训练权重已开源(https://github.com/hustvl/LENS),感兴趣的朋友们欢迎研究和使用。我们也期待在 AAAI 2026 与学术界同行进行深入交流。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
还等啥枪城决?曼城夺冠几率只剩7%别只怪裁判

还等啥枪城决?曼城夺冠几率只剩7%别只怪裁判

体坛周报
2026-03-05 13:03:43
古德温被困卡塔尔想回上海,自有迂回欧洲方案,绕道返程别影响球队比赛奖金也不能白搭

古德温被困卡塔尔想回上海,自有迂回欧洲方案,绕道返程别影响球队比赛奖金也不能白搭

夕落秋山
2026-03-05 07:06:39
西贝彻底摆烂了?缓发工资+强制待岗,打工人看完天塌了

西贝彻底摆烂了?缓发工资+强制待岗,打工人看完天塌了

雷科技
2026-03-04 16:04:01
斯普利特:我们下半场展现出了韧性,但还有很多错误需要调整

斯普利特:我们下半场展现出了韧性,但还有很多错误需要调整

懂球帝
2026-03-05 13:19:30
刚切断石油海峡,德黑兰就给了中国独一份待遇,差点骗过全世界?

刚切断石油海峡,德黑兰就给了中国独一份待遇,差点骗过全世界?

阿芒娱乐说
2026-03-05 12:41:06
半导体重大突破!人类首次观察到芯片内部“鼠咬”缺陷

半导体重大突破!人类首次观察到芯片内部“鼠咬”缺陷

快科技
2026-03-04 12:50:11
多位明星被困中东,机票飙至550万一张?刘德华的话,终于应验了

多位明星被困中东,机票飙至550万一张?刘德华的话,终于应验了

壹月情感
2026-03-03 21:59:20
海湾国家电话求援,中国终于出手,避免变成第六次中东战争

海湾国家电话求援,中国终于出手,避免变成第六次中东战争

石江月
2026-03-05 13:12:35
新乡一对夫妻上一秒在聊天,下一秒丈夫身体不适去世,逝者儿子:父亲63岁,突发心梗

新乡一对夫妻上一秒在聊天,下一秒丈夫身体不适去世,逝者儿子:父亲63岁,突发心梗

潇湘晨报
2026-03-04 16:33:11
大涨11%!韩国股市熔断!

大涨11%!韩国股市熔断!

证券时报
2026-03-05 08:51:02
3月5日人民币对美元中间价调升117个基点

3月5日人民币对美元中间价调升117个基点

证券时报
2026-03-05 09:43:02
亚洲杯首场绝杀!中国女足2-1胜,4黄17犯规肉搏战

亚洲杯首场绝杀!中国女足2-1胜,4黄17犯规肉搏战

老牛体育解说
2026-03-04 22:25:14
城乡居民基础养老金月最低标准三连增 进入“小步快跑”阶段

城乡居民基础养老金月最低标准三连增 进入“小步快跑”阶段

中国青年报
2026-03-05 11:00:05
电车内幕,速成车之外,2.6吨车身但最大载重量仅有375公斤

电车内幕,速成车之外,2.6吨车身但最大载重量仅有375公斤

柏铭锐谈
2026-03-03 17:59:13
开战4天,中国卫星看到的美以损失情况如何?美国还能坚持多久?

开战4天,中国卫星看到的美以损失情况如何?美国还能坚持多久?

罗富强说
2026-03-04 14:46:02
随着罗德里戈重伤,已有10大巨星无缘世界杯!姆巴佩最新伤情曝光

随着罗德里戈重伤,已有10大巨星无缘世界杯!姆巴佩最新伤情曝光

球场没跑道
2026-03-04 13:28:02
马筱梅生娃汪家忙翻,全网骂的却不是张兰,是陪了十年的小杨阿姨

马筱梅生娃汪家忙翻,全网骂的却不是张兰,是陪了十年的小杨阿姨

老吴教育课堂
2026-03-04 17:00:03
霍尔木兹海峡切断不到24小时,后果已经显现,3个原因让中国不慌

霍尔木兹海峡切断不到24小时,后果已经显现,3个原因让中国不慌

说故事的阿袭
2026-03-04 21:25:31
伊朗军舰遭美潜艇击沉,印度网友羞愧不已:这是印度的巨大耻辱

伊朗军舰遭美潜艇击沉,印度网友羞愧不已:这是印度的巨大耻辱

谛听骨语本尊
2026-03-05 13:15:18
定居香港的舅舅回大陆,炫耀自己住80平豪宅,我:舅舅去我家看看?

定居香港的舅舅回大陆,炫耀自己住80平豪宅,我:舅舅去我家看看?

萧竹轻语
2025-06-26 18:09:53
2026-03-05 13:51:00
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12411文章数 142578关注度
往期回顾 全部

科技要闻

阿里内部邮件回应:批准林俊旸辞职

头条要闻

伊朗女校遭袭被传是"伊朗误炸" 媒体核查

头条要闻

伊朗女校遭袭被传是"伊朗误炸" 媒体核查

体育要闻

2026年中超,为什么值得你多看一眼?

娱乐要闻

谢娜下场撕薛之谦,张杰前女友爆猛料

财经要闻

“十五五”开局之年,这么干!

汽车要闻

鸿蒙智行首款猎装车 尚界Z7/Z7T首发

态度原创

教育
亲子
家居
游戏
公开课

教育要闻

直播预约|新学期,一招稳住孩子的成绩和心态

亲子要闻

学前一年免费教育惠及1400万儿童,育儿补贴惠及3000多万婴幼儿

家居要闻

奶白柔境 闲卧享时光

刺客信条真人剧更多消息在路上了!不必等太久

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版