网易首页 > 网易号 > 正文 申请入驻

BIGAI & 中科大团队提出 MILR: 测试时隐空间推理,让图像生成学会「边想边改」丨ICLR 2026

0
分享至


MILR通过在统一图文潜在空间中进行推理时隐空间推理,在不更新模型参数的情况下同时优化文本和图像表示,显著提升复杂图像生成能力。


图1 MILR的隐空间推理过程。黑色实线表示提取待优化的文本和图像的隐层向量,黑色虚线表示从优化后的潜在向量解码生成结果。

近年来,图像生成经历了从 GAN 到 Diffusion,再到统一多模态模型(MUG, Multimodal Understanding and Generation)的快速发展。然而,大多数图像生成模型仍采用“单次生成”的范式:给定文本指令后直接生成图像,缺乏像大语言模型那样在测试时进行反思、修正和推理的能力。相比之下,大语言模型已经通过推理机制在复杂任务上展现出显著提升。一个自然的问题随之出现:图像生成模型是否也可以在生成过程中进行“推理式改进”?

围绕这一问题,已有工作主要沿着两个方向展开:

1. 在语言空间进行推理:通过改写、扩展或反思 prompt,帮助模型更好地理解用户指令,例如 Reprompt、Reflect-DiT 等方法;

2. 在图像空间进行搜索与筛选:通过多次生成候选图像,并借助评价器或反馈机制选择更优结果,例如 Best-of-N、PARM 或反思式生成方法。

但这些方法通常存在以下局限:

  • 推理发生在单一模态(文本或图像),难以实现文本理解与视觉生成之间的协同。

  • 依赖额外推理数据或重新训练模型,开发成本较高。

  • 计算开销较大,但更多是外部搜索或筛选,并未真正形成模型内部的跨模态推理机制。

为了解决这一问题,来自中国科学技术大学、北京通用人工智能研究院、北京大学、清华大学和 UCLA 的研究团队提出了MILR(Multimodal Image generation via test-time Latent Reasoning)。这项工作的核心问题是:能否不重新训练模型,也不依赖额外推理数据,只在生成时让模型多“想”几步?MILR 通过在测试阶段优化图文统一隐空间 (Latent Space),直接调整模型内部的图文表示,在不更新参数的前提下改进文本理解与图像结构,从而显著提升复杂指令下的图像生成能力。该论文已被ICLR 2026接收。


论文链接:https://arxiv.org/abs/2509.22761

论文主页:https://spatigen.github.io/milr.io/

论文代码:https://github.com/spatigen/milr

01

统一隐空间多模态联合推理

MILR 的核心想法很特别:它不直接在文本上推理,也不直接在像素图像上推理,而是在模型内部的统一图文隐空间里推理。可以把图像生成模型想象成一个从文字到图像的复杂流水线。用户输入一句话后,模型会先把文字转成内部表示,再逐步生成图像 token,最后解码成图片。传统方法通常只关注输入和输出:要么改输入 prompt,要么比较输出图片。但 MILR 关注的是中间过程,也就是模型内部那些同时承载文字和图像信息的向量表示。

在统一多模态生成模型(例如Janus-Pro)中,文本 token 和图像 token 都可以被映射到同一个潜在向量空间。MILR 认为这个空间本身就可以成为“推理发生的地方”。也就是说,模型不必显式写出一长串推理过程,也不必盲目生成很多候选图,而是可以在内部连续表示上进行优化,让文本理解和图像结构一起被调整。

论文中将这一过程称为test-time latent reasoning,也就是测试时隐空间推理。它只在推理阶段发生,不改变模型参数。换句话说,MILR 不是重新训练一个更大的模型,而是在已有模型生成图片时,对中间潜在表示进行几轮优化。论文明确指出,梯度只回传到跨模态隐层表示中,也就是模型最后一层的向量中,而不会更新模型权重,因此它是一种真正的test-time推理方法。MILR的方法如图2所示。


图2 MILR框架图。MILR 在统一隐空间中进行测试时隐空间推理;在奖励模型的指导下,它使用策略梯度方法迭代优化文本和图像的潜在表示。奖励模型会根据给定指令对每次生成的图像进行评分。

02


用奖励信号指导生成,让模型知道哪里需要变好

那么,模型怎么知道自己应该往哪个方向调整?MILR 使用了一个图像质量或图文一致性评价信号作为 reward。简单理解,就是模型先根据当前潜在表示生成图像,再由评价器判断这张图和原始指令是否匹配。如果奖励更高,说明当前方向更好;如果奖励较低,就继续调整潜在表示。技术上,MILR 使用梯度下降REFORENCE算法来优化图文 token 的向量表征。它不是在离散 token 空间中暴力搜索,而是在连续隐空间中寻找更好的表示。这样做有一个直接好处:连续空间更适合梯度优化,也更容易同时调整文本理解和视觉结构。

论文中还特别强调,MILR 不是把所有 token 都一股脑拿来优化。对于文本部分,它只优化一部分前缀 token;对于图像部分,也只优化少量早期 token。这样做是因为早期图像 token 往往决定整体结构,而后续 token 更多影响细节。实验中,研究团队发现优化约 20% 的文本 token 和约 2% 的图像 token,就能取得较好的效果,如图3所示。这也让 MILR 更像是在生成前先调整“思路”和“构图骨架”,而不是事后修修补补。


图3 不同文本和图像优化比例下的 GenEval 得分。

03


测试性能达到 SOTA,复杂推理任务提升明显

为了验证 MILR 的效果,研究团队在三个常用图像生成基准上进行了测试:GenEval、T2I-CompBench 和 WISE。结果显示,MILR 在三个基准上都取得了最优表现,在GenEval、T2I-CompBench 和 WISE 上均达到SOTA,如表1,表2所示。



在 GenEval 上,MILR 对 Janus-Pro-7B 的提升尤其明显。论文结果显示,Janus-Pro-7B 原始整体分数为 0.78,加入 MILR 后提升到 0.95;其中 Counting 从 0.56 提升到 0.90,Position 从 0.77 提升到 0.98,Attribute Binding 从 0.64 提升到 0.91。这些指标对应的正是图像生成里最容易出错的部分:数量、位置和属性。比如,模型需要知道“三个球”到底是三个,不是两个或四个;需要知道“物体 A 在物体 B 上方”这样的空间关系;还需要把颜色、材质、形状正确绑定到对应对象上。这些能力不是单纯提高图片清晰度就能解决的,而是更接近“理解指令再生成”。 在 T2I-CompBench 和 WISE 上,MILR 同样超过了多种非推理模型、训练式推理模型和测试时推理方法。特别是在 WISE 中,MILR 对 base Janus-Pro-7B 的提升达到 80%,也超过了强训练式方法 T2I-R1。研究人员同时做了样例分析如图4所示,说明了MILR的有效性。


图4 MILR定性比较分析。

04


MILR的Test Time Scaling和奖励模型分析

MILR 的一个重要特点,是可以通过增加测试时计算来提升生成效果。模型不再只是一次性生成图片,而是在潜在空间里进行多轮优化,每多走一步,就多一次修正内部表示的机会。


图5 不同优化步数下,模型在三个基准上的性能表现。

研究团队分析了最大优化步数的影响,结果如图5所示。结果显示,随着优化步数增加,MILR 在多个基准上的表现持续提升,并在约 16 步后逐渐趋于稳定,说明图像生成模型确实可以从测试时计算扩展中受益。

另一方面,MILR 还需要 reward model 来判断生成图像是否更符合指令。直观来说,reward model 就像一个评分器,告诉模型当前生成结果是变好了还是变差了。在标准 benchmark 上,研究团队可以使用 evaluator 作为 OracleReward;但在真实应用中,往往不存在这样一个完美的“标准答案评分器”。因此,论文进一步测试了多种现成 reward model,包括 SelfReward、GPT-4o、UnifiedReward 和 MixedReward,结果如图6所示。


图6 :使用不同奖励模型时,模型在 GenEval 上的性能表现。

实验结果显示,OracleReward 仍然取得最强表现,这并不意外;但更关键的是,即使使用非 oracle reward model,MILR 的整体表现仍然超过 baseline。在非 oracle 设置下,MixedReward 表现最好,说明当没有完美评价器时,组合多个专用 critic 仍然可以构建出较强的通用奖励信号。更值得注意的是,在计算量相当的条件下,MILR + MixedReward 仍然优于 Best-of-N + MixedReward。这说明 MILR 的提升并不只是因为“试了更多次”,而是因为它在模型内部的图文潜在空间中进行了更主动、更结构化的推理式优化。

05


未来方向:从“生成图片”走向“推理生成”

当然,MILR 仍然有进一步拓展空间。

1. 当前工作主要基于自回归式统一多模态生成模型实现,而未来一个自然方向,是将这种测试时潜在推理机制扩展到 diffusion-based 多模态模型中。

2. 与此同时,reward model 仍然是影响 MILR 表现的关键因素。在真实应用中很难获得完美 reward,因此设计更通用、更可靠的奖励模型,将是未来提升这类方法的重要方向。

3.除此之外,MILR 也为图像生成模型接入外部知识、世界模型或工具系统提供了新的想象空间。由于它优化的是统一图文潜在表示,未来有望更自然地融合结构化知识、物理约束、空间关系和文化常识。由此看,MILR 的意义不只是提升 benchmark 分数,更在于提出了一条从“一次性作图”走向“测试时推理生成”的新路径。

因此,未来我们不仅要关注模型是否能生成更逼真的图像、说出更流畅的解释,还要进一步追问,它是否能够在图像空间中完成规划、维持约束、形成推理。

06


作者


米亚鹏,论文第一作者,就读于中国科学技术大学博士一年级。其主要研究方向为多模态理解与生成、智能体,围绕多模态模型、智能体决策与生成式模型等方向在 ICLR、NeurIPS 等国际顶级会议发表论文。现师从王杰老师攻读博士学位。

——本篇文章论文作者拥有所有权,转载请联系论文作者

未经「AI科技评论」授权,严禁以任何方式在网页、论坛、社区进行转载!

公众号转载请先在「AI科技评论」后台留言取得授权,转载时需标注来源并插入本公众号名片。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
一块H200芯片都没卖出去!黄仁勋不装了:中国不应获得最先进芯片

一块H200芯片都没卖出去!黄仁勋不装了:中国不应获得最先进芯片

混沌录
2026-05-06 16:51:09
波波锦囊奏效!森林狼狂输38分创队史最差 落后47分华子仍笑嘻嘻

波波锦囊奏效!森林狼狂输38分创队史最差 落后47分华子仍笑嘻嘻

醉卧浮生
2026-05-07 12:46:36
突发!再见了,恩比德!

突发!再见了,恩比德!

技巧君侃球
2026-05-07 03:21:36
CCTV直播!国乒双线战韩国冲四强,日本男团恐爆冷出局!世乒赛5月7日赛程公布!

CCTV直播!国乒双线战韩国冲四强,日本男团恐爆冷出局!世乒赛5月7日赛程公布!

好乒乓
2026-05-07 13:00:46
魏征告老还乡,半路被山贼抢劫,他只问了一句,山贼吓得当场下跪

魏征告老还乡,半路被山贼抢劫,他只问了一句,山贼吓得当场下跪

史行途
2026-05-06 21:47:13
热搜!钟丽缇女儿发浴室自拍照没打码,导致同学坐马桶画面流出

热搜!钟丽缇女儿发浴室自拍照没打码,导致同学坐马桶画面流出

丫头舫
2026-05-06 10:12:55
44岁前国脚9年前突发脑溢血,透露近况,每天学走路努力康复

44岁前国脚9年前突发脑溢血,透露近况,每天学走路努力康复

米修体育
2026-05-06 23:59:56
不少人还在天天拔插头!供电局点明:这三种家电不拔更省电

不少人还在天天拔插头!供电局点明:这三种家电不拔更省电

小兔子发现大事情
2026-05-07 09:35:32
第1现场|汉坦病毒涉疫邮轮确诊数升至8例,首发夫妇感染轨迹曝光

第1现场|汉坦病毒涉疫邮轮确诊数升至8例,首发夫妇感染轨迹曝光

澎湃新闻
2026-05-07 17:54:28
被活埋夫妻遗体找到!家境惨到让人落泪,当地人曝料:出事有预兆

被活埋夫妻遗体找到!家境惨到让人落泪,当地人曝料:出事有预兆

一盅情怀
2026-05-06 11:48:41
美国从德国撤军超5000人,波兰总统:波兰可接收这批撤军

美国从德国撤军超5000人,波兰总统:波兰可接收这批撤军

澎湃新闻
2026-05-07 16:02:26
林毅夫:最晚明年,中国将成为高收入国家

林毅夫:最晚明年,中国将成为高收入国家

罗sir财话
2026-05-07 14:35:14
郑智被禁赛6场!媒体人热议:不认错从重处罚,7场不胜还不下课

郑智被禁赛6场!媒体人热议:不认错从重处罚,7场不胜还不下课

奥拜尔
2026-05-07 14:00:04
“有这种妈,抑郁症就好不了!”一段母子俩出游视频,令人窒息

“有这种妈,抑郁症就好不了!”一段母子俩出游视频,令人窒息

妍妍教育日记
2026-05-07 10:30:13
人口争夺战!成都,虹吸重庆!

人口争夺战!成都,虹吸重庆!

城市财经
2026-05-07 11:37:29
2026事业单位档案倒查来了,这次动真格!

2026事业单位档案倒查来了,这次动真格!

细说职场
2026-05-07 17:12:28
女子在川西冰川4600米营地遇难,当地:遗体在帐篷中被发现,高反失温致命,事发地是未开发区域

女子在川西冰川4600米营地遇难,当地:遗体在帐篷中被发现,高反失温致命,事发地是未开发区域

扬子晚报
2026-05-07 14:44:53
太可怕!猪价跌破5元,背后藏着惊天阴谋,幸亏国家及时出手了!

太可怕!猪价跌破5元,背后藏着惊天阴谋,幸亏国家及时出手了!

丁丁鲤史纪
2026-05-07 11:31:02
在朝鲜生活三年,说实话:它的发达与落后,都超出你的想象

在朝鲜生活三年,说实话:它的发达与落后,都超出你的想象

老特有话说
2026-05-07 17:41:09
沪苏浙皖共同出资,长三角基础研究联合基金将正式推出

沪苏浙皖共同出资,长三角基础研究联合基金将正式推出

上观新闻
2026-05-06 21:14:04
2026-05-07 21:52:49
AI科技评论 incentive-icons
AI科技评论
点评学术,服务AI
7250文章数 20751关注度
往期回顾 全部

科技要闻

月之暗面完成20亿美元融资,估值突破200亿

头条要闻

"4只皮皮虾1035元"店家否认宰客:拿货价就700多元1斤

头条要闻

"4只皮皮虾1035元"店家否认宰客:拿货价就700多元1斤

体育要闻

巴黎再进欧冠决赛,最尴尬的情况还是发生了

娱乐要闻

Lisa主持!宁艺卓观看脱衣秀风波升级

财经要闻

金融“风暴”,AI制造

汽车要闻

雷克萨斯全新纯电三排SUV 全新TZ全球首发

态度原创

艺术
房产
健康
家居
军事航空

艺术要闻

这位老教授笔下的青年,活力满满

房产要闻

负债23亿,抵押482亩地!海南这家巨头,惨遭拍卖!

干细胞治烧烫伤面临这些“瓶颈”

家居要闻

破茧成蝶 土味精装房爆改

军事要闻

特朗普:美伊"很可能"达成协议

无障碍浏览 进入关怀版