网易首页 > 网易号 > 正文 申请入驻

告别边画边说:LatentMorph 开启视觉生成隐式潜空间推理新范式

0
分享至



本文第一作者为香港科技大学博士生 陈浩东 和 西北工业大学本科生 尹新祥;通讯作者为香港科技大学教授 陈启峰 和 陈颖聪。

人类在创作艺术时,大脑并非一味地输出,而是在每一笔落下时都在进行着复杂的、难以言表的 “视觉优化”。

现有的文生图(T2I)模型虽然强大,但往往表现得像是一个 “像素映射机器”,缺乏人类在创作过程中的动态思考与自我修正能力。虽然目前已有研究通过引入大语言模型(LLM)的推理链(CoT)来辅助生成,但这些方法大多依赖显式推理 —— 即必须把思考过程解码成文字或中间图像,再重新编码。

这种方式不仅效率低下,还会导致信息损耗,更不符合人类的创作直觉。为了打破这一瓶颈,来自香港科技大学的团队提出了 LatentMorph。这是一种全新的框架,它将隐式潜空间推理(Implicit Latent Reasoning)无缝集成到 T2I 生成过程中。它不再需要繁琐的文本解码,而是直接在连续的潜空间中完成 “思考” 与 “修正”,让模型拥有了类似人类的 “创作直觉”。实验结果显示,LatentMorph 显著增强了基座模型 Janus-Pro,在 GenEval 和 T2I-CompBench 上分别提升了16%25%的性能。在复杂的抽象推理任务中,它超越了显式范式11%~15%,同时大幅削减了44%的推理延时与51%的 Token 消耗,并实现了高达71%的人机认知对齐。



  • 论文题目:Show, Don't Tell: Morphing Latent Reasoning into Image Generation
  • 论文链接:https://arxiv.org/abs/2602.02227
  • 代码连接:https://github.com/EnVision-Research/LatentMorph

背景介绍

在 LatentMorph 提出之前,赋予图像生成模型 “System-2” 推理能力的尝试主要集中在两种范式:

  • 外部循环(External-Loop): 将多模态大模型(MLLM)作为外部优化器,用于精炼提示词、评审输出或迭代编辑图片。
  • 内部循环(Internal-Loop): 在统一多模态模型(UMM)内部交替进行理解分支与生成分支的交互,通常是在预定义的固定步骤进行推理。

尽管这些方法有效,但这些范式普遍依赖将 “想法” 强制压缩进有限的离散文本通道。这种显式做法引发了三大核心缺陷:

1.信息损耗: 自然语言难以精准描述光影、纹理等微妙的视觉逻辑。

2.计算冗余: 频繁的解码 - 重编码循环带来了巨大的推理延迟和 Token 开销。

3.认知失调: 强迫模型在每一笔之前都 “说出” 逻辑,违背了人类直觉式的视觉反馈机制。



受潜空间推理在语言模型中成功的启发,LatentMorph 应运而生,其核心研究课题在于:如何让模型在生成图像 Token 的同时,动态监控其视觉状态并隐式介入推理并优化?

LatentMorph 方法

LatentMorph 通过四个轻量化组件,共同构成了一个闭环的 “观察 - 决策 - 思考 - 引导” 系统。其中,冷凝器(Condensers)负责将海量生成状态提炼为紧凑的视觉记忆;调用器(Invoker)智能决定何时介入推理;翻译器(Translator)将抽象想法转化为生成指令;而整形器(Shaper)则精准驱动图像 Token 的最终修正。



2.1 视觉记忆凝结器(Memory Condensers)

为了让推理分支能够理解当前的生成进度,LatentMorph 设计了双重冷凝机制:



2.2 强化学习驱动的推理调用器 (Reason Invoker)



  • 语义一致性: 测量当前状态与用户提示词的对齐程度。
  • 预测不确定性: 通过 Token Logits 的熵值捕捉模型的信心水平。
  • 时序动态与稳定性: 监测语义对齐的波动和偏离。

通过强化学习(GRPO)训练,LatentMorph 能够像人类一样,仅在遇到瓶颈或歧义时才激活思考,从而最大化推理效率并避免冗余计算。

2.3 潜空间翻译器 (Latent Translator)



2.4 潜空间整形器 (Latent Shaper)



这种注入方式不改动模型权重,也不占用 Token 的预测位置,而是通过修改注意力机制的上下文,潜移默化地引导后续 Token 的预测走向。这使得 LatentMorph 能够实现极致的生成连贯性。

实验分析

LatentMorph 在五个权威基准测试中与十种主流方法进行了全方位对比,结果证明了其范式级的优势。

3.1 忠实度与组合性的新高度



在通用的 GenEval 和侧重组合能力的 T2I-CompBench 测试中,LatentMorph 表现优异:

  • 相比基座模型 Janus-Pro,LatentMorph 在 GenEval 上提升了16%,在 T2I-CompBench 上提升了25%
  • 在处理复杂的 “非空间属性(Non-Spatial)” 任务时,LatentMorph 超过了领先的显式推理基线 TwiG-RL 达7.28%
  • 定性结果显示,LatentMorph 能有效解决基座模型常见的物体遗漏和属性混淆问题,如精准区分不同物体的颜色与位置。



3.2 抽象与极限推理能力的验证



LatentMorph 在处理抽象知识(WISE)和反物理直觉提示词(IPV-Txt)时展现了独特优势:

  • 在 IPV-Txt 基准上,显式文本推理往往受限于语言的表达力,而 LatentMorph 通过连续潜空间保留了关键的、难以言表的视觉线索,性能显著优于所有对比方案。
  • 热力图分析证实,LatentMorph 的潜空间推理能更好地激活图像中细微纹理和光影对应的关注区域。

3.3 极速推理与超低消耗

LatentMorph 彻底终结了 “推理必低效” 的魔咒:



相比于需要多次全量生成的迭代方法(如 MILR),或受限于文本解码速度的方案(TWIG),LatentMorph 的推理时间减少了44%,Token 消耗降低了51%。这使其成为一种极其经济且可扩展的自回归生成增强方案。

3.4 认知一致性与消歧



LatentMorph 的调用策略与人类直觉达到了71.8%的对齐度。它表现出一种 “任务复杂度敏感” 的模式:对于简单的提示词仅进行少量干预,而面对复杂的抽象任务则会增加调用频率(在 GenEval 上平均 1.14 次 vs. 在 WISE 上平均 1.60 次)。



结论

通过 LatentMorph,团队证明了推理增强型模型正从 “显式说理” 向 “隐式直觉” 发生范式转移。

它成功将逻辑思考的深度与生成流程的效率统一在潜空间内,不仅显著提升了模型对复杂、抽象指令的遵循能力,更赋予了 AI 一种类人的创作节奏。正如论文标题所言:“Show, Don't Tell”,真正的智慧往往蕴含在无需言说的潜意识演化之中。

未来,这种潜空间推理框架有望拓展至视频生成、3D 构建等更多高维多模态领域,为构建真正具备自我演化能力的创作型 AI 奠定基础。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
外交部发言人反问日媒:“你见过有人未经允许持刀进入使馆与大使交谈的先例吗?”

外交部发言人反问日媒:“你见过有人未经允许持刀进入使馆与大使交谈的先例吗?”

环球网资讯
2026-03-25 15:39:26
曝张雪峰在苏州举办葬礼,生前最后一次直播,趴桌子上身体已不适

曝张雪峰在苏州举办葬礼,生前最后一次直播,趴桌子上身体已不适

180视角
2026-03-25 16:58:57
语出惊人!摩根大通CEO戴蒙称,伊朗战争长期来看是好事!为什么这样说?

语出惊人!摩根大通CEO戴蒙称,伊朗战争长期来看是好事!为什么这样说?

王爷说图表
2026-03-25 18:51:12
张雪峰突然去世!博士妻子李丽婧饱受非议上热搜,或面临3个选择

张雪峰突然去世!博士妻子李丽婧饱受非议上热搜,或面临3个选择

火山詩话
2026-03-25 16:14:23
俄乌战争四年多,回头看看他们当初说的假话

俄乌战争四年多,回头看看他们当初说的假话

涛哥锐评
2026-03-26 17:47:45
“中园石化”被立案调查

“中园石化”被立案调查

每日经济新闻
2026-03-25 11:13:18
黄仁勋呼吁所有人使用AI提升自己:大学生毕业时都要成AI专家

黄仁勋呼吁所有人使用AI提升自己:大学生毕业时都要成AI专家

快科技
2026-03-24 22:46:04
炸裂!张雪峰遗产分配爆出大瓜

炸裂!张雪峰遗产分配爆出大瓜

互联网品牌官
2026-03-26 12:21:26
中美卫星导航用户数量悬殊:GPS用户数超60亿,中国北斗令人意外

中美卫星导航用户数量悬殊:GPS用户数超60亿,中国北斗令人意外

混沌录
2026-03-18 23:54:31
五枚导弹,拦下四枚,就那漏网的一枚,不偏不倚,正好砸中…

五枚导弹,拦下四枚,就那漏网的一枚,不偏不倚,正好砸中…

福建平子
2026-03-25 10:14:49
A股:上午冲到3937后再跳水,种种迹象表明,A股或迎更大调整行情?

A股:上午冲到3937后再跳水,种种迹象表明,A股或迎更大调整行情?

股市皆大事
2026-03-26 12:17:48
欧洲芯片巨头官宣:我已在中国大陆,制造40nm芯片了

欧洲芯片巨头官宣:我已在中国大陆,制造40nm芯片了

互联网.乱侃秀
2026-03-25 09:45:10
2-0晋级八强!中国女网15岁新星连续爆冷真猛:下一轮对决王曦雨

2-0晋级八强!中国女网15岁新星连续爆冷真猛:下一轮对决王曦雨

李喜林篮球绝杀
2026-03-26 17:04:26
释永信“开光”真相大白,过程不堪入目,易中天也有牵扯

释永信“开光”真相大白,过程不堪入目,易中天也有牵扯

寻墨阁
2026-03-25 11:39:10
突发!上海最大商场砸的62亿悬了!

突发!上海最大商场砸的62亿悬了!

新浪财经
2026-03-26 00:14:57
台积电突然断供?直接甩出“稀土”,外媒:这才是真正的杀手锏!

台积电突然断供?直接甩出“稀土”,外媒:这才是真正的杀手锏!

瑛派儿老黄
2026-03-24 18:56:06
稳居西部第二!马刺三大年轻核心,已成联盟无解难题!

稳居西部第二!马刺三大年轻核心,已成联盟无解难题!

田先生篮球
2026-03-26 14:23:29
抗炎才能抗癌!哈佛大学《自然》重磅:炎症会在身体留下长期记忆,显著增加未来患癌风险

抗炎才能抗癌!哈佛大学《自然》重磅:炎症会在身体留下长期记忆,显著增加未来患癌风险

医诺维
2026-03-26 17:00:54
北院裁定17年六个月,柯文哲去向已明,黄国昌说到做到,绿营急了

北院裁定17年六个月,柯文哲去向已明,黄国昌说到做到,绿营急了

爱看剧的阿峰
2026-03-26 16:32:02
伊朗重要人事任命,释放强烈信号!

伊朗重要人事任命,释放强烈信号!

斐君观点
2026-03-25 21:08:16
2026-03-26 19:27:00
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12606文章数 142593关注度
往期回顾 全部

科技要闻

Meta高管狂分百亿期权,700名员工却下岗

头条要闻

原正部级刘慧被开除党籍:结交政治骗子 匿名诬告他人

头条要闻

原正部级刘慧被开除党籍:结交政治骗子 匿名诬告他人

体育要闻

申京努力了,然而杜兰特啊

娱乐要闻

张雪峰家人首发声 不设追思会丧事从简

财经要闻

油价"驯服"特朗普?一到100美元就TACO

汽车要闻

一汽奥迪A6L e-tron开启预售 CLTC最大续航815km

态度原创

数码
时尚
艺术
健康
家居

数码要闻

苹果MacBook Neo将重塑整个笔电行业!分析师纷纷强调:打不过

皮衣+裙,高级到炸

艺术要闻

哪一座桥不是风景?

转头就晕的耳石症,能开车上班吗?

家居要闻

傍海而居 静观蝴蝶海

无障碍浏览 进入关怀版