网易首页 > 网易号 > 正文 申请入驻

港科联合SnapResearch发布ThinkDiff,为扩散模型装上大脑

0
分享至

本文第一作者密振兴,香港科技大学计算机科学与技术学院人工智能方向博士生,研究方向是多模态理解与生成,3D/4D 重建与生成,目前正在寻找工业界全职职位或实习职位。

自 Stable Diffusion、Flux 等扩散模型 (Diffusion models) 席卷图像生成领域以来,文本到图像的生成技术取得了长足进步。但它们往往只能根据精确的文字或图片提示作图,缺乏真正读懂图像与文本、在多模 态上下文中推理并创作的能力。能否让模型像人类一样真正读懂图像与文本、完成多模态推理与创作,一直是学术界和工业界关注的热门问题。

OpenAI 的 GPT-4o image generation 和 Google 的 Gemini Pro 用超大规模参数和海量数据,展示了强大的多模态推理与生成能力。但在学术与产业环境中算力和数据并不充裕时,用较少数据与计算资源实现类似的功能,依然是一道难题。

在顶级学术会议 ICML2025 上,香港科技大学联合 Snap Research 提出了多模态理解与生成新方法:ThinkDiff。该方法仅需较少的图文对和数小时训练,就能让扩散模型具备思考能力,使其在复杂的图像文本组合输入下,完成推理式生成,为多模态理解与生成开辟了全新路径。

  • Paper:I Think, Therefore I Diffuse: Enabling Multimodal In-Context Reasoning in Diffusion Models
  • Paper link:
  • https://arxiv.org/abs/2502.10458
  • Github:(in progress)
  • https://github.com/MiZhenxing/ThinkDiff
  • Project page:
  • https://mizhenxing.github.io/ThinkDiff

ThinkDiff 算法设计

ThinkDiff 这项工作的核心是将现有大规模的视觉语言模型 (VLM) 的推理能力迁移给扩散模型 (Diffusion model)。通过联合 VLM 强大的多模态推理能力和 Diffusion 的高质量生成能力,使得最终的模型能够真正理解图像与文本提示之间的逻辑关系,以此为基础进行高质量的图像生成。

LLM 与 Diffusion 的共享特征空间

最新的 Text-to-image 扩散模型如 Flux 和 Stable Diffusion 3 等,都开始使用大语言模型 (LLM) 例如 T5 的文本编码器 (Encoder) 作为扩散模型的文本编码器 (Text Encoder)。

在这种设计下,扩散模型里的扩散解码器 (Diffusion Decoder) 与 T5 解码器 (LLM Decoder) 共享同一个输入特征空间。只要把 VLM 对图像和文本的推理对齐到该特征空间,就能让扩散模型继承 VLM 的推理能力。

将 VLM 对齐到 LLM 解码器

直接对齐 VLM 与扩散解码器需要大量复杂数据和低效的 Diffusion 训练,因此,ThinkDiff 通过一个代理任务,将 VLM 与 LLM 解码器做视觉-语言训练 (Vision-language Pretraining)。在将 VLM 与 LLM Decoder 对齐之后,由于共享空间的存在,VLM 就自然地与 Diffusion Decoder 对齐。

在训练过程中,对于每个训练样本,ThinkDiff 将图像 + 文本输入到 VLM,自回归 (Autoregressive) 地生成多模态特征向量,再通过一个轻量级的对齐网络(Aligner),将这些特征向量映射到 LLM 解码器的输入空间,去自回归地重建图像的文字描述,用交叉熵损失进行监督。

经过训练的对齐网络 (Aligner),可以有效地把 VLM 的多模态推理能力传递给了 LLM 解码器。而在推理阶段,只要用同样的对齐网络,通过共享的特征空间,就可以将 VLM 的多模态推理能力传递给扩散解码器,使扩散模型具备多模态理解与生成能力。

网络结构核心设计

对齐 VLM 生成的 Token:传统 Diffusion 在使用 LLM 时,是将 LLM 当做输入文本的编码器,将得到的特征送入 Diffusion 生成像素。而 VLM 的理解与推理能力,来自于它自回归生成的 tokens,而非编码的输入 tokens。因此在 ThinkDiff 中,我们选择将VLM (大型视觉-语言模型) 自回归生成的 tokens 的特征对齐到扩散模型,使扩散解码器能够真正继承LVLM的多模态推理能力。

掩码训练 (Masked Training):为了避免对齐网络走捷径,而非真正对齐特征空间,ThinkDiff 在训练阶段对 VLM 输出的 token 特征使用随机掩码策略,随机丢掉一部分特征,让对齐网络学会仅从不完整的多模态信息中恢复语义。这种掩码训练使得对齐网络深度理解图像 + 文本,从而高效地将理解能力传递给扩散解码器。

网络变体

依据使用的 VLM 的不同,ThinkDiff 有ThinkDiff-LVLM和ThinkDiff-CLIP两种变体。ThinkDiff-LVLM将大规模视觉语言模型 (LVLM) 对齐到 Diffusion,使得 Diffusion 继承 LVLM 的多模态理解能力。ThinkDiff-CLIP将 CLIP 对齐到 Diffusion,使得 Diffusion 拥有极强的文本图像组合能力。

实验结果

多模态理解与生成定量结果

ThinkDiff-LVLM 在多模态理解与生成基准 CoBSAT 上,大幅领先现有方法,展现出高精度高质量的理解与生成能力。

以下是训练资源的对比,与其他使用上百张 GPU 的方法相比,ThinkDiff-LVLM 仅使用5 小时 × 4 × A100 GPU的训练,就达到了最优的效果。

多模态理解与生成图片结果

ThinkDiff-LVLM 在 CoBSAT 上,能够对输入的多模态图片与文本进行深度推理,并用高质量的图片展现推理结果。

与 Gemini 的对比

ThinkDiff-LVLM 在日常图片推理与生成任务上展现出与 Gemini 类似的能力。

Gemini:

Ours:

多模态组合生成结果

在输入多张图片时,ThinkDiff-CLIP 能够合理地将多张输入图片组合成合理的输出图片。

多模态视频生成结果

将 ThinkDiff-CLIP 的扩散解码器改成 Cogvideo 时,ThinkDiff-CLIP 能在不重新训练的情况下,依据输入的图片和文本,生成高质量的视频。

总结

ThinkDiff 将多模态推理能力传递给扩散模型,创造出高质量的统一多模态理解与生成模型。它用极少的训练资源和常见的数据,让扩散模型具备了在多模态上下文中进行推理和创作的能力。在定量和定性实验上,都优于现有的开源模型,并展现出与商业模型相当的潜力。无论是在科研领域还是工业应用,都对图像生成与理解技术做出重要贡献。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
玄武门之变,李渊为什么不调兵镇压李世民?他调了,但根本压不住

玄武门之变,李渊为什么不调兵镇压李世民?他调了,但根本压不住

千秋文化
2026-02-11 21:36:18
奉劝大家:过年别买这5种干果,全都是科技,白送都别要!

奉劝大家:过年别买这5种干果,全都是科技,白送都别要!

江江食研社
2026-02-14 07:30:09
中美高级别二轨对话第三次会议在美国举办

中美高级别二轨对话第三次会议在美国举办

界面新闻
2026-02-14 17:44:43
坏消息:辽宁全省大降温来了!好消息:老铁们春节阳台的冻货还能挺几天~

坏消息:辽宁全省大降温来了!好消息:老铁们春节阳台的冻货还能挺几天~

沈阳生活圈i
2026-02-14 17:20:35
就在刚刚!官宣第7位主帅下课!广东更换主场,场均29分外援回CBA

就在刚刚!官宣第7位主帅下课!广东更换主场,场均29分外援回CBA

老吴说体育
2026-02-13 23:33:46
阿里千问:“春节大免单”再加三天,每人可领10张25元超级免单卡

阿里千问:“春节大免单”再加三天,每人可领10张25元超级免单卡

IT之家
2026-02-14 16:04:06
俄军星链使用权限被取消,战场通信瘫痪,俄方却拿不出替代方案

俄军星链使用权限被取消,战场通信瘫痪,俄方却拿不出替代方案

百科密码
2026-02-13 15:53:04
49页密约藏惊天代价:台美“贸易协定”彻底掏空台湾

49页密约藏惊天代价:台美“贸易协定”彻底掏空台湾

上观新闻
2026-02-14 15:52:07
一架美战机在南海被中国神秘击落?特朗普:很快就会知道结果

一架美战机在南海被中国神秘击落?特朗普:很快就会知道结果

一盅情怀
2026-02-13 18:38:47
建国后的陈昌浩:只当副局长,多次向老部下道歉,感激毛主席宽恕

建国后的陈昌浩:只当副局长,多次向老部下道歉,感激毛主席宽恕

搜史君
2026-02-14 07:00:09
乌美俄第3轮谈判准备就绪,乌克兰军队化身浴火凤凰

乌美俄第3轮谈判准备就绪,乌克兰军队化身浴火凤凰

史政先锋
2026-02-14 18:42:24
光线传媒:公司参与的影片《飞驰人生3》《惊蛰无声》《熊猫计划之部落奇遇记》已定于2026年大年初一上映

光线传媒:公司参与的影片《飞驰人生3》《惊蛰无声》《熊猫计划之部落奇遇记》已定于2026年大年初一上映

证券之星
2026-02-12 19:35:58
中国体育再遭韩媒嘲讽:14亿人大国0金牌 只排冬奥第18 巨大耻辱

中国体育再遭韩媒嘲讽:14亿人大国0金牌 只排冬奥第18 巨大耻辱

风过乡
2026-02-14 17:26:15
上海警方通报:49岁女子为吸粉引流 用AI生成发布上海嘉闵线施工区发生地面塌陷的虚假信息 已被行拘

上海警方通报:49岁女子为吸粉引流 用AI生成发布上海嘉闵线施工区发生地面塌陷的虚假信息 已被行拘

闪电新闻
2026-02-14 10:31:18
4岁被拐,亲父母寻21年,小伙认亲后把养父母给的婚房车子还还去

4岁被拐,亲父母寻21年,小伙认亲后把养父母给的婚房车子还还去

南权先生
2025-12-18 16:52:14
日媒透露,高市或在11月访华!话音刚落,58条中日航线全部取消

日媒透露,高市或在11月访华!话音刚落,58条中日航线全部取消

来科点谱
2026-02-13 07:08:11
美国年初通胀放缓,幅度超预期

美国年初通胀放缓,幅度超预期

新浪财经
2026-02-13 23:03:59
复仇已悄然展开?总统告知中国,巴拿马不接受!中国正筹划行动

复仇已悄然展开?总统告知中国,巴拿马不接受!中国正筹划行动

林子说事
2026-02-14 15:51:19
10胜1负!DPOY即将复出!2换1交易改变NBA格局

10胜1负!DPOY即将复出!2换1交易改变NBA格局

篮球教学论坛
2026-02-14 18:38:28
特朗普对华下黑手!160%关税砸向中国,美国这次制裁,损失惨重

特朗普对华下黑手!160%关税砸向中国,美国这次制裁,损失惨重

井普椿的独白
2026-02-14 19:23:39
2026-02-14 20:31:00
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12310文章数 142567关注度
往期回顾 全部

科技要闻

字节跳动官宣豆包大模型今日进入2.0阶段

头条要闻

俄中将遇袭细节:身中3枪 将袭击者的枪举到头顶高度

头条要闻

俄中将遇袭细节:身中3枪 将袭击者的枪举到头顶高度

体育要闻

金博洋:天才少年的奥运终章

娱乐要闻

吴克群变“吴克穷”助农,国台办点赞

财经要闻

春节抢黄金,谁赚到钱了?

汽车要闻

星光730新春促销开启 80天销量破2.6万台

态度原创

时尚
艺术
亲子
教育
家居

穿上这些鞋拥抱春天

艺术要闻

大长腿,直击心脏!瞬间沦陷了!

亲子要闻

马年当然要跟着小马宝莉学穿搭啦!

教育要闻

“学习学傻了吧?”女孩晒满墙奖状,挑衅有钱人被嘲:头脑不清醒

家居要闻

中古雅韵 乐韵伴日常

无障碍浏览 进入关怀版