网易首页 > 网易号 > 正文 申请入驻

多模态推理新范式!DiffThinker:用扩散模型「画」出推理和答案

0
分享至



在多模态大模型(MLLMs)领域,思维链(CoT)一直被视为提升推理能力的核心技术。然而,面对复杂的长程、视觉中心任务,这种基于文本生成的推理方式正面临瓶颈:文本难以精确追踪视觉信息的变化。形象地说,模型不知道自己想到哪一步了,对应图像是什么状态。

尽管近期的「Thinking with Image」范式可以通过工具等对图像进行操作,但它们难以扩展到更复杂的长程任务,且在多轮交互中本身开销巨大。

近日,来自上海人工智能实验室、南京大学、香港中文大学和上海交通大学的研究团队提出了一种全新的生成式多模态推理(Generative Multimodal Reasoning)范式,并发布了模型DiffThinker

DiffThinker 彻底打破了「多模态输入 -> 文本输出」的传统定式,将推理过程重构为图像到图像(Image-to-Image)的生成任务。通过扩散模型(Diffusion Models),DiffThinker 能够在视觉空间中直接生成推理路径。

实验结果令人惊讶:在包含长程规划、组合优化、约束满足、空间推理等 7 项视觉中心的复杂任务中,DiffThinker 的表现显著优于包括GPT-5 (+314.2%)和Gemini-3-Flash (+111.6%)在内的顶尖闭源模型,以及经过相同数据微调的 Qwen3-VL-32B 基线 (+39.0%)。

  • 论文标题:DiffThinker: Towards Generative Multimodal Reasoning with Diffusion Models
  • 论文地址
  • https://arxiv.org/abs/2512.24165
  • 项目主页
  • https://diffthinker-project.github.io
  • 代码仓库
  • https://github.com/lcqysl/DiffThinker



01 从「以文思考」到「以图思考」

现有的多模态大模型在处理视觉推理任务时,难以追踪视觉信息的变化。比如在空间导航任务(VSP、Maze 等)中,模型仅靠语言分析路径,但输入图像不变,路径一长就很容易「看走眼」,不知道自己已经走到了哪。又比如拼图任务,模型如果不能直接对拼图操作,很难凭空想象出答案。即便是最新的「Thinking with Image」范式,也往往依赖于多轮对话和工具调用,导致推理链路极长,难以扩展到复杂场景。

研究团队还在项目主页提供了几个小游戏,以直观理解人与 MLLM 的思维范式差异。

那么,为什么不能让模型直接「看」着问题,把答案「画」出来?

DiffThinker 提出的核心理念正是如此。研究团队认为,多模态推理不应局限于符号空间,而应回归视觉空间,利用扩散模型直接生成答案。具体来说,DiffThinker 基于 Qwen-Image-Edit,配合 Flow Matching 训练直接用图像生产答案。



02 DiffThinker 的四大核心特性


作为全新的生成式推理范式,DiffThinker 展现出了传统 MLLM 难以企及的四大特性:

  • 高效推理(Efficient Reasoning)相比于 MLLM 动辄生成数千个 Token 的长思维链,DiffThinker 在训练和推理效率上均表现出色,且准确率更高。



  • 可控推理(Controllable Reasoning)MLLM 的输出长度不可预测,常出现过长思维链甚至输出崩溃导致死循环。而 DiffThinker 通过固定步数的欧拉求解器,能够以确定的计算预算完成推理,不受任务逻辑复杂度的干扰。

  • 原生并行推理(Native Parallel Reasoning)这是扩散模型独有的优势。在推理时,DiffThinker 能够在视觉空间中同时探索多条潜在路径,并随着去噪过程逐步收敛到最优解。这使得模型可以「边画边推理」,更直观。



  • 协同推理(Collaborative Reasoning)DiffThinker 还可以与 MLLM 合作。它生成多个候选视觉解,再由 MLLM 进行逻辑验证。实验显示,这种「DiffThinker 生成 + MLLM 验证」的组合,性能实现「1+1>2」,超越了任何单一模型。



03 实验结果:碾压级的性能


研究团队在四个领域的七大任务上进行了系统评测,包括:

  • 序列规划:VSP,VSP-Super,Maze(迷宫)
  • 组合优化:TSP(旅行商问题)
  • 约束满足:Sudoku(数独)
  • 空间配置:Jigsaw(拼图),VisPuzzle

主要结果如下:



DiffThinker 在所有任务上的平均得分高达87.4,而 GPT-5 仅为 21.1,Gemini-3-Flash 为 41.3。同数据训练的 Qwen3-VL-32B 也只有62.9。

04 视频生成 vs 图像生成


既然是视觉推理,用视频模型(Video Generation)会不会更好?

团队基于 Wan2.2-TI2V-5B 开发了 DiffThinker-Video 版本。结果发现,虽然视频能展示动态过程,但在推理准确率上反而不如图像生成模型,且推理时间增加了近一倍(1.1s vs 2.0s)。这表明,在当前的算力与模型架构下,「以图思考」仍是比「以视频思考」更高效的路径。

05 结语


DiffThinker 的出现,标志着生成式多模态推理(Generative Multimodal Reasoning)时代的开启。它证明了扩散模型不仅能画画,还能进行严密的逻辑推理。

对于长程、视觉中心的复杂任务,将推理过程从「文本流」转变为「视觉流」,或许正是通往下一代通用人工智能的关键一步。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
女子称凌晨入睡后银行卡多次被转账损失约42万,自己未做任何操作 银行:其手机被操控,需等警方调查

女子称凌晨入睡后银行卡多次被转账损失约42万,自己未做任何操作 银行:其手机被操控,需等警方调查

红星新闻
2026-06-03 13:18:18
机器人“搭子”来了!全球首款全尺寸超仿生人形机器人开始预售

机器人“搭子”来了!全球首款全尺寸超仿生人形机器人开始预售

深圳晚报
2026-06-03 08:01:52
霍尔木兹大消息,美军宣布:“林肯”号航母参与封锁,战机空袭开往伊朗哈尔克岛油轮,致机舱起火!国际油价上涨,特朗普:尽快达成协议

霍尔木兹大消息,美军宣布:“林肯”号航母参与封锁,战机空袭开往伊朗哈尔克岛油轮,致机舱起火!国际油价上涨,特朗普:尽快达成协议

每日经济新闻
2026-06-03 07:49:10
媒体:武契奇或辞去总统职务后出任塞尔维亚总理

媒体:武契奇或辞去总统职务后出任塞尔维亚总理

俄罗斯卫星通讯社
2026-06-03 15:10:14
买了34层一套房 收房时得知只建到32层;开发商仲裁代理人:“当时是计划建设到34层,但盖到32层就不让盖了”

买了34层一套房 收房时得知只建到32层;开发商仲裁代理人:“当时是计划建设到34层,但盖到32层就不让盖了”

大风新闻
2026-06-03 08:06:11
联想急了

联想急了

虎嗅APP
2026-06-03 03:04:27
今早台州一辆问界M9底部起火!刚刚,问界回应:非车辆自身原因导致

今早台州一辆问界M9底部起火!刚刚,问界回应:非车辆自身原因导致

都市快报橙柿互动
2026-06-03 12:22:15
日本“国宝级”成人影片女优来中国x交易!当场被抓,遭驱逐出境

日本“国宝级”成人影片女优来中国x交易!当场被抓,遭驱逐出境

澳洲红领巾
2026-06-03 15:20:03
百万网红直播间以纯牛肉之名卖合成牛肉卷,承诺“假一赔万”,被起诉后又称赔偿过高,最终双方同意调解,若调解不成,法院将择期宣判

百万网红直播间以纯牛肉之名卖合成牛肉卷,承诺“假一赔万”,被起诉后又称赔偿过高,最终双方同意调解,若调解不成,法院将择期宣判

扬子晚报
2026-06-02 22:40:00
*ST闻泰演绎“天地板”走势

*ST闻泰演绎“天地板”走势

证券时报
2026-06-03 10:26:40
“我妈急需20万做手术,你年薪50万,为什么不肯出钱”妻子:滚

“我妈急需20万做手术,你年薪50万,为什么不肯出钱”妻子:滚

广西秦胖胖
2026-06-02 15:01:05
官方严厉表态,痛批综艺乱象,刘涛郑恺等8位艺人遭点名批评

官方严厉表态,痛批综艺乱象,刘涛郑恺等8位艺人遭点名批评

一盅情怀
2026-06-03 15:30:26
“机密”文件竟在微信群中传播!查明:档案局服务人员发现涉密文件与儿子工作有关,遂拍照发家庭群,已被辞退;相关负责人被党内严重警告

“机密”文件竟在微信群中传播!查明:档案局服务人员发现涉密文件与儿子工作有关,遂拍照发家庭群,已被辞退;相关负责人被党内严重警告

扬子晚报
2026-06-03 07:37:03
台当局对日菲启动海域划界谈判予以肯定,外交部:彻头彻尾的民族败类

台当局对日菲启动海域划界谈判予以肯定,外交部:彻头彻尾的民族败类

海峡导报社
2026-06-02 16:15:16
割四赔五后续:麦客撤了,麦烂了,农户跪了,这锅谁背?

割四赔五后续:麦客撤了,麦烂了,农户跪了,这锅谁背?

番外行
2026-06-02 14:19:47
日媒突然发现一个扎心事实:中国人的生活里,日本货快找不着了

日媒突然发现一个扎心事实:中国人的生活里,日本货快找不着了

互联鱼
2026-06-02 19:32:57
运动员哪能这么白这么露?铁三女神冯竟爽再次夺冠,回击流言蜚语

运动员哪能这么白这么露?铁三女神冯竟爽再次夺冠,回击流言蜚语

杨华评论
2026-06-03 02:20:48
女子独游罗马,惨遭5人囚禁、轮奸3天

女子独游罗马,惨遭5人囚禁、轮奸3天

侠客栈
2026-06-01 13:33:10
游客在苏州网师园拉开围栏拍照,致清代落地罩撞击受损,景区回应:3块残件已临时粘连并启动修复,警方已介入

游客在苏州网师园拉开围栏拍照,致清代落地罩撞击受损,景区回应:3块残件已临时粘连并启动修复,警方已介入

大风新闻
2026-06-03 14:48:20
北京市发布雷电蓝色预警

北京市发布雷电蓝色预警

界面新闻
2026-06-03 11:08:17
2026-06-03 17:03:00
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
13159文章数 142660关注度
往期回顾 全部

科技要闻

传DeepSeek融资意向500亿:腾讯投100亿

头条要闻

94版《三国演义》成观众心中"白月光" 多位扮演者离世

头条要闻

94版《三国演义》成观众心中"白月光" 多位扮演者离世

体育要闻

选择中国品牌的库里,和他们的巨大野心

娱乐要闻

官方痛批乱象 刘涛郑恺等艺人遭点名

财经要闻

AI,开始偷懒了?

汽车要闻

依托全域辅助驾驶布局 千里浩瀚助推吉利5月市场大热

态度原创

数码
本地
亲子
教育
军事航空

数码要闻

告别充电线 闪极直插口充电宝上市 一机搞定苹果安卓

本地新闻

用杨柳青年画的方式,打开天津

亲子要闻

“托举孩子进山姆”:“全职宝妈”错了,但也不必网暴 | 新京报快评

教育要闻

盒子里的球怎么算组合?方法太简单!

军事要闻

美伊互袭波及多国 过去一夜中东局势骤然升级

无障碍浏览 进入关怀版