网易首页 > 网易号 > 正文 申请入驻

多模态推理新范式!DiffThinker:用扩散模型「画」出推理和答案

0
分享至



在多模态大模型(MLLMs)领域,思维链(CoT)一直被视为提升推理能力的核心技术。然而,面对复杂的长程、视觉中心任务,这种基于文本生成的推理方式正面临瓶颈:文本难以精确追踪视觉信息的变化。形象地说,模型不知道自己想到哪一步了,对应图像是什么状态。

尽管近期的「Thinking with Image」范式可以通过工具等对图像进行操作,但它们难以扩展到更复杂的长程任务,且在多轮交互中本身开销巨大。

近日,来自上海人工智能实验室、南京大学、香港中文大学和上海交通大学的研究团队提出了一种全新的生成式多模态推理(Generative Multimodal Reasoning)范式,并发布了模型DiffThinker

DiffThinker 彻底打破了「多模态输入 -> 文本输出」的传统定式,将推理过程重构为图像到图像(Image-to-Image)的生成任务。通过扩散模型(Diffusion Models),DiffThinker 能够在视觉空间中直接生成推理路径。

实验结果令人惊讶:在包含长程规划、组合优化、约束满足、空间推理等 7 项视觉中心的复杂任务中,DiffThinker 的表现显著优于包括GPT-5 (+314.2%)和Gemini-3-Flash (+111.6%)在内的顶尖闭源模型,以及经过相同数据微调的 Qwen3-VL-32B 基线 (+39.0%)。

  • 论文标题:DiffThinker: Towards Generative Multimodal Reasoning with Diffusion Models
  • 论文地址
  • https://arxiv.org/abs/2512.24165
  • 项目主页
  • https://diffthinker-project.github.io
  • 代码仓库
  • https://github.com/lcqysl/DiffThinker



01 从「以文思考」到「以图思考」

现有的多模态大模型在处理视觉推理任务时,难以追踪视觉信息的变化。比如在空间导航任务(VSP、Maze 等)中,模型仅靠语言分析路径,但输入图像不变,路径一长就很容易「看走眼」,不知道自己已经走到了哪。又比如拼图任务,模型如果不能直接对拼图操作,很难凭空想象出答案。即便是最新的「Thinking with Image」范式,也往往依赖于多轮对话和工具调用,导致推理链路极长,难以扩展到复杂场景。

研究团队还在项目主页提供了几个小游戏,以直观理解人与 MLLM 的思维范式差异。

那么,为什么不能让模型直接「看」着问题,把答案「画」出来?

DiffThinker 提出的核心理念正是如此。研究团队认为,多模态推理不应局限于符号空间,而应回归视觉空间,利用扩散模型直接生成答案。具体来说,DiffThinker 基于 Qwen-Image-Edit,配合 Flow Matching 训练直接用图像生产答案。



02 DiffThinker 的四大核心特性


作为全新的生成式推理范式,DiffThinker 展现出了传统 MLLM 难以企及的四大特性:

  • 高效推理(Efficient Reasoning)相比于 MLLM 动辄生成数千个 Token 的长思维链,DiffThinker 在训练和推理效率上均表现出色,且准确率更高。



  • 可控推理(Controllable Reasoning)MLLM 的输出长度不可预测,常出现过长思维链甚至输出崩溃导致死循环。而 DiffThinker 通过固定步数的欧拉求解器,能够以确定的计算预算完成推理,不受任务逻辑复杂度的干扰。

  • 原生并行推理(Native Parallel Reasoning)这是扩散模型独有的优势。在推理时,DiffThinker 能够在视觉空间中同时探索多条潜在路径,并随着去噪过程逐步收敛到最优解。这使得模型可以「边画边推理」,更直观。



  • 协同推理(Collaborative Reasoning)DiffThinker 还可以与 MLLM 合作。它生成多个候选视觉解,再由 MLLM 进行逻辑验证。实验显示,这种「DiffThinker 生成 + MLLM 验证」的组合,性能实现「1+1>2」,超越了任何单一模型。



03 实验结果:碾压级的性能


研究团队在四个领域的七大任务上进行了系统评测,包括:

  • 序列规划:VSP,VSP-Super,Maze(迷宫)
  • 组合优化:TSP(旅行商问题)
  • 约束满足:Sudoku(数独)
  • 空间配置:Jigsaw(拼图),VisPuzzle

主要结果如下:



DiffThinker 在所有任务上的平均得分高达87.4,而 GPT-5 仅为 21.1,Gemini-3-Flash 为 41.3。同数据训练的 Qwen3-VL-32B 也只有62.9。

04 视频生成 vs 图像生成


既然是视觉推理,用视频模型(Video Generation)会不会更好?

团队基于 Wan2.2-TI2V-5B 开发了 DiffThinker-Video 版本。结果发现,虽然视频能展示动态过程,但在推理准确率上反而不如图像生成模型,且推理时间增加了近一倍(1.1s vs 2.0s)。这表明,在当前的算力与模型架构下,「以图思考」仍是比「以视频思考」更高效的路径。

05 结语


DiffThinker 的出现,标志着生成式多模态推理(Generative Multimodal Reasoning)时代的开启。它证明了扩散模型不仅能画画,还能进行严密的逻辑推理。

对于长程、视觉中心的复杂任务,将推理过程从「文本流」转变为「视觉流」,或许正是通往下一代通用人工智能的关键一步。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
71岁朱时茂近况曝光!曾11次登上春晚舞台,儿孙绕膝尽享天伦之乐

71岁朱时茂近况曝光!曾11次登上春晚舞台,儿孙绕膝尽享天伦之乐

代军哥哥谈娱乐
2026-02-27 10:05:03
湖南村民被群殴!钢管朝头猛砸,原因曝光网友一边倒:力挺肇事者

湖南村民被群殴!钢管朝头猛砸,原因曝光网友一边倒:力挺肇事者

社会日日鲜
2026-02-27 16:27:42
75岁刘晓庆拍短剧与小30岁男演员演吻戏,男配角点赞“你这是工伤”评论被网友斥责不尊重前辈,回应:手误

75岁刘晓庆拍短剧与小30岁男演员演吻戏,男配角点赞“你这是工伤”评论被网友斥责不尊重前辈,回应:手误

大象新闻
2026-02-26 18:53:09
“卷尺哥”曝惠州大道破损引热议,部门:三天内修复

“卷尺哥”曝惠州大道破损引热议,部门:三天内修复

南方都市报
2026-02-27 21:58:09
福特号厕所为何炸了?真相在细节!

福特号厕所为何炸了?真相在细节!

环球策论
2026-02-26 21:28:15
各大银行盯上了压岁钱:孩子存1000元比你存20万利息高, 银行正将儿童金融服务,从节日营销升级为核心战略

各大银行盯上了压岁钱:孩子存1000元比你存20万利息高, 银行正将儿童金融服务,从节日营销升级为核心战略

每日经济新闻
2026-02-27 13:42:07
两个邻国又猛打起来了,中国如何看?

两个邻国又猛打起来了,中国如何看?

新民周刊
2026-02-28 09:13:07
特斯拉中国:大量全新 Model 3/Y 现车上架

特斯拉中国:大量全新 Model 3/Y 现车上架

新浪财经
2026-02-27 22:31:13
四部门宣布:放高利贷正式入罪

四部门宣布:放高利贷正式入罪

新浪财经
2026-02-27 17:10:34
中国驻符拉迪沃斯托克总领馆:18-65岁在俄长期居留男性 须同意在俄军事单位等至少服役1年

中国驻符拉迪沃斯托克总领馆:18-65岁在俄长期居留男性 须同意在俄军事单位等至少服役1年

闪电新闻
2026-02-26 12:56:09
跟男生玩饥饿营销,这可能是我26年听过最好笑的笑话了。

跟男生玩饥饿营销,这可能是我26年听过最好笑的笑话了。

流苏晚晴
2026-02-26 18:14:25
一只苍蝇困死整个大陆?无法种地不能养马,这才是非洲的穷根!

一只苍蝇困死整个大陆?无法种地不能养马,这才是非洲的穷根!

你是我心中最美星空
2026-02-27 07:53:59
胜利和你无关,与2.5亿顶薪说再见!火箭皮蓬,离交易不远了

胜利和你无关,与2.5亿顶薪说再见!火箭皮蓬,离交易不远了

毒舌NBA
2026-02-28 06:02:24
上海为何越来越北方化?

上海为何越来越北方化?

虔青
2026-02-26 11:40:25
许家印侄子豪宅拍卖,被苏老板5016万元拍下!房产总面积317平方米,配有5个洗手间

许家印侄子豪宅拍卖,被苏老板5016万元拍下!房产总面积317平方米,配有5个洗手间

每日经济新闻
2026-02-26 22:00:09
戏子误国!春节刚过就有4位明星相继塌房,走到这一步不值得同情

戏子误国!春节刚过就有4位明星相继塌房,走到这一步不值得同情

墨印斋
2026-02-26 06:21:37
白马会所一夜覆灭

白马会所一夜覆灭

来科点谱
2026-02-28 07:45:18
日本涩谷十字路口女童被恶意撞倒!日网一句撞人者“怎么看都是中国人”引爆热议…

日本涩谷十字路口女童被恶意撞倒!日网一句撞人者“怎么看都是中国人”引爆热议…

东京新青年
2026-02-27 18:33:26
拒爆冷!联盟第一逆转残阵骑士,哈登伤缺,裁判加戏,3人6犯离场

拒爆冷!联盟第一逆转残阵骑士,哈登伤缺,裁判加戏,3人6犯离场

老侃侃球
2026-02-28 11:43:29
尼克斯7人上双大胜雄鹿 布伦森27+7单节22分迎7000分里程碑

尼克斯7人上双大胜雄鹿 布伦森27+7单节22分迎7000分里程碑

醉卧浮生
2026-02-28 11:21:03
2026-02-28 12:20:49
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12377文章数 142573关注度
往期回顾 全部

科技要闻

狂揽1100亿美元!OpenAI再创融资神话

头条要闻

牛弹琴:伊朗面临生死存亡关键时刻 信号已经很明显了

头条要闻

牛弹琴:伊朗面临生死存亡关键时刻 信号已经很明显了

体育要闻

球队主力全报销?顶风摆烂演都不演了

娱乐要闻

疑似王一博被爆私密聊天记录

财经要闻

沈明高提共富建议 百姓持科技股国家兜底

汽车要闻

岚图泰山黑武士版3月上市 搭载华为四激光智驾方案

态度原创

教育
健康
时尚
公开课
军事航空

教育要闻

忍无可忍!中国数学会发布声明,很多孩子参加的竞赛可能是白忙活

转头就晕的耳石症,能开车上班吗?

被章若楠、秦岚带火的鞋子竟然是它?春天这样穿又美又气质!

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

美国11架F-22隐形战机抵达以色列

无障碍浏览 进入关怀版