清华李涓子团队：让推理模型学会何时思考；上海AI Lab提出“视觉代理强化微调”

分享至

速览热门论文

1. MMaDA：多模态大型扩散语言模型

2. 清华李涓子团队：让推理模型学会何时思考

3. 清华龙明盛团队：利用强化学习训练世界模型

4. 上海交大团队提出「高效agent训练框架」

5. 联发科提出「潜流 Transformer」

6. 上海AI Lab提出「视觉代理强化微调」

7. 斯坦福团队推出「通用用户模型」架构

8. Robin：「科学发现自动化」多agent系统

9. 微软推出「大型混合推理模型」LHRM

10. 微软推出「奖励推理模型」RRM

11. 微软推出「语言模型链」CoLM

1.MMaDA：多模态大型扩散语言模型

在这项工作中，来自普林斯顿大学和北京大学的研究团队及其合作者，提出了一类新型多模态扩散基础模型——MMaDA，旨在实现文本推理、多模态理解和文本到图像生成等不同领域的强大性能。

这一方法具有三大创新：（1）MMaDA 采用统一的扩散架构，具有共享的概率公式和模态无关设计，无需特定模态组件。这种架构可以确保不同数据类型之间的无缝集成和处理。（2）他们实施了一种混合的长思维链（CoT）微调策略，该策略可以在各种模态之间形成统一的 CoT 格式。通过对齐文本和视觉领域之间的推理过程，该策略有助于为强化学习（RL）阶段提供冷启动训练，从而增强模型从一开始就处理复杂任务的能力。（3）他们提出了 UniGRPO，这是一种基于统一策略梯度的 RL 算法，专门用于扩散基础模型。UniGRPO 利用多样化的奖励建模，将推理和生成任务的后训练统一起来，确保性能的持续提高。

实验结果表明，作为一种统一的多模态基础模型，MMaDA-8B 具有强大的泛化能力，在文本推理方面超越了 LLaMA-3-7B 和 Qwen2-7B 等模型，在多模态理解方面优于 Show-o 和 SEED-X，在文本到图像的生成方面优于 SDXL 和 Janus。

论文链接：https://arxiv.org/abs/2505.15809

2. 清华李涓子团队：让推理模型学会何时思考

大型推理模型通过采用类似人类的深度思考方式，在多种任务中取得了令人印象深刻的性能。然而，冗长的思考过程大大增加了推理开销，导致效率低下。

在这项工作中，清华大学计算机科学与技术系长聘教授李涓子团队首先证明了“不思考”（NoThinking）——即提示推理模型跳过思考并直接生成最终解决方案——对于相对简单的任务来说，在性能和效率方面都是更好的选择。

受此启发，他们提出了一种新型 RL 算法 AdaptThink，用于指导推理模型根据问题难度自适应地选择最佳思考模式。具体来说，AdaptThink 有两个核心组件：（1）一个有约束的优化目标，鼓励模型在保持整体性能的同时选择“不思考”模式；（2）一个重要度采样策略，在策略训练过程中平衡“思考”和“不思考”样本，从而实现冷启动，并允许模型在整个训练过程中探索和利用两种思考模式。

实验表明，AdaptThink 能够显著降低推理成本，同时进一步提高性能。值得注意的是，在三个数学数据集上，AdaptThink 将 DeepSeek-R1-Distill-Qwen-1.5B 的平均响应长度减少了 53%，并将其准确率提高了 2.4%，这凸显了自适应思考模式选择在优化推理质量和效率之间的平衡方面的前景。

论文链接：https://arxiv.org/abs/2505.13417

3. 清华龙明盛团队：利用强化学习训练世界模型

世界模型可以预测响应动作的状态转换，并越来越多地应用于各种模态。然而，最大似然估计（MLE）等标准训练目标往往与世界模型的特定任务目标（即过渡预测指标，如准确性或感知质量）不一致。

在这项工作中，清华大学软件学院长聘副教授、机器学习课题组负责人龙明盛团队提出了一个统一框架——RLVR-World，其利用可验证奖励强化学习（RLVR）来直接针对此类指标优化世界模型。尽管将世界建模表述为 token 化序列的自回归预测，但 RLVR-World 将解码预测的指标作为可验证奖励进行评估。

他们展示了基于语言和视频的世界模型在文本游戏、网络导航和机器人操作等领域的大幅性能提升。这一工作表明，除了最近在推理语言模型方面取得的进展，RLVR 还为更广泛地提高生成式模型的实用性提供了一种有前景的后训练范式。

论文链接：https://arxiv.org/abs/2505.13934

4. 上海交大团队提出「高效agent训练框架」

长期以来，扩大高质量轨迹数据一直是开发类人 computer use 智能体（agent）的关键瓶颈。

在这项工作中，上海交通大学团队提出了一个高效的 agent 训练框架——PC Agent-E，其可以显著地减少对大规模人类演示的依赖。从仅有的 312 条人类标注的 computer use 轨迹开始，他们通过 Claude 3.7 Sonnet 综合了各种行动决策，进一步提高了数据质量。

在这些轨迹上训练后，PC Agent-E 模型取得了 141% 的相对改进，超越了在 WindowsAgentArena-V2 上进行扩展思考的 Claude 3.7 Sonnet。此外，PC Agent-E 还在 OSWorld 上展示了对不同操作系统的通用性。研究结果表明，少量高质量的轨迹数据可以激发出强大的 computer use 能力。

论文链接：https://arxiv.org/abs/2505.13909

5. 联发科提出「潜流 Transformer」

Transformers 是大语言模型（LLM）的标准实现方式，通常由数十到数百个离散层组成。虽然层数越多性能越好，但这种方法却被质疑效率低下，尤其是考虑到基于扩散和流的图像生成模型所展示的连续层的优越性。

在这项工作中，联发科团队提出了潜流 Transformer（Latent Flow Transformer，LFT），它用通过流匹配训练的单一学习传输算子取代了层块，在保持与原始架构兼容的同时，提供了显著的压缩效果。此外，他们还通过引入 Flow Walking（FW）算法，解决了现有基于流的方法在保持耦合性方面的局限性。

在 Pythia-410M 模型上，使用流匹配训练的 LFT 压缩了 24 层中的 6 层，性能优于直接跳过 2 层（LM logits 的 KL Divergence 为 0.407 vs. 0.529）），证明了这种设计的可行性。当使用 FW 进行训练时，LFT 进一步将 12 层压缩为 1 层，同时将 KL 降低到 0.736，超过了跳过 3 层的 KL（0.932），填补了自回归和基于流的生成范例之间的空白。

论文链接：https://arxiv.org/abs/2505.14513

6. 上海AI Lab提出「视觉代理强化微调」

大型推理模型（如 OpenAI 的 o3）的一个关键趋势是使用外部工具（如用于搜索的网络浏览器和用于图像处理的代码编写/执行）进行图像思考的原生代理能力。在开源社区中，虽然在函数调用和工具集成等纯语言代理能力方面取得了重大进展，但涉及真正用图像思考的多模式代理能力的开发及其相应基准的探索仍然较少。

在这项工作中，来自上海AI Lab 的研究团队及其合作者强调了视觉代理强化微调（Visual-ARFT）在实现大型视觉语言模型（LVLM）的灵活自适应推理能力方面的有效性。有了 Visual-ARFT，开源 LVLM 就有能力浏览网站以获取实时更新的信息，并编写代码，通过裁剪、旋转和其他图像处理技术来处理和分析输入图像。他们还提出了一个多模态代理工具台（MAT），它有两种设置（MAT-Search 和 MAT-Coding），旨在评估 LVLM 的代理搜索和编码能力。

实验结果表明，Visual-ARFT 在 MAT-Coding 上的 F1 +18.6% / EM +13.0%，在 MAT-Search 上的 F1 +10.3% / EM +8.7%，超过了 GPT-4o。Visual-ARFT 还在 2Wiki 和 HotpotQA 等多跳 QA 基准上实现了 +29.3 F1% / +25.9% EM 的提高，展示了优秀的泛化能力。

论文链接：https://arxiv.org/abs/2505.14246

7. 斯坦福团队推出「通用用户模型」架构

从我们的偏好和习惯，到我们日常行为的时机和目的，人机交互技术一直被认为是能够理解我们的技术。然而，目前的用户模型仍然是碎片化的，狭隘地为特定应用程序量身定制，无法实现这些愿景所需的灵活推理。

在这项工作中，来自斯坦福大学的研究团队及其合作者提出了“通用用户模型”（GUM）架构，它可以通过观察你与计算机的任何交互来了解你。例如，GUM 可以从用户与朋友的信息中推断出用户正在为参加婚礼做准备。GUM 引入了一种架构，可以从多模态观察中推断出关于用户的新命题，检索相关命题的上下文，并不断修正现有命题。

为了说明 GUM 能够支持的应用范围，他们演示了 GUM 如何利用上下文增强基于聊天的助手、管理操作系统通知以有选择性地显示重要信息，以及支持交互式 agent 以适应跨应用程序的偏好。他们还实例化了主动式助手（GUMBOs），它们使用 GUM 代表用户发现并执行有用的建议。在评估中，GUM 能够对用户做出准确的推断，而且基于 GUM 的助手能够主动识别并执行用户不会明确要求的操作。

论文链接：https://arxiv.org/abs/2505.10831

8. Robin：「科学发现自动化」多agent系统

科学发现是由背景研究、假设生成、实验和数据分析等迭代过程驱动的。尽管最近在将人工智能（AI）应用于科学发现方面取得了进展，但还没有系统能够在单一工作流程中自动完成所有这些阶段。

在这项工作中，FutureHouse 团队提出了第一个能够将科学过程中的关键智力步骤完全自动化的多 agent 系统——Robin，其通过整合文献搜索 agent 和数据分析 agent，可以生成假设、提出实验建议、解释实验结果并生成更新的假设，从而实现半自主的科学发现方法。

通过应用这一系统，他们找到了治疗干性老年性黄斑变性（dAMD）的新方法，而 dAMD 是人们失明的主要原因。Robin 提出将增强视网膜色素上皮细胞的吞噬功能作为一种治疗策略，并确定和验证了一种很有前景的候选治疗药物——ripasudil，这是一种临床上常用的Rho激酶（ROCK）抑制剂，以前从未被提议用于治疗 dAMD。为了阐明 ripasudil 诱导吞噬作用上调的机制，Robin 随后提出并分析了后续的 RNA-seq 实验，结果发现了 ABCA1 的上调，ABCA1 是一种关键的脂质外流泵，也可能是新的靶点。

据介绍，该论文中的所有假设、实验计划、数据分析和数据图表均由 Robin 完成。作为首个在迭代式“lab-in-the-loop”框架内自主发现和验证新型候选疗法的人工智能系统，Robin 为人工智能驱动的科学发现建立了一个新范式。

论文链接：https://arxiv.org/abs/2505.13400

9. 微软推出大型混合推理模型 LHRM

与大语言模型（LLM）相比，大型推理模型（LRM）通过在生成最终响应前加入扩展的思考过程，提高了推理能力。但是，过长的思考过程会在 token 消耗和延迟方面带来大量开销，对于简单查询来说尤其没有必要。

在这项工作中，微软团队提出了大型混合推理模型（LHRM），这是一个可以根据用户查询的上下文信息自适应地决定是否进行思考的模型。为此，他们提出了一个两阶段的训练管道，包括作为冷启动的混合微调（HFT），以及使用混合群组策略优化（HGPO）的在线强化学习，从而隐式学习选择适当的思考模式。此外，他们还提出了一个名为“混合精度”（Hybrid Accuracy）的指标，用于定量评估模型的混合思维能力。

实验结果表明，LHRM 可以自适应地对不同难度和类型的查询进行混合思考。它在推理和通用能力方面优于现有的 LRM 和 LLM，同时提高了效率。

论文链接：https://arxiv.org/abs/2505.14631

10. 微软推出「奖励推理模型」RRM

奖励模型在引导大语言模型（LLM）输出符合人类期望的结果方面发挥重要作用。然而，如何有效地利用测试时计算来提高奖励模型的性能仍然是一个挑战。

在这项工作中，微软团队提出了奖励推理模型（Reward Reasoning Models，RRM），其专门用于在生成最终奖励之前执行深思熟虑的推理过程。通过思维链推理，奖励推理模型可以利用额外的测试时计算来处理复杂的查询。为了开发 RRM，他们推出了一个强化学习框架，其无需明确的推理轨迹作为训练数据，就能培养自进化的奖励推理能力。

实验结果表明，RRM 在不同领域的奖励建模基准上都取得了很好的性能。值得注意的是，RRM 可以自适应地利用测试时计算来进一步提高奖励的准确性。

论文链接：https://arxiv.org/abs/2505.14674

11. 微软推出「语言模型链」CoLM

来自微软的研究团队及其合作者提出了一种新的学习范式——“模型链”（Chain-of-Model，CoM），它将因果关系以链的形式纳入每一层的隐藏状态，从而在模型训练中提高扩展效率、在部署中增加推理灵活性。

他们还提出了“表征链”（Chain-of-Representation，CoR）的概念，将每一层的隐藏状态表述为隐藏维度上多个子表征（即链）的组合。在每一层中，来自输出表征的每个链只能查看输入表征中其前面的所有链。因此，建立在 CoM 框架上的模型可以通过增加基于先前模型（即链）的链来逐步扩大模型规模，并通过使用不同的链数提供多个不同规模的子模型以进行弹性推理。基于这一原理，他们设计了语言模型链（CoLM），将 CoM 的理念融入 Transformer 架构的每一层。在 CoLM 的基础上，他们进一步推出了 CoLM-Air，引入了 KV 共享机制，在第一条链中计算所有键和值，然后在所有链中共享。这一设计展示了更多的可扩展性，如实现无缝 LM 切换、预填充加速等。

实验结果表明，CoLM 系列可以实现与标准 Transformer 相当的性能，同时还具有更大的灵活性，如渐进式扩展以提高训练效率，并为弹性推理提供多种不同的模型大小。

论文链接：https://arxiv.org/abs/2505.11820

整理：学术君

如需转载或投稿，请直接在公众号内留言

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.