DeepSeek-R1“思维学”；苹果：原生多模态模型的Scaling Laws｜今日热门论文|推理|样本|laws|苹果公司|知名企业|云计算费用|scaling|deepseek

DeepSeek-R1“思维学”；苹果：原生多模态模型的Scaling Laws｜今日热门论文

2025-04-11 20:48:33　来源: 学术头条

北京举报

分享至

速览热门论文

1.DeepSeek-R1“思维学”

2.苹果：原生多模态模型的 Scaling Laws

3.7B 模型超越 o1！视觉推理新突破：所需样本少，还能自提升

4.MIT 团队提出“自我引导”LM 方法 DisCIPL

5.MM-IFEngine：迈向多模态指令跟随

6.上海 AI Lab：利用强化微调增强 MLLM 时空感知

1. DeepSeek-R1“思维学”

像 DeepSeek-R1 这样的推理模型标志着大语言模型（LLM）在处理复杂问题方式上的根本转变。DeepSeek-R1 不是直接根据给定输入生成答案，而是创建详细的多步推理链，仿佛在“思考”问题后再做出回答。

这个推理过程是公开透明的，用户可以查看，为研究模型的推理行为创造了机会，并催生了一个新领域：思维学（Thoughtology）。

Mila 团队从 DeepSeek-R1 的基本推理构件分类法出发，对 DeepSeek-R1 进行了分析，研究了思维长度的影响和可控性、对冗长或混乱上下文的管理、文化和安全问题，以及与人类认知现象（如类人语言处理与世界建模）之间的关系。

他们发现，DeepSeek-R1 有一个推理的“甜蜜点”，超过这个点的额外推理时间反而会损害模型性能。此外，DeepSeek-R1 还会反复纠结于已探索过的问题表述，从而阻碍了进一步的探索。与其非推理模型相比，DeepSeek-R1 存在很强的安全漏洞，这也会损害安全对齐的 LLM。

论文链接：

https://arxiv.org/abs/2504.07128

2. 苹果：原生多模态模型的 Scaling Laws

构建能够通过多模态信号有效感知世界的通用模型，一直是人工智能（AI）领域的长期目标。

目前的方法包括整合单独的预训练组件，例如将视觉编码器与大语言模型（LLM）连接，并继续进行多模态训练。虽然这些方法显示出显著的采样效率，但这种“晚期融合架构”是否具有固有的优越性仍是一个未决问题。

在这项工作中，苹果团队重新审视了原生多模态模型（NMM）的架构设计并进行了广泛的 scaling laws 研究，涵盖了 457 个具有不同架构和训练 mixture 的训练模型。研究表明，与不依赖图像编码器的早期融合架构相比，晚期融合架构

并没有固有优势。相反，早期融合架构在参数较少的情况下表现出更强的性能，训练效率更高，也更容易部署。受早期融合架构性能优势的启发，他们展示了将混合专家（MoE）纳入模型可以学习特定模态的权重，从而显著提高性能。

论文链接：

https://arxiv.org/abs/2504.07951

3. 7B 模型超越 o1！视觉推理新突破：所需样本少，还能自提升

在这项工作中，来自马里兰大学和微软的研究团队提出了一种增强视觉推理的有效方法，其所需训练样本少，纯粹依靠自我改进，且没有知识提炼。

他们认为，强化微调（RFT）过程中训练数据的难度至关重要，即使数据集很小，适当的挑战样本也能大幅提高推理能力。因此，主要的挑战仍然是如何准确量化样本难度，以实现有效的数据筛选。

为此，他们提出了重新利用蒙特卡洛树搜索（MCTS）的新方法。从他们策划的 70k 个开源训练样本开始，他们引入了一种基于 MCTS 的选择方法，该方法根据 VLM 解决每个问题所需的迭代次数来量化样本难度。MCTS 中这种明确的

分步推理方法能让模型思考更长的时间，从而更好地识别真正具有挑战性的样本。他们筛选并保留了 11k 个样本，在 Qwen2.5-VL-7B-Instruct 上执行 RFT，最终形成了 ThinkLite-VL 模型。

对 8 个基准的评估结果表明，ThinkLite-VL 在仅使用 11k 个训练样本且未进行知识提炼的情况下，将 Qwen2.5-VL-7B-Instruct 的平均性能提高了 7%，优于所有现有的 7B 级推理 VLM，也优于他们使用经典选择方法（如基于准确性的过滤）的对比基线。值得注意的是，在 MathVista 上，ThinkLite-VL-7B 实现了 SoTA 准确率 75.1，超过了 Qwen2.5-VL-72B、GPT-4o 和 o1。

论文链接：

https://arxiv.org/abs/2504.07934

4. MIT 团队提出“自我引导”LM 方法 DisCIPL

虽然测试时推理使语言模型（LM）能够处理复杂的任务，但用自然语言进行搜索或规划可能会很慢、成本很高，而且容易出错。然而，尽管语言模型难以模仿解决问题所需的精确推理步骤，它们也往往擅长描述问题的抽象结构——包括如何验证解决方案，以及如何搜索解决方案。

在这项工作中，麻省理工学院（MIT）团队提出了一种“自我引导”LM 方法 DisCIPL，即一个 Planner 模型生成一个特定于任务的推理程序，一群

Follower 模型来执行这一程序。这一方法使 LM 具备了编写指导 LM 推理的递归搜索程序的能力，从而实现了新形式的可验证和高效推理。

当实例化为一个小型 Follower 模型（例如 Llama-3.2-1B）时，DiscIPL 可以在具有挑战性的受限生成任务中比肩（有时甚至优于）

更大型的模型，包括 GPT-4o 和 o1。通过将规划与执行解耦，这一工作为高度并行化的蒙特卡洛推理策略开辟了设计空间，这些策略优于标准的 best-of-N 采样，无需微调，且可以由现有的 LM 自动实现。

论文链接：

https://arxiv.org/abs/2504.07081

5. MM-IFEngine：迈向多模态指令跟随

指令跟踪（IF）能力衡量的是多模态大语言模型（MLLM）对用户指令的准确理解以及正确解决问题的程度。现有多模态指令跟踪训练数据很少，基准都是简单的原子指令，而且对于要求精确输出约束的任务来说，评估策略并不精确。

为了解决这一问题，上海 AI Lab 团队提出了一个生成高质量图像指令对的有效管道——MM-IFEngine，其可以生成大规模、多样化和高质量的训练数据 MM-IFInstruct-23k，该数据适用于监督微调（SFT），并可扩展为用于直接偏

好优化（DPO）的 MM-IFDPO-23k。他们进一步提出了一个具有挑战性和多样性的多模态指令跟随基准——MM-IFEval，包括：（1）输出响应的合成级约束和与输入图像相关的感知级约束；（2）包含基于规则的评估和法官模型的综合评估管道。

SFT 和 DPO 实验证明，在 MM-IFInstruct-23k 和 MM-IFDPO-23k 上对 MLLM 进行微调，可在 MM-IFEval（+10.2%）、MIA（+7.6%）和 IFEval（+12.3%）等指令跟随基准上实现性能提升。

论文链接：

https://arxiv.org/abs/2504.07957

6. 上海 AI Lab：利用强化微调增强 MLLM 时空感知

强化学习提高了多模态大语言模型（MLLM）的推理能力。虽然群体相对策略优化（GRPO）和基于规则的奖励机制等方法已经应用于文本和图像领域，但它们在视频理解方面的应用仍然有限。

在这项工作中，上海 AI Lab 团队介绍了针对视频 MLLM 的强化微调（RFT）与 GRPO 的系统探索，旨在增强时空感知，同时保持通用能力。

实验表明，RFT 对特定任务的提升具有很高的数据效率。通过对样本有限的时空感知目标进行多任务 RFT，他们开发出了视频 MLLM——VideoChat-R1，其在不牺牲聊天能力的前提下，在时空感知任务上实现了 SOTA，同时展现了时空推理能力。与 Qwen2.5-VL-7B 相比，VideoChat-R1 在时间接地（+31.8）和物体跟踪（+3

1.2）等任务上的性能提高了数倍。此外，它还提高了通用问答基准的性能，如 VideoMME（+0.9）、MVBench（+1.0）和 Perception Test（+0.9）。这一研究结果凸显了 RFT 在增强视频 MLLM 的专业任务方面的潜力。

论文链接：

https://arxiv.org/abs/2504.06958

整理：学术君

如需转载或投稿，请直接在公众号内留言

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.