网易首页 > 网易号 > 正文 申请入驻

DeepSeek-R1“思维学”;苹果:原生多模态模型的Scaling Laws|今日热门论文

0
分享至

速览热门论文

1.DeepSeek-R1“思维学”

2.苹果:原生多模态模型的 Scaling Laws

3.7B 模型超越 o1!视觉推理新突破:所需样本少,还能自提升

4.MIT 团队提出“自我引导”LM 方法 DisCIPL

5.MM-IFEngine:迈向多模态指令跟随

6.上海 AI Lab:利用强化微调增强 MLLM 时空感知

1. DeepSeek-R1“思维学”

像 DeepSeek-R1 这样的推理模型标志着大语言模型(LLM)在处理复杂问题方式上的根本转变。DeepSeek-R1 不是直接根据给定输入生成答案,而是创建详细的多步推理链,仿佛在“思考”问题后再做出回答。

这个推理过程是公开透明的,用户可以查看,为研究模型的推理行为创造了机会,并催生了一个新领域:思维学(Thoughtology)。

Mila 团队从 DeepSeek-R1 的基本推理构件分类法出发,对 DeepSeek-R1 进行了分析,研究了思维长度的影响和可控性、对冗长或混乱上下文的管理、文化和安全问题,以及与人类认知现象(如类人语言处理与世界建模)之间的关系。

他们发现,DeepSeek-R1 有一个推理的“甜蜜点”,超过这个点的额外推理时间反而会损害模型性能。此外,DeepSeek-R1 还会反复纠结于已探索过的问题表述,从而阻碍了进一步的探索。与其非推理模型相比,DeepSeek-R1 存在很强的安全漏洞,这也会损害安全对齐的 LLM。

论文链接:

https://arxiv.org/abs/2504.07128

2. 苹果:原生多模态模型的 Scaling Laws

构建能够通过多模态信号有效感知世界的通用模型,一直是人工智能(AI)领域的长期目标。

目前的方法包括整合单独的预训练组件,例如将视觉编码器与大语言模型(LLM)连接,并继续进行多模态训练。虽然这些方法显示出显著的采样效率,但这种“晚期融合架构”是否具有固有的优越性仍是一个未决问题。

在这项工作中,苹果团队重新审视了原生多模态模型(NMM)的架构设计并进行了广泛的 scaling laws 研究,涵盖了 457 个具有不同架构和训练 mixture 的训练模型。研究表明,与不依赖图像编码器的早期融合架构相比,晚期融合架构

并没有固有优势。相反,早期融合架构在参数较少的情况下表现出更强的性能,训练效率更高,也更容易部署。受早期融合架构性能优势的启发,他们展示了将混合专家(MoE)纳入模型可以学习特定模态的权重,从而显著提高性能。

论文链接:

https://arxiv.org/abs/2504.07951

3. 7B 模型超越 o1!视觉推理新突破:所需样本少,还能自提升

在这项工作中,来自马里兰大学和微软的研究团队提出了一种增强视觉推理的有效方法,其所需训练样本少,纯粹依靠自我改进,且没有知识提炼。

他们认为,强化微调(RFT)过程中训练数据的难度至关重要,即使数据集很小,适当的挑战样本也能大幅提高推理能力。因此,主要的挑战仍然是如何准确量化样本难度,以实现有效的数据筛选。

为此,他们提出了重新利用蒙特卡洛树搜索(MCTS)的新方法。从他们策划的 70k 个开源训练样本开始,他们引入了一种基于 MCTS 的选择方法,该方法根据 VLM 解决每个问题所需的迭代次数来量化样本难度。MCTS 中这种明确的

分步推理方法能让模型思考更长的时间,从而更好地识别真正具有挑战性的样本。他们筛选并保留了 11k 个样本,在 Qwen2.5-VL-7B-Instruct 上执行 RFT,最终形成了 ThinkLite-VL 模型。

对 8 个基准的评估结果表明,ThinkLite-VL 在仅使用 11k 个训练样本且未进行知识提炼的情况下,将 Qwen2.5-VL-7B-Instruct 的平均性能提高了 7%,优于所有现有的 7B 级推理 VLM,也优于他们使用经典选择方法(如基于准确性的过滤)的对比基线。值得注意的是,在 MathVista 上,ThinkLite-VL-7B 实现了 SoTA 准确率 75.1,超过了 Qwen2.5-VL-72B、GPT-4o 和 o1。

论文链接:

https://arxiv.org/abs/2504.07934

4. MIT 团队提出“自我引导”LM 方法 DisCIPL

虽然测试时推理使语言模型(LM)能够处理复杂的任务,但用自然语言进行搜索或规划可能会很慢、成本很高,而且容易出错。然而,尽管语言模型难以模仿解决问题所需的精确推理步骤,它们也往往擅长描述问题的抽象结构——包括如何验证解决方案,以及如何搜索解决方案。

在这项工作中,麻省理工学院(MIT)团队提出了一种“自我引导”LM 方法 DisCIPL,即一个 Planner 模型生成一个特定于任务的推理程序,一群

Follower 模型来执行这一程序。这一方法使 LM 具备了编写指导 LM 推理的递归搜索程序的能力,从而实现了新形式的可验证和高效推理。

当实例化为一个小型 Follower 模型(例如 Llama-3.2-1B)时,DiscIPL 可以在具有挑战性的受限生成任务中比肩(有时甚至优于)

更大型的模型,包括 GPT-4o 和 o1。通过将规划与执行解耦,这一工作为高度并行化的蒙特卡洛推理策略开辟了设计空间,这些策略优于标准的 best-of-N 采样,无需微调,且可以由现有的 LM 自动实现。

论文链接:

https://arxiv.org/abs/2504.07081

5. MM-IFEngine:迈向多模态指令跟随

指令跟踪(IF)能力衡量的是多模态大语言模型(MLLM)对用户指令的准确理解以及正确解决问题的程度。现有多模态指令跟踪训练数据很少,基准都是简单的原子指令,而且对于要求精确输出约束的任务来说,评估策略并不精确。

为了解决这一问题,上海 AI Lab 团队提出了一个生成高质量图像指令对的有效管道——MM-IFEngine,其可以生成大规模、多样化和高质量的训练数据 MM-IFInstruct-23k,该数据适用于监督微调(SFT),并可扩展为用于直接偏

好优化(DPO)的 MM-IFDPO-23k。他们进一步提出了一个具有挑战性和多样性的多模态指令跟随基准——MM-IFEval,包括:(1)输出响应的合成级约束和与输入图像相关的感知级约束;(2)包含基于规则的评估和法官模型的综合评估管道。

SFT 和 DPO 实验证明,在 MM-IFInstruct-23k 和 MM-IFDPO-23k 上对 MLLM 进行微调,可在 MM-IFEval(+10.2%)、MIA(+7.6%)和 IFEval(+12.3%)等指令跟随基准上实现性能提升。

论文链接:

https://arxiv.org/abs/2504.07957

6. 上海 AI Lab:利用强化微调增强 MLLM 时空感知

强化学习提高了多模态大语言模型(MLLM)的推理能力。虽然群体相对策略优化(GRPO)和基于规则的奖励机制等方法已经应用于文本和图像领域,但它们在视频理解方面的应用仍然有限。

在这项工作中,上海 AI Lab 团队介绍了针对视频 MLLM 的强化微调(RFT)与 GRPO 的系统探索,旨在增强时空感知,同时保持通用能力。

实验表明,RFT 对特定任务的提升具有很高的数据效率。通过对样本有限的时空感知目标进行多任务 RFT,他们开发出了视频 MLLM——VideoChat-R1,其在不牺牲聊天能力的前提下,在时空感知任务上实现了 SOTA,同时展现了时空推理能力。与 Qwen2.5-VL-7B 相比,VideoChat-R1 在时间接地(+31.8)和物体跟踪(+3

1.2)等任务上的性能提高了数倍。此外,它还提高了通用问答基准的性能,如 VideoMME(+0.9)、MVBench(+1.0)和 Perception Test(+0.9)。这一研究结果凸显了 RFT 在增强视频 MLLM 的专业任务方面的潜力。

论文链接:

https://arxiv.org/abs/2504.06958

整理:学术君

如需转载或投稿,请直接在公众号内留言

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
Manus的两名联合创始人被告知不要离开中国

Manus的两名联合创始人被告知不要离开中国

新浪财经
2026-03-26 13:50:59
手机放床头辐射伤身?央视实验给出答案:这样放手机,辐射降10倍

手机放床头辐射伤身?央视实验给出答案:这样放手机,辐射降10倍

天气观察站
2026-03-24 19:02:53
很多被奉为经典的古文,很难说有多少教育意义

很多被奉为经典的古文,很难说有多少教育意义

小院之观
2026-03-24 08:30:13
痛别张雪峰!峰学蔚来接班人确定,事业将继续

痛别张雪峰!峰学蔚来接班人确定,事业将继续

大熊欢乐坊
2026-03-26 19:17:05
绝杀!杜兰特27+3,谢泼德23+14+4,乌度卡下课吧,你配不上火箭

绝杀!杜兰特27+3,谢泼德23+14+4,乌度卡下课吧,你配不上火箭

巴叔GO聊体育
2026-03-27 10:21:35
Manus两名高管禁止离境? 外交部回应

Manus两名高管禁止离境? 外交部回应

每日经济新闻
2026-03-26 16:36:02
80年陈云建议陈锡联辞职,陈锡联猛拍桌:让我干啥,我绝无二话!

80年陈云建议陈锡联辞职,陈锡联猛拍桌:让我干啥,我绝无二话!

抽象派大师
2026-03-25 12:04:28
生死12分钟!广东一男子踢球时心脏骤停 一群医生冲上前接力心肺复苏救回一命

生死12分钟!广东一男子踢球时心脏骤停 一群医生冲上前接力心肺复苏救回一命

闪电新闻
2026-03-26 11:46:05
以色列没水没药没人管,导弹炸完基地瘫痪,世界集体装瞎

以色列没水没药没人管,导弹炸完基地瘫痪,世界集体装瞎

网络易不易
2026-03-26 15:05:07
日本东京商业区发生持刀伤人事件2人死亡

日本东京商业区发生持刀伤人事件2人死亡

新华社
2026-03-26 21:10:15
CBA最新排名:青岛准绝杀广州重返前8 北控主场不敌同曦送温暖

CBA最新排名:青岛准绝杀广州重返前8 北控主场不敌同曦送温暖

狼叔评论
2026-03-26 22:22:04
想拿中国尿素救春耕?先把欠中企的百亿欠款还了!否则一粒不售

想拿中国尿素救春耕?先把欠中企的百亿欠款还了!否则一粒不售

小小科普员
2026-03-26 19:07:33
金融才女朱丽丽:一顿饭百万,八年敛财十四亿终落网

金融才女朱丽丽:一顿饭百万,八年敛财十四亿终落网

大眼妹妹
2026-03-27 01:38:29
塞尔维亚购买中国超音速导弹?国防部:正常军贸合作,不针对第三方

塞尔维亚购买中国超音速导弹?国防部:正常军贸合作,不针对第三方

澎湃新闻
2026-03-26 17:24:26
南京女教师停职风波反转!大批家长发声力挺,恳请恢复岗位与声誉

南京女教师停职风波反转!大批家长发声力挺,恳请恢复岗位与声誉

火山詩话
2026-03-26 06:37:23
一定要大量读书:建议读完这5本书,再去处理复杂的人际关系

一定要大量读书:建议读完这5本书,再去处理复杂的人际关系

欣辰读书
2026-03-25 23:00:41
张柏芝机场接Lucas爆火!18岁儿子先接包再拥抱,网友:教养绝了

张柏芝机场接Lucas爆火!18岁儿子先接包再拥抱,网友:教养绝了

乡野小珥
2026-03-27 01:18:57
那些年岛国不喜欢骑马的步兵女老师,你更钟意谁?

那些年岛国不喜欢骑马的步兵女老师,你更钟意谁?

碧波万览
2026-03-27 00:50:03
上海交大解剖405名心梗死者,惊讶发现患心梗的人,有几个共性

上海交大解剖405名心梗死者,惊讶发现患心梗的人,有几个共性

新时代的两性情感
2026-03-25 16:37:36
美股股指期货扩大涨幅,其中标普500指数期货涨幅扩大至 0.5%

美股股指期货扩大涨幅,其中标普500指数期货涨幅扩大至 0.5%

每日经济新闻
2026-03-27 08:09:04
2026-03-27 10:32:49
学术头条
学术头条
致力于学术传播和科学普及,重点关注AI4Science、大模型等前沿科学进展。
1430文章数 5081关注度
往期回顾 全部

科技要闻

OpenAI果断砍掉"成人模式",死磕生产力

头条要闻

65岁上海老伯相信"33岁女老师"给自己生儿子 被骗16万

头条要闻

65岁上海老伯相信"33岁女老师"给自己生儿子 被骗16万

体育要闻

申京努力了,然而杜兰特啊

娱乐要闻

刘晓庆妹妹发声!称姐姐受身边人挑拨

财经要闻

很反常!油价向上,黄金向下

汽车要闻

一汽奥迪A6L e-tron开启预售 CLTC最大续航815km

态度原创

时尚
房产
艺术
手机
军事航空

张雪峰曾经“5次谈猝死”

房产要闻

劲销64亿后,海口这座改善标杆盘,又要引爆楼市!

艺术要闻

江青的书法秘诀!只练草书真的能提升书法水平吗?

手机要闻

消息称苹果iOS 27拓展“液态玻璃”,要求所有App跟进

军事要闻

担心特朗普突然停战 以总理下令48小时尽力摧毁伊设施

无障碍浏览 进入关怀版