追平满血版o1的国产多模态模型终于来了！训练细节全部公开|算法|轨迹|样本|上下文|kimi

追平满血版o1的国产多模态模型终于来了！训练细节全部公开

2025-01-21 11:08:52　来源: 机器之心Pro

北京举报

分享至

机器之心报道

机器之心编辑部

春节前最后一周，能媲美 Open AI 满血版 o1（Full Version，而非 preview）的模型终于出现了！

刚刚，月之暗面公布了他们的 Kimi k 系列模型最新版本 ——k1.5 多模态思考模型。新模型在数学、代码、多模态推理能力等方面全面对标 Open AI 满血版 o1，而且是 OpenAI 之外首个多模态 o1。尤其是 kimi-k1.5-short，成为 SOTA short cot 模型，并大幅领先 GPT-4o 和 Claude 3.5 Sonnet（提升幅度高达 550%）

这是 Open AI 之外，首次有模型在数学和代码能力上达到满血 o1，月之暗面也是国内第一个达到该水平的 AI 公司。在此之前，部分模型在各类 Benchmark 上可以达到 50 分、60 分的水平（相当于 o1-preview），而 o1 满血版是 80 分、90 分水平，Kimi k1.5 的成绩令人眼前一亮。

这一切是怎么做到的呢？在 Kimi 技术团队同步发布的技术报告中，我们可以看到他们在新技术范式下的模型训练技术探索之路。

技术报告：Kimi k1.5：借助大语言模型实现强化学习的 Scaling
报告链接：https://github.com/MoonshotAI/kimi-k1.5

这种技术透明度在当前竞争激烈的大模型市场上并不多见。在谈及为什么要这么做时，月之暗面表示，「因为我们意识到，AGI 之旅才刚刚开始。我们想让更多技术人才了解我们在做的事情，加入我们一起做到更多」。

Kimi k1.5 多项测试，全部 SOTA

从技术报告来看，Kimi k1.5 多模态推理模型实现了 SOTA （state-of-the-art）级别的推理和通用能力，具体而言：

在 long-CoT 模式下，Kimi k1.5 在数学、代码及多模态推理能力上，达到长思考 SOTA 模型 OpenAI o1 正式版的水平。Kimi k1.5 在 AIME 上达到 77.5 分，在 MATH 500 上达到 96.2 分，在 Codeforces 上达到 94 百分位，在 MathVista 上达到 74.9 分。

这应该是全球范围内，OpenAI 之外的公司首次实现 o1 满血版性能。此前的模型只能达到 o1-preview 或 o1-mini 的推理能力。

在 short-CoT 模式下，Kimi k1.5 在数学、代码、视觉多模态和通用能力上，也达到了全球范围内短思考 SOTA 模型，并大幅领先 GPT-4o 和 Claude 3.5 Sonnet 的水平。比如，Kimi k1.5 在 AIME 上达到 60.8 分，MATH500 上达到 94.6 分，LiveCodeBench 上达到 47.3 分。

不仅如此，从全球前沿大模型数学竞赛和编程竞赛基准测试来看，Kimi k1.5 的表现也相当不错，处于全球第一梯队，而这两项测试代表了人类智商巅峰。

总之，从 Benchmark 数据来看，k1.5 的推理能力实现了很大提升，可以帮助我们解锁更难的代码、数学、生活等问题。

Kimi k1.5 是怎么练成的？

随着模型尺寸逐渐增大，预训练阶段参数 scaling up 带来的边际收益开始递减，如果想要深度提升模型推理能力和长程问题能力，基于强化学习的 Post-Training 将会成为下一个突破点 [1]，因为 scaling 强化学习为人工智能的持续进步开辟了新的维度，它使得大语言模型能够通过带有奖励的探索学习来扩展其训练数据，从而也实现计算规模的扩展。

大的方向非常明确，然而，此前发表的研究工作尚未产生具有竞争力的结果。

有鉴于此，Kimi 技术团队在 Kimi k1.5 的训练实践中全面探索了 RL 训练技术、多模态数据配方和基础设施优化。

难得的是，他们探索出的 RL 框架简单、有效，无需依赖蒙特卡洛树搜索、价值函数和过程奖励模型等更复杂的技术也能取得优异的性能。

此外，他们还提出了有效的 long2short 技术，利用 Long-CoT 技术来改进 Short-CoT 模型，使得模型在短链思维推理方面取得了最佳成果。

简单、有效的 RL 框架

Kimi 技术团队设计的简单而有效的 RL 框架离不开两个关键要素：长上下文 scaling 和改进的策略优化。

先说长上下文 scaling。他们将强化学习的上下文窗口 scale 到 128k，并观察到随着上下文长度的增加，模型性能持续改善。新方法背后的一个关键理念是使用 partial rollout 来提高训练效率 —— 即通过重用大量以前的轨迹来采样新的轨迹，避免从头重新生成新轨迹的成本。技术团队的观察表明，上下文长度是大语言模型强化学习持续 scaling 的一个关键维度。

再来看策略优化的改进。他们推导出了一个具有 long-CoT 的强化学习公式，并采用在线镜像下降法的变体来实现稳健的策略优化。通过有效的采样策略、长度惩罚和数据配方的优化，他们进一步改进了该算法。

通过将这两个关键要素结合，Kimi 技术团队建立了一个用于 LLM 学习的简化强化学习框架。由于该框架能够 scale 上下文长度，学习到的 CoT 展现出规划、反思和纠正的特性。增加的上下文长度具有增加搜索步骤数量的效果。因此，他们表明无需依赖蒙特卡洛树搜索、价值函数和过程奖励模型等更复杂的技术也能实现强大的性能。

此外，他们的模型还在文本和视觉数据上进行了联合训练，具备对这两种模态进行联合推理的能力。

long2short 技术

尽管 long-CoT 模型在性能上表现出色，但与标准的 short-CoT LLM 相比，它在测试时消耗的 token 数量更多。然而，Kimi 技术团队发现将 long-CoT 模型的思维先验迁移到 short-CoT 模型中是可能的，从而在有限的测试 token 预算下提升性能。

他们提出了几种解决这一 long2short 问题的方法，包括模型融合、最短拒绝采样、DPO 以及 long2short RL。以下是这些方法的详细描述：

模型融合。团队人员发现模型融合（Model Merging）有助于保持模型的泛化能力。他们还发现，在融合 long-CoT 模型和 short-CoT 模型时，模型融合也能有效提升 token 效率。这种方法通过将 long-CoT 模型与 short-CoT 模型结合，从而在不进行训练的情况下获得一个新模型。具体来说，他们通过简单地平均两个模型的权重来实现融合。

最短拒绝采样。研究者观察到，模型在回答相同问题时生成的响应长度存在较大差异。基于此，他们设计了最短拒绝采样（Shortest Rejection Sampling）方法。该方法对同一个问题采样 n 次（实验中，n=8），并选择最短的正确响应进行监督微调。

DPO。与最短拒绝采样类似，团队人员利用 Long CoT 模型生成多个响应样本。并选择最短的正确解决方案作为正样本，而较长的响应则被视为负样本，包括错误的较长响应和正确的较长响应。这些正负样本对构成了用于 DPO 训练的成对偏好数据。

Long2short RL。在标准的 RL 训练阶段之后，团队人员选择一个在性能和 token 效率之间达到最佳平衡的模型作为基础模型，并进行单独的 long2short RL 训练阶段。在这个第二阶段中，他们还应用了长度惩罚机制，从而显著减少最大 rollout 长度，以进一步惩罚那些超出期望长度但可能正确的响应。

除了以上这些，Kimi k1.5 的技术报告还透露了很多信息。感兴趣的读者可以去阅读原文。

2025：加速升级 k 系列强化学习模型

OpenAI 于 2024 年 5 月、9 月推出的 GPT-4o、o1 两个模型，分别代表了多模态理解、强化学习两条技术路线。在这两条路线上，国内 AI 公司都在陆续发力，并在最近展开了激烈竞争。如今，Kimi 模型在能力上最接近 o1，这让外界对这家公司在 2025 年的表现充满了期待。

月之暗面表示，2025 年，他们会继续加速升级 k 系列强化学习模型，带来更多模态、更多领域的能力和更强的通用能力。

我们也期待新模型的早日上线！

参考链接：[1] https://mp.weixin.qq.com/s/FXGdJA8OyZvLl89rXJiyAQ

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.