OpenAI之后首个多模态o1发布，这篇技术报告讲清楚了！｜甲子光年|算法|推理|上下文|kimi|openai

OpenAI之后首个多模态o1发布，这篇技术报告讲清楚了！｜甲子光年

2025-01-21 21:35:04　来源: 甲子光年

北京举报

分享至

给OpenAI亿点点压力？

作者｜苏霍伊

编辑｜赵健

最近一周，一波又一波新模型赶在春节前上新，你方唱罢我登场，仿佛就是“AI春晚”一般热闹。

昨晚，DeepSeek与月之暗面Kimi在相隔20分钟的时间里发布推理模型，并且都放出了详尽的技术报告。这两家年轻的、备受瞩目的AI新星“中门对狙”，引发了众多AI从业者的围观。

同样是对标o1的推理模型，DeepSeek与Kimi的这次发布有什么不同？首先，这次两家公司发布的都是满血版o1，从数学、代码基准测试分数看，和过往类o1-preview模型有明显差距。

虽然DeepSeek R1和Kimi k-1.5都侧重以强化学习（RL）为核心驱动力，但在具体的技术路线和模式设计上却“分道扬镳”。

英伟达AI科学家Jim Fan第一时间发帖对比。他发现，Kimi和DeepSeek的论文惊人地集中在类似的发现上：

不需要像 MCTS 那样复杂的树搜索。只需将思维轨迹线性化，然后进行传统的自回归预测即可；不需要需要另一个昂贵的模型副本的价值函数；无需密集奖励建模。尽可能依赖事实和最终结果。

两者的差异点在于：

DeepSeek 采用 AlphaZero 方法 - 纯粹通过 RL 引导，无需人工输入，即“冷启动”。Kimi 采用 AlphaGo-Master 方法：通过即时设计的 CoT 跟踪进行轻度 SFT 预热。 DeepSeek 权重是 MIT 许可证（思想领导力！）；Kimi K1.5尚未正式上线。 Kimi 在 MathVista 等基准测试中表现出强大的多模式性能(!) ，这需要对几何、智商测试等有视觉理解（DeepSeek目前只能识别文字，不支持图片识别）。 Kimi 的论文在系统设计上有更多细节：RL 基础设施、混合集群、代码沙箱、并行策略；以及学习细节：长上下文、CoT 压缩、课程、采样策略、测试用例生成等。

虽然Kimi没有开源，Kimi分享了更多的训练策略、数据与AI Infra方面的信息，并且其推理模型的测评成绩在业内首屈一指。

1.OpenAI之外首个多模态o1

过去，Kimi一直采取的是模型闭源路线。业内人士评估，此次k1.5技术报告的公开，或多或少是为了“招兵买马”，希望更多技术人才能关注并加入他们的多模态大模型项目。

k1.5团队公布了SOTA模型设计和训练的四大关键要素：

第一，长上下文扩展。K1.5将RL的上下文窗口扩展到128k，通过部分展开（partialrollouts）等技术手段提升训练效率，观察到随着上下文长度的增加，模型推理能力也在提升。

第二，改进的策略优化。K1.5采用推导自long-CoT的在线镜像下降（OMD）变体来进行稳健的策略优化，并结合长度惩罚与数据配方微调算法性能。

第三，简洁的RL框架。K1.5通过上下文扩展来获得更多搜索和反思的空间，而不依赖复杂的价值函数、过程奖励模型或蒙特卡洛树搜索，也能获得较强性能。

第四，多模态能力。K1.5联合视觉与文本数据训练，让模型在处理图文推理时具备更宽泛的适应性。但由于主要支持 LaTeX 等格式的文本输入，依赖图形理解能力的部分几何图形题则难以应对。

与前几代相比，k1.5最显著的特点在于其在多模态推理更上一层楼。k1.5在文本与视觉数据上联合训练，能够进行多模态推理，着重在数学、代码、视觉等复杂任务上的综合性能提升，是OpenAI之外首个多模态类o1模型。

在短思考模式（short-CoT）模式下，Kimi k1.5 的数学、代码、视觉多模态和通用能力，大幅超越了全球范围内短思考SOTA模型GPT-4o和Claude 3.5 Sonnet的水平，领先达到550%。

在长思考模式（long-CoT）下，Kimi k1.5在数学、编程和视觉任务中的表现与OpenAI o1的性能水平接近。

总体而言，在数学和代码能力上，模型在推理能力和正确率（诸如 pass@1、EM等指标）上大幅领先或赶超其他主流对比模型；在视觉多模态任务上，无论是对图像中信息的理解、还是进一步的组合推理、跨模态推理能力，都有显著提升。在通用推理测试上，如MMLU、C-Eval、CLUEWSC等评测基准中，也展现出综合性的语言理解与推理水准。

2.独特的“Long2Short”训练方案

在《Kimi k1.5: Scaling Reinforcement Learning with LLMs》的报告中，最大的亮点之一是“Long2Short”训练方案：具体做法是先利用较大的上下文窗口（据称可扩展到128K）让模型学会长链式思维，再将“长模型”的成果和参数与更小、更高效的“短模型”进行合并，然后针对短模型进行额外的强化学习微调。

Kimi提到，尽管长链推理（long-CoT）模型表现优异，但在测试时消耗的标记数量比标准短链推理（short-CoT）大模型更多。

相比之下，采用Long2Short方案的好处是，最大化保留原先长模型的推理能力，避免了常见的“精简模型后能力减弱”难题，同时有效挖掘短模型在特定场景下的高效推理或部署优势。

在AIME测试中，k1.5系列模型一举冲上60.8分的高度；在MATH500测试中，拿下94.6分；而在LiveCodeBench测试中也稳稳占据47.3分的领先地位。对比GPT-4和Claude 3.5等传统短链模型，k1.5的提升幅度甚至达到了550%。

Long2Short表现，靠近左上方效率越高

这波long2short操作，让短链推理任务实现了质变”通过将长链模型的深度推理能力和短模型的高效响应特点相结合，开创了一种更灵活、更实用的思路。不夸张地讲，k1.5系列的突破为未来如何平衡算力与性能提供了启发式的答案，也为短链思维模型的创新打开了新的大门。

知名AI博主刘聪评价，Long2Short方案可能要成为新风潮了。

3.强化学习的Scaling

很多人都知道Kimi的产品做的很好，殊不知Kimi团队在AI Infra的基建能力上也实力雄厚。

RL可以让模型在“尝试—反馈—改进”的循环中不断提升。为了实现这个循环，就需要一个完整的训练系统来支撑。本次Kimi的技术报告也分享了在RL的模式下如何做AI Infra。‍

K1.5训练系统的架构，主要由几个核心模块组成，从图片左边的System overview可以看到整个强化学习训练系统的主要组件和数据流向。

Kimi k1.5使用了一个迭代同步的强化学习框架，其灵感来自于训练AlphaGo和AlphaStar的系统。这个框架的核心是通过持续学习和适应来增强模型的推理能力。该系统的一个关键创新是引入了部分rollout技术，以优化复杂推理轨迹的处理。

在处理长文本推理时，模型可能会生成非常长的回答，这会消耗大量计算资源。为了解决这个问题，Kimi k1.5引入了Partial rollouts的技术，主要思想之一是扩展长上下文RL训练——也就是做RL的Scaling。

通过分段处理、异步操作、重复检测等方法，Partial rollouts可以处理更长的推理过程，同时保持高效的训练速度，从而优化了整个系统的性能。

此外，通常情况下训练模型和使用模型进行推理是分开的，这会导致资源浪费。Kimi k1.5采用了一种混合部署策略，让训练和推理共享同一个计算资源池。这种策略大大减少了训练和推理之间的切换时间，提高了资源利用率。

可以说，Kimi所有技术的核心，都把长上下文作为了核心指导原则。Kimi在技术报告中总结道：“从我们的实践中得出的关键见解之一是，上下文长度的扩展对于 LLM 的持续改进至关重要。我们采用了优化的学习算法和基础设施优化（例如 Partial rollouts 技术），以实现高效的长上下文 RL 训练。”

Kimi虽然并没有把模型的权重开源，但如此详尽的技术策略报告的开放，对于推动整个强化学习以及AI行业的发展，仍旧有巨大的推动意义。

（封面图来源：公开资料）

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.