正面硬刚OpenAI现役最强模型，国产AI一夜卷到硅谷|算法|模态|预训练|kimi|openai

正面硬刚OpenAI现役最强模型，国产AI一夜卷到硅谷

2025-01-22 18:31:28　来源: 硅基观察Pro

北京举报

分享至

这两天，中国AI公司让全球AI圈再次兴奋了一把。

起因是，DeepSeek和 Kimi几乎同时分别官宣了全新推理模型——R1和k1.5。

让业内惊讶的是， DeepSeek-R1和 Kimi k1.5的性能都相当“能打”。

其中，文本推理模型DeepSeek-R1的性能追上o1正式版，关键模型还是开源的。而Kimi k1.5的文本和视觉多模态推理性能也已经全面追上现役全球最强模型——OpenAI o1正式版。

具体来说，在Long-CoT（思维链）模式下，Kimi k1.5的数学、代码、视觉多模态、通用推理能力，达到了长思考SOTA模型OpenAI o1满血版的水平。这也是全球范围内，首次有OpenAI之外的公司达到。而在Short CoT模式下，Kimi k1.5大幅领先GPT-4o和Claude 3.5的水平。

值得一提的是，在发布k1.5模型的同时，Kimi还首次公布了详细的模型研发技术报告。透过这份技术报告，我们也能够从中找到一些k1.5模型的实践经验。

中国双子星再次炸场硅谷，性能比肩OpenAI o1

虽然DeepSeek R1和Kimi k-1.5有不少相似之处，比如都是以强化学习（RL）为核心驱动力。但从具体技术路线上，两者却又有着很多不同。

在两个模型发布的第一时间，英伟达AI科学家Jim Fan详细对比了两个模型的相似处和差异点。他发现，，Kimi和Deepseek的研究成果相似的地方在于：

1、不需要像MCTS那样复杂的树搜索。只需将思维轨迹线性化，然后进行传统的自回归预测即可；

2、不需要需要另一个昂贵的模型副本的价值函数；

3、无需密集奖励建模。尽可能依赖事实和最终结果。

而两者的差异点在于：

1、DeepSeek采用AlphaZero方法-纯粹通过RL引导，无需人工输入，即“冷启动”。Kimi采用AlphaGo-Master方法：通过即时设计的CoT跟踪进行轻度SFT预热。

2、DeepSeek权重是MIT许可证；Kimi K1.5是闭源模型。

3、Kimi在MathVista等基准测试中表现出强大的多模式性能，这需要对几何、智商测试等有视觉理解（DeepSeek目前只能识别文字，不支持图片识别）。

4、Kimi的论文在系统设计上有更多细节：RL基础设施、混合集群、代码沙箱、并行策略；以及学习细节：长上下文、CoT 压缩、课程、采样策略、测试用例生成等。

当然，除了这些技术细节外，回归市场层面，之所以DeepSeek与Kimi发布推理模型能够引发如此高的关注，一个核心原因是，相比过去发布的类o1-preview模型，这两家公司发布的都是满血版o1。

无论是数学，还是代码基准测试分数，DeepSeek与Kimi的得分都接近甚至超过OpenAIo1模型。

与Deepseek不同的一点是，Kimi k1.5是OpenAI之外首个多模态o1。

Kimi k1.5在文本和视觉数据上进行训练，使其能够同时处理文本和视觉数据。这种多模态能力使得模型能够联合推理文本和图像信息，从而在多模态任务中表现出色。

例如，在视觉问答（Visual Question Answering,VQA）和数学推理任务中，模型能够通过理解和分析图像内容来生成准确的答案。这种多模态设计不仅扩展了模型的应用范围，还提升了其在复杂任务中的表现能力。

Kimi k1.5出色的多模态能力，也引发了业内的热议。在X平台上，知名AI博主Mark Kretschmann大呼，“这是多模态AI的巨大突破。“

第三，短模型能力全面领先，在短思考模式（short-CoT）模式下，数学能力无论是gpt-4o还是claude3.5-sonnet都远不如Kimi 1.5，尤其是在AIME榜单上，Kimi 1.5有60.8，而最高模型里最高的只有39.2，堪称断层式碾压。

除了数学能力外，在代码视觉多模态和通用能力等场景下，Kimi 1.5也超越了目前的开源模型。

在强劲的模型性能背后，肯定有很多人关心，这个满血版o1水平的模型究竟是如何实现的？对此，月之暗面也大方公开了Kimi 1.5模型的相关训练技术细节。

/ 02 /

“long2short“训练方案引人关注

在Kimi k1.5技术报告里，最大的亮点莫过于“Long2Short”训练方案，其方法是先让长CoT模型学会长链式思维，再将“长模型”与“短模型”进行合并，然后对短模型进行额外的强化学习微调，进而显著提升短推理路径模型的性能。

具体来说，主要有以下四种方法：

模型合并：之前都是通过模型合并来提高模型的泛化性，k1.5发现long-cot模型和short-cot模型也可以合并，进而提高输出效率，中和输出内容，并且无需训练。

最短拒绝采样：对于模型输出结果进行n次采样（实验中n=8），选择最短的正确结果进行模型微调。

DPO：与最短拒绝采样类似，利用long-cot模型生成多个输出结果，将最短的正确输出作为正样本，而较长的响应（包括：错误的长输出、比所选正样本长1.5倍的正确长输出）作为负样本，通过构造的正负样本进行DPO偏好学习。

Long2Short的强化学习：在标准的强化学习训练阶段之后，选择一个在性能和输出效率之间达到最佳平衡的模型作为基础模型，并进行单独的long-cot到short-cot的强化学习训练阶段。在这一阶段，采用长度惩罚，进一步惩罚超出期望长度，但保证模型仍然可能正确。

Long2Short方案的优势在于，最大化保留原先长模型的推理能力，避免了常见的“精简模型后能力减弱”难题，同时有效挖掘短模型在特定场景下的高效推理或部署优势。

这意味着，即使在有限的计算资源下，模型也能表现出良好的推理能力。

对于这种独特的训练方法，国外AI从业人士也给了很高的评价：

”long2short方法很有趣。首先，它显示了将思维先验从长期CoT模型转移到短期CoT模型的潜力。这对于提高有限测试时token预算的性能非常有用。他们表明，与DPO和模型合并等其他方法相比，它可以获得最高的推理效率。“

/ 03 /

推理模型，或成大模型竞争分水岭

过去三个月里，能明显感受到，Kimi在推理模型上进化速度之快。

2024年11月，他们首次推出的数学推理模型K0-math，就展现出了在数学领域的领先性。

12月，Kimi发布了视觉思考模型k1，在k0-math的基础上，k1 的推理能力不仅大大提升，还突破了数学题的范围，更解锁了强大的视觉理解能力。

现在，Kimi又往前进了一步，推出了推理能力更强大的k1.5。

从产业维度看，这事的意义不仅在于模型性能的升级，也直接影响产业竞争格局的变化。由于数据瓶颈和成本等原因，预训练scaling law的魔法正在面临着更多的考验。

而o1被认为是提升模型智能的新路径。正如OpenAI研究科学家Noam Brown所说，相比预训练的巨额投入，测试时间计算的成本相对较低，且算法改进空间巨大，具有巨大的提升潜力。

也就是说，大模型升级正在经历从预训练到后训练+测试时计算的范式转换。

从这个角度上说，“o1”类模型将是下一步国内一线实验室角逐的分水岭。谁能尽快做出自己的“o1”，谁才有资格继续留在牌桌。毫无疑问，随着DeepSeek R1和Kimi k-1.5模型的发布，月之暗面和幻方已经拿到了一张门票。

考虑到o1大大提升模型解决复杂问题的能力，将推动模型进入越来越多垂直领域，从数学、编程开始，进入到法律、科研、金融、咨询等领域。在这个过程中，国内大模型在商业化层面取得更多的突破也值得期待。

文/林白

PS：如果你对AI大模型领域有独特的看法，欢迎扫码加入我们的大模型交流群。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.