网易首页 > 网易号 > 正文 申请入驻

追平满血版o1的国产多模态模型终于来了!训练细节全部公开

0
分享至

机器之心报道

机器之心编辑部

春节前最后一周,能媲美 Open AI 满血版 o1(Full Version,而非 preview)的模型终于出现了!

刚刚,月之暗面公布了他们的 Kimi k 系列模型最新版本 ——k1.5 多模态思考模型。新模型在数学、代码、多模态推理能力等方面全面对标 Open AI 满血版 o1,而且是 OpenAI 之外首个多模态 o1。尤其是 kimi-k1.5-short,成为 SOTA short cot 模型,并大幅领先 GPT-4o 和 Claude 3.5 Sonnet(提升幅度高达 550%)

这是 Open AI 之外,首次有模型在数学和代码能力上达到满血 o1,月之暗面也是国内第一个达到该水平的 AI 公司。在此之前,部分模型在各类 Benchmark 上可以达到 50 分、60 分的水平(相当于 o1-preview),而 o1 满血版是 80 分、90 分水平,Kimi k1.5 的成绩令人眼前一亮。

这一切是怎么做到的呢?在 Kimi 技术团队同步发布的技术报告中,我们可以看到他们在新技术范式下的模型训练技术探索之路。

  • 技术报告:Kimi k1.5:借助大语言模型实现强化学习的 Scaling
  • 报告链接:https://github.com/MoonshotAI/kimi-k1.5

这种技术透明度在当前竞争激烈的大模型市场上并不多见。在谈及为什么要这么做时,月之暗面表示,「因为我们意识到,AGI 之旅才刚刚开始。我们想让更多技术人才了解我们在做的事情,加入我们一起做到更多」。

Kimi k1.5 多项测试,全部 SOTA

从技术报告来看,Kimi k1.5 多模态推理模型实现了 SOTA (state-of-the-art)级别的推理和通用能力,具体而言:

在 long-CoT 模式下,Kimi k1.5 在数学、代码及多模态推理能力上,达到长思考 SOTA 模型 OpenAI o1 正式版的水平。Kimi k1.5 在 AIME 上达到 77.5 分,在 MATH 500 上达到 96.2 分,在 Codeforces 上达到 94 百分位,在 MathVista 上达到 74.9 分。

这应该是全球范围内,OpenAI 之外的公司首次实现 o1 满血版性能。此前的模型只能达到 o1-preview 或 o1-mini 的推理能力。

在 short-CoT 模式下,Kimi k1.5 在数学、代码、视觉多模态和通用能力上,也达到了全球范围内短思考 SOTA 模型 ,并大幅领先 GPT-4o 和 Claude 3.5 Sonnet 的水平。比如,Kimi k1.5 在 AIME 上达到 60.8 分,MATH500 上达到 94.6 分,LiveCodeBench 上达到 47.3 分。

不仅如此,从全球前沿大模型数学竞赛和编程竞赛基准测试来看,Kimi k1.5 的表现也相当不错,处于全球第一梯队,而这两项测试代表了人类智商巅峰。

总之,从 Benchmark 数据来看,k1.5 的推理能力实现了很大提升,可以帮助我们解锁更难的代码、数学、生活等问题。

Kimi k1.5 是怎么练成的?

随着模型尺寸逐渐增大,预训练阶段参数 scaling up 带来的边际收益开始递减,如果想要深度提升模型推理能力和长程问题能力,基于强化学习的 Post-Training 将会成为下一个突破点 [1],因为 scaling 强化学习为人工智能的持续进步开辟了新的维度,它使得大语言模型能够通过带有奖励的探索学习来扩展其训练数据,从而也实现计算规模的扩展。

大的方向非常明确,然而,此前发表的研究工作尚未产生具有竞争力的结果。

有鉴于此,Kimi 技术团队在 Kimi k1.5 的训练实践中全面探索了 RL 训练技术、多模态数据配方和基础设施优化。

难得的是,他们探索出的 RL 框架简单、有效,无需依赖蒙特卡洛树搜索、价值函数和过程奖励模型等更复杂的技术也能取得优异的性能。

此外,他们还提出了有效的 long2short 技术,利用 Long-CoT 技术来改进 Short-CoT 模型,使得模型在短链思维推理方面取得了最佳成果。

简单、有效的 RL 框架

Kimi 技术团队设计的简单而有效的 RL 框架离不开两个关键要素:长上下文 scaling 和改进的策略优化

先说长上下文 scaling。他们将强化学习的上下文窗口 scale 到 128k,并观察到随着上下文长度的增加,模型性能持续改善。新方法背后的一个关键理念是使用 partial rollout 来提高训练效率 —— 即通过重用大量以前的轨迹来采样新的轨迹,避免从头重新生成新轨迹的成本。技术团队的观察表明,上下文长度是大语言模型强化学习持续 scaling 的一个关键维度。

再来看策略优化的改进。他们推导出了一个具有 long-CoT 的强化学习公式,并采用在线镜像下降法的变体来实现稳健的策略优化。通过有效的采样策略、长度惩罚和数据配方的优化,他们进一步改进了该算法。

通过将这两个关键要素结合,Kimi 技术团队建立了一个用于 LLM 学习的简化强化学习框架。由于该框架能够 scale 上下文长度,学习到的 CoT 展现出规划、反思和纠正的特性。增加的上下文长度具有增加搜索步骤数量的效果。因此,他们表明无需依赖蒙特卡洛树搜索、价值函数和过程奖励模型等更复杂的技术也能实现强大的性能。

此外,他们的模型还在文本和视觉数据上进行了联合训练,具备对这两种模态进行联合推理的能力。

long2short 技术

尽管 long-CoT 模型在性能上表现出色,但与标准的 short-CoT LLM 相比,它在测试时消耗的 token 数量更多。然而,Kimi 技术团队发现将 long-CoT 模型的思维先验迁移到 short-CoT 模型中是可能的,从而在有限的测试 token 预算下提升性能。

他们提出了几种解决这一 long2short 问题的方法,包括模型融合、最短拒绝采样、DPO 以及 long2short RL。以下是这些方法的详细描述:

模型融合。团队人员发现模型融合(Model Merging)有助于保持模型的泛化能力。他们还发现,在融合 long-CoT 模型和 short-CoT 模型时,模型融合也能有效提升 token 效率。这种方法通过将 long-CoT 模型与 short-CoT 模型结合,从而在不进行训练的情况下获得一个新模型。具体来说,他们通过简单地平均两个模型的权重来实现融合。

最短拒绝采样。研究者观察到,模型在回答相同问题时生成的响应长度存在较大差异。基于此,他们设计了最短拒绝采样(Shortest Rejection Sampling)方法。该方法对同一个问题采样 n 次(实验中,n=8),并选择最短的正确响应进行监督微调。

DPO。与最短拒绝采样类似,团队人员利用 Long CoT 模型生成多个响应样本。并选择最短的正确解决方案作为正样本,而较长的响应则被视为负样本,包括错误的较长响应和正确的较长响应。这些正负样本对构成了用于 DPO 训练的成对偏好数据。

Long2short RL。在标准的 RL 训练阶段之后,团队人员选择一个在性能和 token 效率之间达到最佳平衡的模型作为基础模型,并进行单独的 long2short RL 训练阶段。在这个第二阶段中,他们还应用了长度惩罚机制,从而显著减少最大 rollout 长度,以进一步惩罚那些超出期望长度但可能正确的响应。

除了以上这些,Kimi k1.5 的技术报告还透露了很多信息。感兴趣的读者可以去阅读原文。

2025:加速升级 k 系列强化学习模型

OpenAI 于 2024 年 5 月、9 月推出的 GPT-4o、o1 两个模型,分别代表了多模态理解、强化学习两条技术路线。在这两条路线上,国内 AI 公司都在陆续发力,并在最近展开了激烈竞争。如今,Kimi 模型在能力上最接近 o1,这让外界对这家公司在 2025 年的表现充满了期待。

月之暗面表示,2025 年,他们会继续加速升级 k 系列强化学习模型,带来更多模态、更多领域的能力和更强的通用能力。

我们也期待新模型的早日上线!

参考链接:[1] https://mp.weixin.qq.com/s/FXGdJA8OyZvLl89rXJiyAQ

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
Manus两名高管禁止离境? 外交部回应

Manus两名高管禁止离境? 外交部回应

每日经济新闻
2026-03-26 16:36:02
张雪峰6年前已离婚,独女张姩菡只能分16.5%遗产,现任妻子占大头

张雪峰6年前已离婚,独女张姩菡只能分16.5%遗产,现任妻子占大头

枫红染山径
2026-03-25 16:56:22
沙特国际电力和水务公司董事长预测中东局势将影响全球能源转型速度

沙特国际电力和水务公司董事长预测中东局势将影响全球能源转型速度

界面新闻
2026-03-26 16:51:04
末代港督彭定康夫妇,带3个漂亮女儿回英国,29年过去今过得咋样

末代港督彭定康夫妇,带3个漂亮女儿回英国,29年过去今过得咋样

揽星河的笔记
2026-03-26 00:26:09
315曝光10个最毒食黑名单!第8个你几乎天天在吃,看完脊背发凉

315曝光10个最毒食黑名单!第8个你几乎天天在吃,看完脊背发凉

现代小青青慕慕
2026-03-24 08:13:54
世预赛欧洲区开打!明晨将有8队出局 8队进决赛 意大利生死战

世预赛欧洲区开打!明晨将有8队出局 8队进决赛 意大利生死战

叶青足球世界
2026-03-26 08:47:10
2020年女子当众扇儿子耳光,儿子直接跳楼,如今女子已自杀身亡

2020年女子当众扇儿子耳光,儿子直接跳楼,如今女子已自杀身亡

观察鉴娱
2026-03-18 09:09:10
华为、商汤等873家机构遭AI顶会“封杀”,中国学界怒了

华为、商汤等873家机构遭AI顶会“封杀”,中国学界怒了

智东西
2026-03-26 20:49:23
NeurIPS拒收中国论文,计算机学会宣布抵制并警告将其移出A类目录

NeurIPS拒收中国论文,计算机学会宣布抵制并警告将其移出A类目录

DeepTech深科技
2026-03-25 22:49:10
东契奇创4大纪录仍无缘日最佳,抱歉约基奇打出前无古人的数据

东契奇创4大纪录仍无缘日最佳,抱歉约基奇打出前无古人的数据

毒舌NBA
2026-03-26 13:11:59
中国移动官宣!4月30日起全国统一执行,事关所有手机号

中国移动官宣!4月30日起全国统一执行,事关所有手机号

Thurman在昆明
2026-03-26 13:35:46
偶遇沈月拍戏,个子不高的情况下胸大真的太吃亏了!

偶遇沈月拍戏,个子不高的情况下胸大真的太吃亏了!

TVB的四小花
2026-03-24 12:22:03
最快护士张水华辞职后,靠比赛拿名次、一年广告费能拿200-400万

最快护士张水华辞职后,靠比赛拿名次、一年广告费能拿200-400万

魔都姐姐杂谈
2026-03-24 20:50:19
二百多名军官被枪毙、撤职、处分,长津湖战役中失职的志愿军88师

二百多名军官被枪毙、撤职、处分,长津湖战役中失职的志愿军88师

云霄纪史观
2026-03-25 12:16:14
惊呆了!网传某妇产医院一少妇哭求医生,改她儿子的血型鉴定书…

惊呆了!网传某妇产医院一少妇哭求医生,改她儿子的血型鉴定书…

火山詩话
2026-03-26 11:40:00
中国电信:全面转向token经营!

中国电信:全面转向token经营!

最通信
2026-03-25 20:45:14
俄罗斯宣传三天攻占爱沙尼亚!炮制公投,又是特别军事行动?

俄罗斯宣传三天攻占爱沙尼亚!炮制公投,又是特别军事行动?

项鹏飞
2026-03-24 20:28:43
伊朗战争还将持续多久?据传特朗普希望4-6周内终结战事

伊朗战争还将持续多久?据传特朗普希望4-6周内终结战事

财联社
2026-03-26 18:29:05
中方坚决扣留船只,美方及时干预 取消中企投标资格,巴拿马难挽

中方坚决扣留船只,美方及时干预 取消中企投标资格,巴拿马难挽

南宗历史
2026-03-25 16:04:15
恭喜!“CBA第一恶人”许钟豪,正式上任主教练,曾帮广厦夺冠

恭喜!“CBA第一恶人”许钟豪,正式上任主教练,曾帮广厦夺冠

吴朑爱游泳
2026-03-26 23:22:01
2026-03-27 00:43:00
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12608文章数 142594关注度
往期回顾 全部

科技要闻

美团发布外卖大战后成绩单:亏损超200亿

头条要闻

张雪峰留巨额遗产:二婚妻子或拿50% 剩下的女儿占1/3

头条要闻

张雪峰留巨额遗产:二婚妻子或拿50% 剩下的女儿占1/3

体育要闻

申京努力了,然而杜兰特啊

娱乐要闻

刘晓庆妹妹发声!称姐姐受身边人挑拨

财经要闻

油价"驯服"特朗普?一到100美元就TACO

汽车要闻

一汽奥迪A6L e-tron开启预售 CLTC最大续航815km

态度原创

数码
房产
艺术
手机
健康

数码要闻

英特尔发Q1.26版Arc Pro专业显卡驱动,支持B70 / B65显卡

房产要闻

突发,三亚又有大批征迁补偿方案出炉!

艺术要闻

都说乌克兰美女多,看完摄影师贝格玛 的作品我信了!

手机要闻

1499 iQOO Z11系列发布丨9020mAh电池 165Hz高刷

转头就晕的耳石症,能开车上班吗?

无障碍浏览 进入关怀版