网易首页 > 网易号 > 正文 申请入驻

K1.5多模态模型追平满血OpenAI o1,这次硅谷也坐不住了

0
分享至

文 | 竞合人工智能

距离国产大模型做考研数学题“过线”刚过两个月,月之暗面在春节前一周,又扔出了一个分量十足的“王炸”——这一次,他们拿出了能媲美Open AI 满血版 o1(Full Version,而非 preview)的K1.5多模态模型,在文字和视觉两大领域实现了“超英赶美”。

Kimi官方刚一发布,X网友的反应速度比想象中要快很多。无论是一衣带水的日本、大洋彼岸的美国,甚至富得流油的阿拉伯,他们无不惊艳于Kimi模型推理能力的进展,以及多模态能力的提升。

这些感叹,是对中国AI事业进展最好的鼓励。

再看发布时间,DeepSeek-R1的上架时间还要略早一些。但就模态多样性来看,K1.5是目前OpenAI之外,唯一一个实现o1正式版多模态推理的大模型。其含金量不言而喻。

在更直接的性能实现方面,kimi k1.5的测试报告显示,在short-CoT 模式下,k1.5已经大幅超越了全球范围内短思考 SOTA 模型 GPT-4o 和 Claude 3.5 Sonnet 的水平,领先度达到 550%;

long-CoT 模式下,Kimi k1.5 的数学、代码、多模态推理能力,与目前第一梯队的OpenAI o1 满血版相比,也不遑多让。

相较以往的闭源,Kimi还首次发布了训练报告《Kimi k1.5:借助大语言模型实现强化学习的 Scaling》。

从Chatgpt横空出世至今,中国AI厂商大多数时间里都在摸着OpenAI的石头过河。但从K1.5等国产大模型开始,我们大可发现,以往以欧美为中心的AI行业世界线。已经悄然发生变动。

01 中国AI厂商的“源神”时刻

近三个月,毫无疑问是月之暗面技术成果的集中收获期。

去年11月,月之暗面发布了k0-math 数学模型、12月发布 k1 视觉思考模型,这是第三个月在K系列强化学习模型的重磅升级。

相比国内厂商和用户的“沸腾”,国外,尤其是硅谷专业人士的意见或许更能直接说明问题。

首先是OpenAI等一线厂商,在AGI探索方面逐渐停滞。面对外界谣言,OpenAI的CEO奥特曼直接发推辟谣,否认已经实现了AGI通用人工智能。同时下个月也不会部署AGI。对于众多从业者和相关厂商而言,既是预期上的打击,同样也给了产品追逐的机会。

与之形成对比的,则是面对月之暗面和Deepseek的最新推理模型成果,众多海外AI大V对此则相当兴奋。英伟达大佬Jim Fan当即发推感叹说,R1不止是开放了模型,技术的共享也非常重要。

根据他的对比,虽然Kimi和DeepSeek的论文的重点都在比较类似的发现,比如:

不需要像 MCTS 那样复杂的树搜索。只需将思维轨迹线性化,然后进行传统的自回归预测即可;

不需要另一个昂贵的模型副本的价值函数;

无需密集奖励建模。尽可能依赖事实和最终结果。

但二者仍然有比较明显的差异。如:

DeepSeek 采用AlphaZero 方法 - 纯粹通过 RL 引导,无需人工输入,即“冷启动”。

Kimi 采用 AlphaGo-Master 方法:通过即时设计的 CoT 跟踪进行轻度 SFT 预热。

毫不夸张地说,起码在短链思维链,也就是短模型领域,K1.5地领先度是断崖式的,已经很大程度超越了全球范围内短思考 SOTA 模型 GPT-4o 和 Claude 3.5 Sonnet 的水平,领先达到 550%。

可以看到,除了多模态的视觉能力稍有弱项,其他方面几乎与OpenAI处于同一梯队甚至隐隐压过一头,对其他国产友商已经明显拉开了差距。

此外,如果从全球前沿大模型数学竞赛和编程竞赛基准测试来看,K1.5延续了此前K0-math的优异性能,处于全球第一梯队。

02 K1.5的技术突破之路

值得一提的是,以往月之暗面的技术发布,都是以闭源产品的形式,本次K1.5,破天荒地将技术报告和训练细节也一并放出(地址:https://github.com/MoonshotAI/kimi-k1.5)。

在月之暗面看来,“AGI 之旅才刚刚开始。我们想让更多技术人才了解我们在做的事情,加入我们一起做到更多。”

透过这份技术力拉满的报告,我们可以一窥国产厂商在推理模型领域,如何实现对国际大厂的赶超。

从目前放出的报告来看,最大的技术亮点之一,无疑是“Long2Short”训练方案。

这里涉及到两个关键理念,长上下文 scaling 和改进的策略优化。

具体而言,他们先利用最大可扩展到128K的上下文窗口,使得模型学会长链条思维。同时使用 partial rollout——即通过重用大量以前的轨迹来采样新的轨迹,避免从头重新生成新轨迹的成本,以此提高训练效率。

有基于此,他们将原本“长模型”的成果和参数,与小而高效的“短模型”进行合并,再针对短模型进行额外的强化学习微调。

这样做的理由是,尽管长链推理(long-CoT)模型表现优异,但在测试时消耗的标记数量比标准短链推理(short-CoT)大模型更多。

同时,他们推导出了一个具有 long-CoT 的强化学习公式,并采用在线镜像下降法的变体来实现稳健的策略优化。通过有效的采样策略、长度惩罚和数据配方的优化,他们进一步改进了该算法。

此外,他们还用到了诸如最短拒绝采样和DPO等方式,以在有限的测试token预算下,最大程度提升模型性能。

研究者观察到,模型在回答相同问题时生成的响应长度存在较大差异。基于此,他们设计了最短拒绝采样(Shortest Rejection Sampling)方法。该方法对同一个问题采样 n 次(实验中,n=8),并选择最短的正确响应进行监督微调。

DPO与最短拒绝采样类似,团队人员利用 Long CoT 模型生成多个响应样本。并选择最短的正确解决方案作为正样本,而较长的响应则被视为负样本,包括错误的较长响应和正确的较长响应。这些正负样本对构成了用于 DPO 训练的成对偏好数据。

以目前的这套方案,可以在最大化保留长模型推理能力的前提下,有效释放短模型的高效推理和部署优势,规避长模型“精简模型后能力减弱”的问题。

测试也能表明,使用“Long2Short”训练方案之后,K1.5训练模型的效率提升十分明显。(越靠右上效率越高)。

03 结语

回望思考模型的技术路线,最早涉足该领域的OpenAI,分别在去年9月、5月推出了GPT-4o、o1。它们分别代表了多模态理解和强化学习两个不同路线。

对比过去两年,国内厂商发力追赶的速度已经今非昔比,Kimi的后来居上已经足够说明一些问题,在一些细分领域,中国AI如今已经追平了与国外的差距,站在同一条起跑线上,其后的发展,定义权或许已经不在OpenAI手中。

短短一个季度,Kimi就从单纯的“会算”变成了“会看”,并在以肉眼可见的速度集齐多模态,且隐隐有成为长板的趋势。

据月之暗面官微信息,2025 年,Kimi 会继续沿着路线图,加速升级 k 系列强化学习模型,带来更多模态、更多领域的能力和更强的通用能力。

让我们拭目以待。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
全红婵报警:辱骂她的记者全家移民跑路,队友群里疯狂背刺!太惨

全红婵报警:辱骂她的记者全家移民跑路,队友群里疯狂背刺!太惨

番外行
2026-04-09 09:25:53
10万亿!中国将成为全世界,乃至人类历史上,首个“电力王国”

10万亿!中国将成为全世界,乃至人类历史上,首个“电力王国”

小熊侃史
2026-04-11 10:38:19
《地平线6》惊现五菱神车!微软为中国市场拼了

《地平线6》惊现五菱神车!微软为中国市场拼了

游民星空
2026-04-11 16:05:39
8点整,李亚鹏准时下播!带着5万人冲进张雪直播间,结果45秒结束

8点整,李亚鹏准时下播!带着5万人冲进张雪直播间,结果45秒结束

一盅情怀
2026-04-11 09:08:25
杨振宁去世5个月后,49岁翁帆现状:剪了头发染了色,仍独居国内

杨振宁去世5个月后,49岁翁帆现状:剪了头发染了色,仍独居国内

照见古今
2026-03-26 19:06:28
深度长文:黄种人、黑人、白人为何能自由交配并繁衍后代?

深度长文:黄种人、黑人、白人为何能自由交配并繁衍后代?

宇宙时空
2026-04-11 15:15:50
公然抹黑内地,被刘德华“赶出”豪宅,乱港艺人杜汶泽如今还好吗

公然抹黑内地,被刘德华“赶出”豪宅,乱港艺人杜汶泽如今还好吗

情感大头说说
2026-04-11 04:00:19
皇马洗牌引热议:维尼修斯离队成最优解?姆巴佩贝林厄姆非卖品!

皇马洗牌引热议:维尼修斯离队成最优解?姆巴佩贝林厄姆非卖品!

田先生篮球
2026-04-11 17:20:19
CBA“鬼才”教练!弃用600万顶薪球员,掀翻四冠王 球迷:厉害

CBA“鬼才”教练!弃用600万顶薪球员,掀翻四冠王 球迷:厉害

体育哲人
2026-04-11 15:34:51
可绕过弹劾直接罢免特朗普,万斯已经公开翻脸,将提前夺权?

可绕过弹劾直接罢免特朗普,万斯已经公开翻脸,将提前夺权?

云景侃记
2026-04-10 22:28:18
两岸谈完,郑丽文离开人民大会堂,临走前达成共识,岛内传出杂音

两岸谈完,郑丽文离开人民大会堂,临走前达成共识,岛内传出杂音

养牛的大昆
2026-04-11 15:14:15
他是上海体育名嘴,不当主持开店创业当网红,如今又转行玩古董

他是上海体育名嘴,不当主持开店创业当网红,如今又转行玩古董

白面书誏
2026-04-11 16:58:20
门店腰斩2万家!一线撤离、杂牌泛滥,国民快餐巨头彻底扛不住了

门店腰斩2万家!一线撤离、杂牌泛滥,国民快餐巨头彻底扛不住了

毒sir财经
2026-04-09 16:14:36
拜仁造神运动引争议,英媒德媒隔空掐架

拜仁造神运动引争议,英媒德媒隔空掐架

茅塞盾开本尊
2026-04-10 12:44:50
开路虎加油逃单后续:正脸曝光社死,身份被扒还是惯犯,警方介入

开路虎加油逃单后续:正脸曝光社死,身份被扒还是惯犯,警方介入

离离言几许
2026-04-10 17:14:42
万万没有想到,赖清德的父亲赖永都,非但不是日本鬼子他是中国人

万万没有想到,赖清德的父亲赖永都,非但不是日本鬼子他是中国人

史行途
2026-03-30 08:13:47
文班砍40+13创3项纪录仍无缘日最佳,因为41岁老詹创NBA第一神迹

文班砍40+13创3项纪录仍无缘日最佳,因为41岁老詹创NBA第一神迹

毒舌NBA
2026-04-11 13:48:46
陈光标回应送车风波:不认识张雪,“不管他叫张雪还是李雪”,只想向他致敬

陈光标回应送车风波:不认识张雪,“不管他叫张雪还是李雪”,只想向他致敬

齐鲁壹点
2026-04-10 22:24:12
郑丽文:只要对两岸和平有帮助的事,都愿意去做

郑丽文:只要对两岸和平有帮助的事,都愿意去做

澎湃新闻
2026-04-11 08:03:37
成立境外国资工作局,释放了什么信号?

成立境外国资工作局,释放了什么信号?

中国新闻周刊
2026-04-10 12:17:50
2026-04-11 18:32:49
钛媒体APP incentive-icons
钛媒体APP
独立财经科技媒体
132098文章数 862089关注度
往期回顾 全部

科技要闻

半夜被燃烧瓶砸醒,OpenAI CEO发文反思

头条要闻

伊朗消息人士:美国同意解冻伊朗海外资产

头条要闻

伊朗消息人士:美国同意解冻伊朗海外资产

体育要闻

换帅之后,他们从降级区冲到升级区

娱乐要闻

浪姐7淘汰 该走的没走,不该走的走了

财经要闻

从日本翻身看:这次谁能扛住高油价?

汽车要闻

焕新极氪007/007GT上市 限时19.39万起

态度原创

游戏
亲子
家居
艺术
军事航空

《生化危机9》遭破解!D加密再失一局

亲子要闻

不育夫妻惊喜:五个月后竟意外怀孕!

家居要闻

复古风格 自然简约

艺术要闻

王羲之《孝经》真迹出土,这是他为皇帝所写

军事要闻

伊朗议长带四名遇难儿童照片赴美伊谈判

无障碍浏览 进入关怀版