网易首页 > 网易号 > 正文 申请入驻

正面硬刚OpenAI现役最强模型,国产AI一夜卷到硅谷

0
分享至

这两天,中国AI公司让全球AI圈再次兴奋了一把。

起因是,DeepSeek和 Kimi几乎同时分别官宣了全新推理模型——R1和k1.5。

让业内惊讶的是, DeepSeek-R1和 Kimi k1.5的性能都相当“能打”。

其中,文本推理模型DeepSeek-R1的性能追上o1正式版,关键模型还是开源的。而Kimi k1.5的文本和视觉多模态推理性能也已经全面追上现役全球最强模型——OpenAI o1正式版。

具体来说,在Long-CoT(思维链)模式下,Kimi k1.5的数学、代码、视觉多模态、通用推理能力,达到了长思考SOTA模型OpenAI o1满血版的水平。这也是全球范围内,首次有OpenAI之外的公司达到。而在Short CoT模式下,Kimi k1.5大幅领先GPT-4o和Claude 3.5的水平。

值得一提的是,在发布k1.5模型的同时,Kimi还首次公布了详细的模型研发技术报告。透过这份技术报告,我们也能够从中找到一些k1.5模型的实践经验。

中国双子星再次炸场硅谷,性能比肩OpenAI o1

虽然DeepSeek R1和Kimi k-1.5有不少相似之处,比如都是以强化学习(RL)为核心驱动力。但从具体技术路线上,两者却又有着很多不同。

在两个模型发布的第一时间,英伟达AI科学家Jim Fan详细对比了两个模型的相似处和差异点。他发现,,Kimi和Deepseek的研究成果相似的地方在于:

1、不需要像MCTS那样复杂的树搜索。只需将思维轨迹线性化,然后进行传统的自回归预测即可;

2、不需要需要另一个昂贵的模型副本的价值函数;

3、无需密集奖励建模。尽可能依赖事实和最终结果。

而两者的差异点在于:

1、DeepSeek采用AlphaZero方法-纯粹通过RL引导,无需人工输入,即“冷启动”。Kimi采用AlphaGo-Master方法:通过即时设计的CoT跟踪进行轻度SFT预热。

2、DeepSeek权重是MIT许可证;Kimi K1.5是闭源模型。

3、Kimi在MathVista等基准测试中表现出强大的多模式性能,这需要对几何、智商测试等有视觉理解 (DeepSeek目前只能识别文字,不支持图片识别) 。

4、Kimi的论文在系统设计上有更多细节:RL基础设施、混合集群、代码沙箱、并行策略;以及学习细节:长上下文、CoT 压缩、课程、采样策略、测试用例生成等。

当然,除了这些技术细节外,回归市场层面,之所以DeepSeek与Kimi发布推理模型能够引发如此高的关注,一个核心原因是,相比过去发布的类o1-preview模型,这两家公司发布的都是满血版o1。

无论是数学,还是代码基准测试分数,DeepSeek与Kimi的得分都接近甚至超过OpenAIo1模型。

与Deepseek不同的一点是,Kimi k1.5是OpenAI之外首个多模态o1。

Kimi k1.5在文本和视觉数据上进行训练,使其能够同时处理文本和视觉数据。这种多模态能力使得模型能够联合推理文本和图像信息,从而在多模态任务中表现出色。

例如,在视觉问答(Visual Question Answering,VQA)和数学推理任务中,模型能够通过理解和分析图像内容来生成准确的答案。这种多模态设计不仅扩展了模型的应用范围,还提升了其在复杂任务中的表现能力。

Kimi k1.5出色的多模态能力,也引发了业内的热议。在X平台上,知名AI博主Mark Kretschmann大呼,“这是多模态AI的巨大突破。“

第三,短模型能力全面领先,在短思考模式(short-CoT)模式下,数学能力无论是gpt-4o还是claude3.5-sonnet都远不如Kimi 1.5,尤其是在AIME榜单上,Kimi 1.5有60.8,而最高模型里最高的只有39.2,堪称断层式碾压。

除了数学能力外,在代码视觉多模态和通用能力等场景下,Kimi 1.5也超越了目前的开源模型。

在强劲的模型性能背后,肯定有很多人关心,这个满血版o1水平的模型究竟是如何实现的?对此,月之暗面也大方公开了Kimi 1.5模型的相关训练技术细节。

/ 02 /

“long2short“训练方案引人关注

在Kimi k1.5技术报告里,最大的亮点莫过于“Long2Short”训练方案,其方法是先让长CoT模型学会长链式思维,再将“长模型”与“短模型”进行合并,然后对短模型进行额外的强化学习微调,进而显著提升短推理路径模型的性能。

具体来说,主要有以下四种方法:

模型合并:之前都是通过模型合并来提高模型的泛化性,k1.5发现long-cot模型和short-cot模型也可以合并,进而提高输出效率,中和输出内容,并且无需训练。

最短拒绝采样:对于模型输出结果进行n次采样(实验中n=8),选择最短的正确结果进行模型微调。

DPO:与最短拒绝采样类似,利用long-cot模型生成多个输出结果,将最短的正确输出作为正样本,而较长的响应(包括:错误的长输出、比所选正样本长1.5倍的正确长输出)作为负样本,通过构造的正负样本进行DPO偏好学习。

Long2Short的强化学习:在标准的强化学习训练阶段之后,选择一个在性能和输出效率之间达到最佳平衡的模型作为基础模型,并进行单独的long-cot到short-cot的强化学习训练阶段。在这一阶段,采用长度惩罚,进一步惩罚超出期望长度,但保证模型仍然可能正确。

Long2Short方案的优势在于,最大化保留原先长模型的推理能力,避免了常见的“精简模型后能力减弱”难题,同时有效挖掘短模型在特定场景下的高效推理或部署优势。

这意味着,即使在有限的计算资源下,模型也能表现出良好的推理能力。

对于这种独特的训练方法,国外AI从业人士也给了很高的评价:

”long2short方法很有趣。首先,它显示了将思维先验从长期CoT模型转移到短期CoT模型的潜力。这对于提高有限测试时token预算的性能非常有用。他们表明,与DPO和模型合并等其他方法相比,它可以获得最高的推理效率。“

/ 03 /

推理模型,或成大模型竞争分水岭

过去三个月里,能明显感受到,Kimi在推理模型上进化速度之快。

2024年11月,他们首次推出的数学推理模型K0-math,就展现出了在数学领域的领先性。

12月,Kimi发布了视觉思考模型k1,在k0-math的基础上,k1 的推理能力不仅大大提升,还突破了数学题的范围,更解锁了强大的视觉理解能力。

现在,Kimi又往前进了一步,推出了推理能力更强大的k1.5。

从产业维度看,这事的意义不仅在于模型性能的升级,也直接影响产业竞争格局的变化。由于数据瓶颈和成本等原因,预训练scaling law的魔法正在面临着更多的考验。

而o1被认为是提升模型智能的新路径。正如OpenAI研究科学家Noam Brown所说,相比预训练的巨额投入,测试时间计算的成本相对较低,且算法改进空间巨大,具有巨大的提升潜力。

也就是说,大模型升级正在经历从预训练到后训练+测试时计算的范式转换。

从这个角度上说,“o1”类模型将是下一步国内一线实验室角逐的分水岭。谁能尽快做出自己的“o1”,谁才有资格继续留在牌桌。毫无疑问,随着DeepSeek R1和Kimi k-1.5模型的发布,月之暗面和幻方已经拿到了一张门票。

考虑到o1大大提升模型解决复杂问题的能力,将推动模型进入越来越多垂直领域,从数学、编程开始,进入到法律、科研、金融、咨询等领域。在这个过程中,国内大模型在商业化层面取得更多的突破也值得期待。

文/林白

PS:如果你对AI大模型领域有独特的看法,欢迎扫码加入我们的大模型交流群。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
和老伴在四川成都住了半年,实话实说:跟网上评价的完全不一样

和老伴在四川成都住了半年,实话实说:跟网上评价的完全不一样

芭比衣橱
2026-03-22 20:21:20
“美以大吃一惊”,伊朗:国产防空系统击中美F-35战机,未来将展示其对抗敌人的新能力!以军:正打击德黑兰中心地带“伊朗政权目标”

“美以大吃一惊”,伊朗:国产防空系统击中美F-35战机,未来将展示其对抗敌人的新能力!以军:正打击德黑兰中心地带“伊朗政权目标”

每日经济新闻
2026-03-22 13:16:03
前中兴高管戳破真相:要不是美国制裁,中国没打算单独造光刻机

前中兴高管戳破真相:要不是美国制裁,中国没打算单独造光刻机

Thurman在昆明
2026-03-22 14:29:28
美国出局,全球同时接到通告,中方将带队出席,53国享受优惠待遇

美国出局,全球同时接到通告,中方将带队出席,53国享受优惠待遇

轩逸阿II
2026-03-22 14:50:28
离婚6年后,高圣远转身回美国,找了个年轻貌美富婆,周迅仍单身

离婚6年后,高圣远转身回美国,找了个年轻貌美富婆,周迅仍单身

草莓解说体育
2026-03-22 06:41:30
尴尬进西部前四,球队基石成拖累!防守端破罐破摔,你该被交易了

尴尬进西部前四,球队基石成拖累!防守端破罐破摔,你该被交易了

老梁体育漫谈
2026-03-23 01:14:32
47岁“国际章”身材走样、面部肿胀?背后真相,让嘲笑她的人闭嘴

47岁“国际章”身材走样、面部肿胀?背后真相,让嘲笑她的人闭嘴

丹妮观
2026-03-22 23:18:07
美国华裔部长骆家辉:在任时经常打压华为,退休后回到中国捞金…

美国华裔部长骆家辉:在任时经常打压华为,退休后回到中国捞金…

福建平子
2026-03-22 08:14:35
美国向伊朗主动求和?所有战争目标都没能实现!已遭遇三大失败

美国向伊朗主动求和?所有战争目标都没能实现!已遭遇三大失败

流年顛簸
2026-03-23 03:35:13
陈天桥:那一夜梁文锋拒绝了我的投资,却让我决定投入10亿美金去做另一件事

陈天桥:那一夜梁文锋拒绝了我的投资,却让我决定投入10亿美金去做另一件事

猎云网
2026-03-19 15:28:10
蚂蚁消金转让12亿不良消费贷,今年累计挂牌418万笔,涉170万人

蚂蚁消金转让12亿不良消费贷,今年累计挂牌418万笔,涉170万人

一口老汤
2026-03-22 17:25:03
苦等18年缅甸终于想通了?联手中国打通战略大动脉,让美无计可施

苦等18年缅甸终于想通了?联手中国打通战略大动脉,让美无计可施

小兰聊历史
2026-03-20 18:41:51
解放台湾,解放军准备了70多年,我军战区罕见说出:受不了了

解放台湾,解放军准备了70多年,我军战区罕见说出:受不了了

小蔑谈事
2026-03-23 02:35:31
歼20总师被除名:长期领导军工央企,最近照流出,事发全过程披露

歼20总师被除名:长期领导军工央企,最近照流出,事发全过程披露

博士观察
2026-03-20 21:41:54
台海局势再次升级,武统、和统都没希望,我国即将走上第三条路

台海局势再次升级,武统、和统都没希望,我国即将走上第三条路

介知
2026-03-19 18:41:57
“性萧条”才是这个时代真正的危机

“性萧条”才是这个时代真正的危机

深蓝夜读
2025-09-24 16:00:09
A股:紧急提醒全体股民!从明天周一起,或许将会又一次历史重演!

A股:紧急提醒全体股民!从明天周一起,或许将会又一次历史重演!

股市皆大事
2026-03-22 21:46:18
长沙火车站的“防睡椅”,真把算计做到骨子里!一旅客吐槽引热议

长沙火车站的“防睡椅”,真把算计做到骨子里!一旅客吐槽引热议

火山詩话
2026-03-22 07:38:36
撑杆跳大魔王秘密领证!遭熟人疯狂剧透,本人无奈回应

撑杆跳大魔王秘密领证!遭熟人疯狂剧透,本人无奈回应

仰卧撑FTUer
2026-03-22 08:41:02
皇马vs马竞:维尼修斯、巴尔韦德首发,格列兹曼、胡利安-阿尔瓦雷斯出战

皇马vs马竞:维尼修斯、巴尔韦德首发,格列兹曼、胡利安-阿尔瓦雷斯出战

懂球帝
2026-03-23 03:22:01
2026-03-23 04:32:49
硅基观察Pro incentive-icons
硅基观察Pro
人工智能新时代的商业智库和价值灯塔
866文章数 64关注度
往期回顾 全部

科技要闻

嫌台积电太慢 马斯克要把芯片产能飙升50倍

头条要闻

媒体:特朗普48小时通牒砸向伊朗 不排除美国铤而走险

头条要闻

媒体:特朗普48小时通牒砸向伊朗 不排除美国铤而走险

体育要闻

46岁生日快乐!巴萨全队穿10号致敬小罗

娱乐要闻

47岁“国际章”身材走样?让嘲笑她的人闭嘴

财经要闻

睡梦中欠债1.2万?这只“虾”杀疯了

汽车要闻

14.28万元起 吉利银河星耀8远航家开启预售

态度原创

本地
游戏
艺术
时尚
公开课

本地新闻

春色满城关不住|绍兴春日顶流,这片樱花海藏不住了

《龙之信条2》发售两周年 Steam版还有D加密

艺术要闻

如此美妙的光影,安静而温暖,真令人折服!

她凭这件旗袍在赛场圈粉无数

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版