网易首页 > 网易号 > 正文 申请入驻

正面硬刚OpenAI现役最强模型,国产AI一夜卷到硅谷

0
分享至

这两天,中国AI公司让全球AI圈再次兴奋了一把。

起因是,DeepSeek和 Kimi几乎同时分别官宣了全新推理模型——R1和k1.5。

让业内惊讶的是, DeepSeek-R1和 Kimi k1.5的性能都相当“能打”。

其中,文本推理模型DeepSeek-R1的性能追上o1正式版,关键模型还是开源的。而Kimi k1.5的文本和视觉多模态推理性能也已经全面追上现役全球最强模型——OpenAI o1正式版。

具体来说,在Long-CoT(思维链)模式下,Kimi k1.5的数学、代码、视觉多模态、通用推理能力,达到了长思考SOTA模型OpenAI o1满血版的水平。这也是全球范围内,首次有OpenAI之外的公司达到。而在Short CoT模式下,Kimi k1.5大幅领先GPT-4o和Claude 3.5的水平。

值得一提的是,在发布k1.5模型的同时,Kimi还首次公布了详细的模型研发技术报告。透过这份技术报告,我们也能够从中找到一些k1.5模型的实践经验。

中国双子星再次炸场硅谷,性能比肩OpenAI o1

虽然DeepSeek R1和Kimi k-1.5有不少相似之处,比如都是以强化学习(RL)为核心驱动力。但从具体技术路线上,两者却又有着很多不同。

在两个模型发布的第一时间,英伟达AI科学家Jim Fan详细对比了两个模型的相似处和差异点。他发现,,Kimi和Deepseek的研究成果相似的地方在于:

1、不需要像MCTS那样复杂的树搜索。只需将思维轨迹线性化,然后进行传统的自回归预测即可;

2、不需要需要另一个昂贵的模型副本的价值函数;

3、无需密集奖励建模。尽可能依赖事实和最终结果。

而两者的差异点在于:

1、DeepSeek采用AlphaZero方法-纯粹通过RL引导,无需人工输入,即“冷启动”。Kimi采用AlphaGo-Master方法:通过即时设计的CoT跟踪进行轻度SFT预热。

2、DeepSeek权重是MIT许可证;Kimi K1.5是闭源模型。

3、Kimi在MathVista等基准测试中表现出强大的多模式性能,这需要对几何、智商测试等有视觉理解 (DeepSeek目前只能识别文字,不支持图片识别) 。

4、Kimi的论文在系统设计上有更多细节:RL基础设施、混合集群、代码沙箱、并行策略;以及学习细节:长上下文、CoT 压缩、课程、采样策略、测试用例生成等。

当然,除了这些技术细节外,回归市场层面,之所以DeepSeek与Kimi发布推理模型能够引发如此高的关注,一个核心原因是,相比过去发布的类o1-preview模型,这两家公司发布的都是满血版o1。

无论是数学,还是代码基准测试分数,DeepSeek与Kimi的得分都接近甚至超过OpenAIo1模型。

与Deepseek不同的一点是,Kimi k1.5是OpenAI之外首个多模态o1。

Kimi k1.5在文本和视觉数据上进行训练,使其能够同时处理文本和视觉数据。这种多模态能力使得模型能够联合推理文本和图像信息,从而在多模态任务中表现出色。

例如,在视觉问答(Visual Question Answering,VQA)和数学推理任务中,模型能够通过理解和分析图像内容来生成准确的答案。这种多模态设计不仅扩展了模型的应用范围,还提升了其在复杂任务中的表现能力。

Kimi k1.5出色的多模态能力,也引发了业内的热议。在X平台上,知名AI博主Mark Kretschmann大呼,“这是多模态AI的巨大突破。“

第三,短模型能力全面领先,在短思考模式(short-CoT)模式下,数学能力无论是gpt-4o还是claude3.5-sonnet都远不如Kimi 1.5,尤其是在AIME榜单上,Kimi 1.5有60.8,而最高模型里最高的只有39.2,堪称断层式碾压。

除了数学能力外,在代码视觉多模态和通用能力等场景下,Kimi 1.5也超越了目前的开源模型。

在强劲的模型性能背后,肯定有很多人关心,这个满血版o1水平的模型究竟是如何实现的?对此,月之暗面也大方公开了Kimi 1.5模型的相关训练技术细节。

/ 02 /

“long2short“训练方案引人关注

在Kimi k1.5技术报告里,最大的亮点莫过于“Long2Short”训练方案,其方法是先让长CoT模型学会长链式思维,再将“长模型”与“短模型”进行合并,然后对短模型进行额外的强化学习微调,进而显著提升短推理路径模型的性能。

具体来说,主要有以下四种方法:

模型合并:之前都是通过模型合并来提高模型的泛化性,k1.5发现long-cot模型和short-cot模型也可以合并,进而提高输出效率,中和输出内容,并且无需训练。

最短拒绝采样:对于模型输出结果进行n次采样(实验中n=8),选择最短的正确结果进行模型微调。

DPO:与最短拒绝采样类似,利用long-cot模型生成多个输出结果,将最短的正确输出作为正样本,而较长的响应(包括:错误的长输出、比所选正样本长1.5倍的正确长输出)作为负样本,通过构造的正负样本进行DPO偏好学习。

Long2Short的强化学习:在标准的强化学习训练阶段之后,选择一个在性能和输出效率之间达到最佳平衡的模型作为基础模型,并进行单独的long-cot到short-cot的强化学习训练阶段。在这一阶段,采用长度惩罚,进一步惩罚超出期望长度,但保证模型仍然可能正确。

Long2Short方案的优势在于,最大化保留原先长模型的推理能力,避免了常见的“精简模型后能力减弱”难题,同时有效挖掘短模型在特定场景下的高效推理或部署优势。

这意味着,即使在有限的计算资源下,模型也能表现出良好的推理能力。

对于这种独特的训练方法,国外AI从业人士也给了很高的评价:

”long2short方法很有趣。首先,它显示了将思维先验从长期CoT模型转移到短期CoT模型的潜力。这对于提高有限测试时token预算的性能非常有用。他们表明,与DPO和模型合并等其他方法相比,它可以获得最高的推理效率。“

/ 03 /

推理模型,或成大模型竞争分水岭

过去三个月里,能明显感受到,Kimi在推理模型上进化速度之快。

2024年11月,他们首次推出的数学推理模型K0-math,就展现出了在数学领域的领先性。

12月,Kimi发布了视觉思考模型k1,在k0-math的基础上,k1 的推理能力不仅大大提升,还突破了数学题的范围,更解锁了强大的视觉理解能力。

现在,Kimi又往前进了一步,推出了推理能力更强大的k1.5。

从产业维度看,这事的意义不仅在于模型性能的升级,也直接影响产业竞争格局的变化。由于数据瓶颈和成本等原因,预训练scaling law的魔法正在面临着更多的考验。

而o1被认为是提升模型智能的新路径。正如OpenAI研究科学家Noam Brown所说,相比预训练的巨额投入,测试时间计算的成本相对较低,且算法改进空间巨大,具有巨大的提升潜力。

也就是说,大模型升级正在经历从预训练到后训练+测试时计算的范式转换。

从这个角度上说,“o1”类模型将是下一步国内一线实验室角逐的分水岭。谁能尽快做出自己的“o1”,谁才有资格继续留在牌桌。毫无疑问,随着DeepSeek R1和Kimi k-1.5模型的发布,月之暗面和幻方已经拿到了一张门票。

考虑到o1大大提升模型解决复杂问题的能力,将推动模型进入越来越多垂直领域,从数学、编程开始,进入到法律、科研、金融、咨询等领域。在这个过程中,国内大模型在商业化层面取得更多的突破也值得期待。

文/林白

PS:如果你对AI大模型领域有独特的看法,欢迎扫码加入我们的大模型交流群。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
伊朗总统:达成伊美谅解备忘录经与穆杰塔巴充分协调

伊朗总统:达成伊美谅解备忘录经与穆杰塔巴充分协调

新华社
2026-06-30 16:07:09
2-1,巴西为何赢日本,赛后安切洛蒂毫不客气的说出原因,很实在

2-1,巴西为何赢日本,赛后安切洛蒂毫不客气的说出原因,很实在

夕落秋山
2026-06-30 12:55:53
你们都是什么时候对男女之事开窍的?网友:果然还是拦不住有心人

你们都是什么时候对男女之事开窍的?网友:果然还是拦不住有心人

夜深爱杂谈
2026-02-21 21:37:02
百吨王闯卡后续!警方介入,车辆全被扣,女子真容曝光,恐要坐牢

百吨王闯卡后续!警方介入,车辆全被扣,女子真容曝光,恐要坐牢

社会日日鲜
2026-06-30 15:01:51
外交部:中方绝不允许日菲侵害中方海洋权益

外交部:中方绝不允许日菲侵害中方海洋权益

新京报
2026-06-29 15:32:11
吴月娘:我这浪肉,被男人摸一下真好

吴月娘:我这浪肉,被男人摸一下真好

老达子
2026-06-26 06:50:03
普京战局要“变天”?俄罗斯主战派怒了:要求用核武抹掉乌克兰

普京战局要“变天”?俄罗斯主战派怒了:要求用核武抹掉乌克兰

战域笔墨
2026-06-30 15:26:17
委内瑞拉震后仍有5万人失联,居民称实际死亡人数远超公布数字

委内瑞拉震后仍有5万人失联,居民称实际死亡人数远超公布数字

凤凰卫视
2026-06-29 15:51:21
扎哈罗娃:北约为乌研发武器丧失理性

扎哈罗娃:北约为乌研发武器丧失理性

参考消息
2026-06-30 14:02:30
体检报告上这个指标偏高,可能是“癌前警报”,很多人忽略了

体检报告上这个指标偏高,可能是“癌前警报”,很多人忽略了

垚垚分享健康
2026-06-29 18:55:25
直线拉升!000711,6分钟“地天板”

直线拉升!000711,6分钟“地天板”

中国基金报
2026-06-30 14:59:05
140亿军售大单悬了!美官员自曝:遭中方持续施压,每次都提军售

140亿军售大单悬了!美官员自曝:遭中方持续施压,每次都提军售

芳芳历史烩
2026-06-30 15:58:54
医生提醒:若长期一天只吃两顿饭,用不了半年,或患上这4种疾病

医生提醒:若长期一天只吃两顿饭,用不了半年,或患上这4种疾病

路医生健康科普
2026-06-29 12:05:03
毛主席视察南京,忽然问谭震林:老实交代,你银行里存了多少钱

毛主席视察南京,忽然问谭震林:老实交代,你银行里存了多少钱

芊芊子吟
2026-06-27 16:30:08
迪奥普:我是主动前插寻找空当,没想到自己会出现在那个位置

迪奥普:我是主动前插寻找空当,没想到自己会出现在那个位置

懂球帝
2026-06-30 13:08:10
老外给马斯克算了笔账:地球人减重1亿斤,SpaceX能省千亿刀?

老外给马斯克算了笔账:地球人减重1亿斤,SpaceX能省千亿刀?

雷科技
2026-06-29 19:58:54
弗洛伊德告诫所有女人:男人越爱挑你毛病,越跟你唱反调,越不把你放在心上,你反而越要坚持做这两件事

弗洛伊德告诫所有女人:男人越爱挑你毛病,越跟你唱反调,越不把你放在心上,你反而越要坚持做这两件事

心理观察局
2026-06-30 06:43:27
巴媒:库尼亚赛后朝日本伸出五指嘲讽

巴媒:库尼亚赛后朝日本伸出五指嘲讽

懂球帝
2026-06-30 04:04:22
廖碧儿70岁新欢身份曝光,任上市公司董事,曾娶港姐为妻有仨子女

廖碧儿70岁新欢身份曝光,任上市公司董事,曾娶港姐为妻有仨子女

甜柚叙事
2026-06-30 13:22:39
齐达内替C罗说了句公道话,一句话点透葡萄牙的死穴!

齐达内替C罗说了句公道话,一句话点透葡萄牙的死穴!

曹老师评球
2026-06-30 08:43:39
2026-06-30 16:39:00
硅基观察Pro incentive-icons
硅基观察Pro
人工智能新时代的商业智库和价值灯塔
923文章数 66关注度
往期回顾 全部

科技要闻

iPhone18 Pro遭泄密!印度代工商惹祸

头条要闻

日本裔藤森庆子将成秘鲁总统 其父因贪腐趁访日时流亡

头条要闻

日本裔藤森庆子将成秘鲁总统 其父因贪腐趁访日时流亡

体育要闻

大热倒灶压力给到法国 王楚揭法国队隐患

娱乐要闻

韩红称要退出公益,多位名人挽留

财经要闻

韩国万亿"芯"基建:存储能否成AI时代油田

汽车要闻

谁懂啊家人们!爹味和班味一点都没,这台底盘最硬国产大猎装太上头!

态度原创

家居
房产
亲子
游戏
数码

家居要闻

传奇筑 日常诗

房产要闻

等了三年!改善顶流实景交付,海口标杆的的答卷来了!

亲子要闻

各种小动物的宝宝叫什么,小朋友们快问快答,网友:他们怎么懂这么多

为了玩上《逆水寒:新世界》,就算送648我也愿意呀

数码要闻

349元!REDMI首款头戴降噪耳机发布:42dB降噪 72小时长续航

无障碍浏览 进入关怀版