网易首页 > 网易号 > 正文 申请入驻

中国AI双子星,在硅谷教OpenAI做事?

0
分享至

撰文| 郝 鑫 吴先之

编辑| 王 潘

国内大模型圈迎来神仙打架,OpenAI一觉醒来惊呼变了天?

1月20日,DeepSeek没有任何预兆地发布了DeepSeek-R1模型。不到两个小时,Kimi k1.5新模型随即发布。模型之外,还都附带上了详细的技术训练报告。

两款推理模型,全面对标OpenAI o1,在多项基准测试中获得了打平和超越o1的好成绩。DeepSeek-R1文本推理模型出厂即开源、可商用,Kimi k1.5同时支持文本和视觉推理,同样各项指标拉满,成为首个实现o1完整版水平的多模态模型。

中国大模型界“双子星”一夜间卷到海外,给了硅谷“亿点点”震撼。社交平台X上多位业界和学界大佬下场转发、点赞DeepSeek-R1与Kimi k1.5的帖子。

英伟达AI科学家Jim Fan第一时间发帖总结两者的相同点和差异性,评价所发表的论文是“重磅”级别。

(图源:X)

(图源:X)

多位AI技术大V对Kimi k1.5给予肯定,有人发表评论称“又一个重量级模型诞生了,亮点是文本和视觉的多模态推理能力,这是多模态AI领域的重大突破”。有人将其与OpenAI o1相比较,感叹OpenAI是否已经被拉下了神坛,“越来越多的模型正在打败OpenAI o1”?

(图源:X)

面对来自中国的“攻擂者”,挤牙膏式释放期货的OpenAI首席执行官Sam Altman在个人账号发布帖子抱怨媒体炒作AGI,让网友降低期待值,“下个月不会部署AGI,也不会构建AGI”。没想到,反而激怒了网友,被讽刺“贼喊捉贼”。

AI世界正在发生一些变化,DeepSeek-R1和Kimi k1.5验证了强化学习(RL)思路的可行性,开始挑战OpenAI的绝对领先地位。

同时,中国本土模型挑战不可能性,实现换道超车,也是对国内大模型行业的一次精神鼓舞。未来,中国AI企业仍有机会打破硅谷的技术垄断,走出中国自主技术路线。

真正的满血o1来了

继去年11月发布的k0-math数学模型,12月发布的k1视觉思考模型之后,连续第三个月升级,Kimi带来了K系列强化学习模型Kimi k1.5。

按照Kimi k系列思考模型路线图,k0到kn进化是模态和领域的全面拓展。k0属于文本态,聚焦于数学领域;k1增加了视觉态,成为了OpenAI之外首个多模态版的o1,其领域扩展至物理、化学;此次升级的k1.5仍是多模态,这也是Kimi模型突出特点之一,在领域上则由数理化升级到代码、通用等更加常用和广阔的领域。

从基准测试成绩看,k1.5多模态思考模型实现了SOTA(state-of-the-art)级别的多模态推理和通用推理能力。

国内外宣传达到o1水准的模型很多,但是从数据来看,目前只有Kimi和DeepSeek发布的模型才是真正满血版的o1,其他各家发布的模型还在o1-Preview的水平——差距有30%-40%。

以OpenAI o1为基准,其数学水平得分74.4分,编程水平得分67.2分,并且支持多模态。按此标准审视国内已发布的推理模型,阿里QVQ、智谱GML、科大讯飞星火和阶跃星辰Step系列模型与实际o1水平仍有一定距离。DeepSeek和Kimi模型在数学水平上均超过了OpenAI,编程水平接近o1水准。但跟DeepSeek相比,Kimi支持多模态视觉推理,而DeepSeek只能识别文字,不支持图片识别。

具体来看,在short-CoT(短思考)模式下,Kimi k1.5超越了其他一切模型。其数学、代码、视觉多模态和通用能力,大幅超越了全球范围内短思考SOTA模型 GPT-4o和Claude 3.5 Sonnet的水平,领先达到550%。

在long-CoT(长思考)模式下,Kimi k1.5的数学、代码、多模态推理能力,也达到长思考 SOTA 模型 OpenAI o1 正式版的水平。在两个数学水平测试(AIME 2024和MATH-500)中打败了o1,在编程水平测试(Codeforces)中与o1打平。这应该是全球范围内,OpenAI之外的公司首次实现o1正式版的多模态推理性能。

Kimik1.5的修炼秘籍

海内外一起打call,实力水平经得住考验,Kimi是如何修炼成“最强大脑”的?

看完干货满满的技术报告,可以总结归纳为一种训练思路、一个训练方案和一个训练框架。其中,高效推理、优化思路贯穿其中。

受制于数据量的限制,预训练“大力出奇迹”的方法在现实训练中屡屡碰壁,从OpenAI o1起行业内开始转变训练范式,把更多的精力投入到强化学习上。

之前的思路可以理解为“直给”,即人类要主动去“喂”给大模型数据,监督大模型工作,介入大模型的“调教”过程。但强化学习的核心思路是,在没有人过多干预的情况下,让大模型自我学习和进化。

此次Kimi的新模型更新便采用了强化学习的路径,在训练过程中证明,无需依赖蒙特卡洛树搜索、价值函数、过程奖励模型,也能让模型取得不错的性能。

强化学习的思路集中体现在了“Long2Short”训练方案中,这也是Kimi技术报告的亮点所在。按其官方介绍,具体的做法为,先利用较大的上下文窗口,让模型学会长链式思维,再将“长模型”的推理经验转移到“短模型”中,两者进行合并,最后针对“短模型”进行强化学习微调。

图注:越靠近左上角越好

这种做法的好处在于,可以提升token的利用率以及训练效率,在模型性能和效率中间寻找到最优解。

放到行业内来看,Kimi的“Long2Short”训练方案也是“模型蒸馏”的体现。在这里,“长模型”是老师,而“短模型”是学生,老师传授给学生知识,利用大模型来提升小模型的性能。当然,Kimi也采用了一些方法来提升效率,比如利用“长模型”生成的多个样本,取最短的正解为正样本,生成时间长的为负样本,以此来形成对照组训练数据集。

为了适配强化学习训练,Kimi k1.5专门设计了特殊的强化学习框架,作为基座来支撑整个训练系统。

k1.5模型最高支持128k的上下文本长度,如果模型每次都要完成一次完整的思维链生成和推理过程,对于计算资源、内存存储和训练稳定性都会造成影响。因此,Kimi引进了“Partial Rollouts”技术,生成的链路切分为多个步骤,而并非毕功与一役。

底层AI infra的搭建思路,体现了月之暗面在长文本上的积累,如何实现资源最大化和高效是其一直重点解决的问题,现在这种思路又将延续到思维链生成和推理上。

中国“双子星”终结OpenAI神话?

从Kimi和DeepSeek身上,我们或许能看出未来模型训练的几种趋势:对于强化学习训练的投入和资源倾斜将加大;OpenAI o1成为了下一阶段大模型入场的新门槛,技术、资源跟不上意味着掉队;上下长文本技术尤为重要,这将作为能够生成和推理长思维链的基础;Scaling law还没有完全失效,在一些局部,比如长上下文本依然存在并且具有潜力。

中国“双子星”打开了OpenAI的黑箱。此前,OpenAI定义了大模型训练的四个阶段:预训练、监督微调、奖励建模、强化学习。现在,这个范式被打破了,Kimi 和DeepSeek都证明了可以跳过和简化某些环节来提升模型的训练效率和性能。

Kimi和DeepSeek效应是双重的。走出国门,向海外AI圈特别是硅谷证明,持续的专注于聚焦就能出奇迹,中国依然具备竞争科技第一梯队的能力。

OpenAI应该反思,在投入如此资源和拥有高人才密度的情况下,为什么被来自中国的企业在多个方面赶超,这或许将给世界的竞争格局带来微妙的变化。人们不禁要问,OpenAI的先发优势还能持续多久?不仅同一个国家有死对头Anthropic,从其手中拿走了To B的单子,现在还要对来自中国的AI企业保持警惕。

在国内,新的格局似乎已经在变动之中。DeepSeek凭借开源和超越OpenAI性能的模型受到了前所未有的关注,甚至已经开始有人将其纳入“AI 六小虎”的行列之中。

相较于以前,现阶段的Kimi更加明确了从k0到kn的技术路线,尽管其表示“会聚焦在Kimi一个产品上”,但Kimi所承载的已经远远超越了一个普通的AI应用。

Kimi k1.5让月之暗面拿下了下一阶段的入场券,这也让其在未来竞争中掌握更多的主动权。保持一定的领先之后,2025年新的目标是如何活得更好。

新一轮洗牌悄悄开始,谁会先掉队,谁又能先突出重围?

微信号|TMTweb

公众号|光子星球

别忘了扫码关注我们!

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
韩股跌10%!科技小登全线杀跌,发生了什么

韩股跌10%!科技小登全线杀跌,发生了什么

金石随笔
2026-06-23 15:04:01
TyC:奥利塞的更衣柜内疑似出现一盒口含烟,该产品含尼古丁

TyC:奥利塞的更衣柜内疑似出现一盒口含烟,该产品含尼古丁

懂球帝
2026-06-23 11:15:07
你们都是什么时候对男女之事开窍的?网友:果然还是拦不住有心人

你们都是什么时候对男女之事开窍的?网友:果然还是拦不住有心人

夜深爱杂谈
2026-02-21 21:37:02
教育界有个“托举悖论”:你替孩子铺的路越平坦,孩子自己的路就越难走;高段位父母只做两件“减法”

教育界有个“托举悖论”:你替孩子铺的路越平坦,孩子自己的路就越难走;高段位父母只做两件“减法”

心理观察局
2026-06-23 06:58:08
勇士追求杰伦・布朗完整交易筹码方案曝光:送出巴特勒+波杰+双签

勇士追求杰伦・布朗完整交易筹码方案曝光:送出巴特勒+波杰+双签

夜白侃球
2026-06-22 22:27:58
特朗普最新民调公布……

特朗普最新民调公布……

商业周刊中文版
2026-06-23 15:33:32
不撤案杀你全家,山西运城13岁女孩被强奸,不予立案后又调查了

不撤案杀你全家,山西运城13岁女孩被强奸,不予立案后又调查了

汉史趣闻
2026-06-23 08:23:52
发现一个不争的事实:一个女人越是不爱打扮、不爱说话、不爱凑热闹,往往在两个方面越是让人佩服

发现一个不争的事实:一个女人越是不爱打扮、不爱说话、不爱凑热闹,往往在两个方面越是让人佩服

心理观察局
2026-06-23 07:19:13
今晚亮相!杨瀚森:跟队友有些生疏需好好交流,要为球队贡献力量

今晚亮相!杨瀚森:跟队友有些生疏需好好交流,要为球队贡献力量

懂球帝
2026-06-23 13:14:33
1岁半男童被生父女友踢死,生父出具谅解书生母坚决反对,律师解读:谅解书有效,但因生母不同意谅解,从宽处罚的效果被明显削弱

1岁半男童被生父女友踢死,生父出具谅解书生母坚决反对,律师解读:谅解书有效,但因生母不同意谅解,从宽处罚的效果被明显削弱

扬子晚报
2026-06-23 12:26:26
男子因私人恩怨给同事车辆油箱注水、轮胎放气,被开除后起诉公司要求赔偿,法院判了

男子因私人恩怨给同事车辆油箱注水、轮胎放气,被开除后起诉公司要求赔偿,法院判了

环球网资讯
2026-06-23 10:23:08
若佛得角晋级32强将获1100万美元奖金 占全国GDP的0.3%

若佛得角晋级32强将获1100万美元奖金 占全国GDP的0.3%

财联社
2026-06-23 00:30:03
90后极客防长的恐怖KPI:每月消灭5万俄军,这个目标能实现吗?

90后极客防长的恐怖KPI:每月消灭5万俄军,这个目标能实现吗?

寰球经纬所
2026-06-22 19:43:20
2026年世界杯金靴奖概率:姆巴佩领跑,四大射手展开终极竞争

2026年世界杯金靴奖概率:姆巴佩领跑,四大射手展开终极竞争

红星新闻
2026-06-23 13:22:06
56岁出轨女人自述:我与他偷偷来往多年,但丈夫一直没有发现

56岁出轨女人自述:我与他偷偷来往多年,但丈夫一直没有发现

千秋历史
2026-05-27 19:44:17
夺冠大热轰然倒下,躺着都能出线却站在了出局悬崖边,球迷:窝囊

夺冠大热轰然倒下,躺着都能出线却站在了出局悬崖边,球迷:窝囊

我就是一个说球的
2026-06-22 21:12:52
已经当了“终身大总统”,袁世凯为什么非要作死当那83天皇帝?

已经当了“终身大总统”,袁世凯为什么非要作死当那83天皇帝?

浪子说
2026-06-22 09:44:39
三打莫斯科,乌总统发出严厉警告

三打莫斯科,乌总统发出严厉警告

书生论剑
2026-06-21 11:06:44
先3-0再2-0!比起梅西的世界杯18球,让姆巴佩更难受的,还在后面

先3-0再2-0!比起梅西的世界杯18球,让姆巴佩更难受的,还在后面

海棠尝金桔
2026-06-23 11:41:06
丰田RAV4卖疯了,经销商库存按小时算,800人排队抢车

丰田RAV4卖疯了,经销商库存按小时算,800人排队抢车

赛场名场面
2026-06-23 00:33:38
2026-06-23 17:59:00
光子星球 incentive-icons
光子星球
细微之处,看见未来!
1547文章数 2149关注度
往期回顾 全部

科技要闻

48名中国开发者联名举报苹果

头条要闻

运城13岁女孩称遭男子强奸警方不予立案 当事人发声

头条要闻

运城13岁女孩称遭男子强奸警方不予立案 当事人发声

体育要闻

扬尼斯去了迈阿密:凯尔特人怎么办?

娱乐要闻

内娱95后顶流格局发生潜移默化的变化

财经要闻

屋顶光伏度苦夏

汽车要闻

华为智驾ADS限时优惠月底结束 7月1日前下订立省3000元

态度原创

旅游
本地
亲子
家居
公开课

旅游要闻

暂停运营!云台山景区发布公告

本地新闻

吃一次广东龙舟饭,才懂什么是豪华盛宴

亲子要闻

汪汪队狗狗认知恐龙 #大型挖掘机挖土视频 #挖掘机挖土视频

家居要闻

绿意盎然 自然之境

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版