网易首页 > 网易号 > 正文 申请入驻

OpenAI之后首个多模态o1发布,这篇技术报告讲清楚了!|甲子光年

0
分享至

给OpenAI亿点点压力?

作者|苏霍伊

编辑|赵健

最近一周,一波又一波新模型赶在春节前上新,你方唱罢我登场,仿佛就是“AI春晚”一般热闹。

昨晚,DeepSeek与月之暗面Kimi在相隔20分钟的时间里发布推理模型,并且都放出了详尽的技术报告。这两家年轻的、备受瞩目的AI新星“中门对狙”,引发了众多AI从业者的围观。

同样是对标o1的推理模型,DeepSeek与Kimi的这次发布有什么不同?首先,这次两家公司发布的都是满血版o1,从数学、代码基准测试分数看,和过往类o1-preview模型有明显差距。

虽然DeepSeek R1和Kimi k-1.5都侧重以强化学习(RL)为核心驱动力,但在具体的技术路线和模式设计上却“分道扬镳”。

英伟达AI科学家Jim Fan第一时间发帖对比。他发现,Kimi和DeepSeek的论文惊人地集中在类似的发现上:

不需要像 MCTS 那样复杂的树搜索。只需将思维轨迹线性化,然后进行传统的自回归预测即可; 不需要需要另一个昂贵的模型副本的价值函数; 无需密集奖励建模。尽可能依赖事实和最终结果。

两者的差异点在于:

DeepSeek 采用 AlphaZero 方法 - 纯粹通过 RL 引导,无需人工输入,即“冷启动”。Kimi 采用 AlphaGo-Master 方法:通过即时设计的 CoT 跟踪进行轻度 SFT 预热。 DeepSeek 权重是 MIT 许可证(思想领导力!);Kimi K1.5尚未正式上线。 Kimi 在 MathVista 等基准测试中表现出强大的多模式性能(!) ,这需要对几何、智商测试等有视觉理解(DeepSeek目前只能识别文字,不支持图片识别)。 Kimi 的论文在系统设计上有更多细节:RL 基础设施、混合集群、代码沙箱、并行策略;以及学习细节:长上下文、CoT 压缩、课程、采样策略、测试用例生成等。

虽然Kimi没有开源,Kimi分享了更多的训练策略、数据与AI Infra方面的信息,并且其推理模型的测评成绩在业内首屈一指。

1.OpenAI之外首个多模态o1

过去,Kimi一直采取的是模型闭源路线。业内人士评估,此次k1.5技术报告的公开,或多或少是为了“招兵买马”,希望更多技术人才能关注并加入他们的多模态大模型项目。

k1.5团队公布了SOTA模型设计和训练的四大关键要素:

第一,长上下文扩展K1.5将RL的上下文窗口扩展到128k,通过部分展开(partialrollouts)等技术手段提升训练效率,观察到随着上下文长度的增加,模型推理能力也在提升。

第二,改进的策略优化K1.5采用推导自long-CoT的在线镜像下降(OMD)变体来进行稳健的策略优化,并结合长度惩罚与数据配方微调算法性能。

第三,简洁的RL框架K1.5通过上下文扩展来获得更多搜索和反思的空间,而不依赖复杂的价值函数、过程奖励模型或蒙特卡洛树搜索,也能获得较强性能。

第四,多模态能力K1.5联合视觉与文本数据训练,让模型在处理图文推理时具备更宽泛的适应性。但由于主要支持 LaTeX 等格式的文本输入,依赖图形理解能力的部分几何图形题则难以应对。

与前几代相比,k1.5最显著的特点在于其在多模态推理更上一层楼。k1.5在文本与视觉数据上联合训练,能够进行多模态推理,着重在数学、代码、视觉等复杂任务上的综合性能提升,是OpenAI之外首个多模态类o1模型。

在短思考模式(short-CoT)模式下,Kimi k1.5 的数学、代码、视觉多模态和通用能力,大幅超越了全球范围内短思考SOTA模型GPT-4o和Claude 3.5 Sonnet的水平,领先达到550%。

在长思考模式(long-CoT)下,Kimi k1.5在数学、编程和视觉任务中的表现与OpenAI o1的性能水平接近。

总体而言,在数学和代码能力上,模型在推理能力和正确率(诸如 pass@1、EM等指标)上大幅领先或赶超其他主流对比模型;在视觉多模态任务上,无论是对图像中信息的理解、还是进一步的组合推理、跨模态推理能力,都有显著提升。在通用推理测试上,如MMLU、C-Eval、CLUEWSC等评测基准中,也展现出综合性的语言理解与推理水准。

2.独特的“Long2Short”训练方案

在《Kimi k1.5: Scaling Reinforcement Learning with LLMs》的报告中,最大的亮点之一是“Long2Short”训练方案:具体做法是先利用较大的上下文窗口(据称可扩展到128K)让模型学会长链式思维,再将“长模型”的成果和参数与更小、更高效的“短模型”进行合并,然后针对短模型进行额外的强化学习微调。

Kimi提到,尽管长链推理(long-CoT)模型表现优异,但在测试时消耗的标记数量比标准短链推理(short-CoT)大模型更多。

相比之下,采用Long2Short方案的好处是,最大化保留原先长模型的推理能力,避免了常见的“精简模型后能力减弱”难题,同时有效挖掘短模型在特定场景下的高效推理或部署优势。

在AIME测试中,k1.5系列模型一举冲上60.8分的高度;在MATH500测试中,拿下94.6分;而在LiveCodeBench测试中也稳稳占据47.3分的领先地位。对比GPT-4和Claude 3.5等传统短链模型,k1.5的提升幅度甚至达到了550%。

Long2Short表现,靠近左上方效率越高

这波long2short操作,让短链推理任务实现了质变”通过将长链模型的深度推理能力和短模型的高效响应特点相结合,开创了一种更灵活、更实用的思路。不夸张地讲,k1.5系列的突破为未来如何平衡算力与性能提供了启发式的答案,也为短链思维模型的创新打开了新的大门。

知名AI博主刘聪评价,Long2Short方案可能要成为新风潮了。

3.强化学习的Scaling

很多人都知道Kimi的产品做的很好,殊不知Kimi团队在AI Infra的基建能力上也实力雄厚。

RL可以让模型在“尝试—反馈—改进”的循环中不断提升。为了实现这个循环,就需要一个完整的训练系统来支撑。本次Kimi的技术报告也分享了在RL的模式下如何做AI Infra。‍

K1.5训练系统的架构,主要由几个核心模块组成,从图片左边的System overview可以看到整个强化学习训练系统的主要组件和数据流向。

Kimi k1.5使用了一个迭代同步的强化学习框架,其灵感来自于训练AlphaGo和AlphaStar的系统。这个框架的核心是通过持续学习和适应来增强模型的推理能力。该系统的一个关键创新是引入了部分rollout技术,以优化复杂推理轨迹的处理。

在处理长文本推理时,模型可能会生成非常长的回答,这会消耗大量计算资源。为了解决这个问题,Kimi k1.5引入了Partial rollouts的技术,主要思想之一是扩展长上下文RL训练——也就是做RL的Scaling。

通过分段处理、异步操作、重复检测等方法,Partial rollouts可以处理更长的推理过程,同时保持高效的训练速度,从而优化了整个系统的性能。

此外,通常情况下训练模型和使用模型进行推理是分开的,这会导致资源浪费。Kimi k1.5采用了一种混合部署策略,让训练和推理共享同一个计算资源池。这种策略大大减少了训练和推理之间的切换时间,提高了资源利用率。

可以说,Kimi所有技术的核心,都把长上下文作为了核心指导原则。Kimi在技术报告中总结道:“从我们的实践中得出的关键见解之一是,上下文长度的扩展对于 LLM 的持续改进至关重要。我们采用了优化的学习算法和基础设施优化(例如 Partial rollouts 技术),以实现高效的长上下文 RL 训练。”

Kimi虽然并没有把模型的权重开源,但如此详尽的技术策略报告的开放,对于推动整个强化学习以及AI行业的发展,仍旧有巨大的推动意义。

(封面图来源:公开资料)

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
2026 命最好的 3 大生肖!喜事扎堆降临,第一名富到没朋友

2026 命最好的 3 大生肖!喜事扎堆降临,第一名富到没朋友

人閒情事
2026-01-16 16:18:36
随着辽宁+山西险胜!深圳惨败29分!CBA积分榜大变,前3稳如泰山

随着辽宁+山西险胜!深圳惨败29分!CBA积分榜大变,前3稳如泰山

老吴说体育
2026-01-17 00:03:45
破纪录也要签!曼联重拾亿元目标 价格或超博格巴

破纪录也要签!曼联重拾亿元目标 价格或超博格巴

澜归序
2026-01-17 02:04:12
太丢人了!王中磊上海的艾灸馆开业,无明星无红毯,夫妻二人剪彩

太丢人了!王中磊上海的艾灸馆开业,无明星无红毯,夫妻二人剪彩

小娱乐悠悠
2026-01-16 09:20:08
美女爆释永信猛料!姐妹住少林寺三天两晚,凌晨众人汇聚他的禅房

美女爆释永信猛料!姐妹住少林寺三天两晚,凌晨众人汇聚他的禅房

小涛叨叨
2026-01-09 16:43:27
马蓉深夜发文叹遗憾:一手好牌打稀烂,谁还能给她回头的机会?

马蓉深夜发文叹遗憾:一手好牌打稀烂,谁还能给她回头的机会?

草莓解说体育
2026-01-17 01:40:02
广东省启动2026年独生子女奖励:发放标准、条件、材料,看看!

广东省启动2026年独生子女奖励:发放标准、条件、材料,看看!

虎哥闲聊
2026-01-16 09:06:17
“装死”小羊身价飙至30万,专家:“装死”非“演技”在线,系因遗传缺陷,可以人工繁殖更多只

“装死”小羊身价飙至30万,专家:“装死”非“演技”在线,系因遗传缺陷,可以人工繁殖更多只

极目新闻
2026-01-16 11:05:37
日本5-3大胜越南3-2绝杀,U23亚洲杯四强西亚团灭

日本5-3大胜越南3-2绝杀,U23亚洲杯四强西亚团灭

五姑娘说体育
2026-01-17 03:34:47
山东92岁老人“煤球渣补桥”引关注,村民称村上已开始修补;街办:已向上级打报告申请修缮

山东92岁老人“煤球渣补桥”引关注,村民称村上已开始修补;街办:已向上级打报告申请修缮

大风新闻
2026-01-16 11:55:14
美通告全球中方大幅抛售美债,特朗普打算动手,八国央行对美宣战

美通告全球中方大幅抛售美债,特朗普打算动手,八国央行对美宣战

墨兰史书
2026-01-16 15:25:03
特朗普暂缓对伊朗动武决定,日前伊朗播放特朗普2024年险遭暗杀片段,并配文“这一次,子弹不会飞偏”

特朗普暂缓对伊朗动武决定,日前伊朗播放特朗普2024年险遭暗杀片段,并配文“这一次,子弹不会飞偏”

每日经济新闻
2026-01-16 10:34:11
深圳交警创新“链路式”执法,被拦车主将无处逃跑

深圳交警创新“链路式”执法,被拦车主将无处逃跑

映射生活的身影
2026-01-16 22:32:51
太可怜了!云南4年级女孩穿着单衣瑟瑟发抖上学,老师出手暖人心

太可怜了!云南4年级女孩穿着单衣瑟瑟发抖上学,老师出手暖人心

火山诗话
2026-01-16 06:28:40
中俄弃权的背后

中俄弃权的背后

新民晚报
2026-01-16 09:45:54
网红凤姐近况曝光!发文称白人医生建议她切除子宫,以预防癌变

网红凤姐近况曝光!发文称白人医生建议她切除子宫,以预防癌变

小徐讲八卦
2026-01-15 15:03:33
婆婆住我们家,接来妈妈后,婆婆走了,没想到三个月后我追悔莫及

婆婆住我们家,接来妈妈后,婆婆走了,没想到三个月后我追悔莫及

朝暮书屋
2025-11-18 18:08:25
四问今年首场大范围寒潮:雨雪冰冻降温有多强 影响持续多久?

四问今年首场大范围寒潮:雨雪冰冻降温有多强 影响持续多久?

北青网-北京青年报
2026-01-16 17:02:56
贺娇龙离世前聊天记录曝光,年入900万,本可以躺赢!47岁仍爱折腾

贺娇龙离世前聊天记录曝光,年入900万,本可以躺赢!47岁仍爱折腾

有范又有料
2026-01-16 10:09:20
双色球、大乐透将变更游戏规则,有何不同?变更后中奖更容易吗?

双色球、大乐透将变更游戏规则,有何不同?变更后中奖更容易吗?

之乎者也小鱼儿
2026-01-16 23:31:42
2026-01-17 05:07:00
甲子光年
甲子光年
中国科技产业化前沿智库
3315文章数 9256关注度
往期回顾 全部

科技要闻

贾国龙与罗永浩被禁言,微博CEO回应

头条要闻

罗永浩、贾国龙微博账号均被禁言

头条要闻

罗永浩、贾国龙微博账号均被禁言

体育要闻

全队身价=登贝莱,他们凭什么领跑法甲?

娱乐要闻

李湘翻车,早就有迹可循!

财经要闻

清流|酒店商家在携程和美团之间沦为炮灰

汽车要闻

方程豹品牌销量突破30万辆 2026年还将推出轿跑系列

态度原创

教育
艺术
旅游
健康
数码

教育要闻

孩子千万不要早恋

艺术要闻

180米!上海北外滩新地标,设计藏了3个“小心机”

旅游要闻

北境飘雪南园绽,青秀山用一场菊花展,藏住南宁冬日顶流密码!

血常规3项异常,是身体警报!

数码要闻

熊猫MX34U7 34英寸带鱼屏显示器发布,售价1299元

无障碍浏览 进入关怀版