网易首页 > 网易号 > 正文 申请入驻

杨植麟合写的技术报告来了!Kimi K2也是作者,还拿了24项开源SOTA

0
分享至

智东西7月22日报道,今天,月之暗面公布了其最新旗舰模型Kimi K2的完整技术报告。作为一款国产开源万亿参数大模型,Kimi K2在发布之后迅速爆火,并在大模型竞技场上接替新版DeepSeek-R1,登顶全球开源模型榜首

技术报告透露,Kimi K2在15.5万亿token上进行了训练。为实现这一量级的训练,月之暗面设计了MuonClip优化器,从而解决了大模型训练中常见的注意力爆炸与损失尖峰问题,提升了预训练的稳定性和token利用率。数据方面,月之暗面打造了一条改写流水线,让模型扩增高质量token的总量。

在后训练阶段,Kimi K2合成了涵盖数万工具与任务的多轮交互数据用于训练,再进入强化学习阶段,让模型在真实与合成环境中不断试错、反思与进化。这一训练过程让K2能在不开启思维链的前提下,于多项基准测试中获得超越顶尖开源模型,比肩头部闭源模型的成绩。

具体来看,在自主编程(Agentic Coding)、工具调用(Tool Use)和数学推理(Math & Reasoning)这三个能力维度上,Kimi K2的表现超过了DeepSeek-V3-0324、Qwen-235B-A22B等模型,但在部分基准测试中略逊于Claude 4 Opus、OpenAI GPT-4.1等模型。基准测试结果显示,Kimi-K2一共获得了14项全球SOTA,24项开源模型SOTA。

在这份32页技术报告的末尾,月之暗面创始人兼CEO杨植麟出现在作者清单中,更令人意外的是,Kimi K2也被列入了技术报告的作者之列。

技术报告链接:https://github.com/MoonshotAI/Kimi-K2/blob/main/tech_report.pdf

一、大模型智能步入新阶段,数据效率成提升瓶颈

月之暗面在技术报告中提出,大模型正在从被动模仿人类文本转向Agentic Intelligence阶段,模型逐渐具备了在复杂、动态的环境中自主感知、规划、推理并行动的能力。

这一转变意味着模型不再局限于静态的人类标注数据,而是通过与环境的持续交互,主动习得超出训练分布的新技能,并依据经验不断调整行为。

然而,Agentic Intelligence给预训练和后训练阶段都带来了一定的挑战。

预训练阶段,研究者必须在高质量数据日益稀缺的条件下,为模型注入足够通用的先验知识,因此token效率(每个 token 带来的学习信号)成为决定规模法则的关键因素。

在后训练阶段,研究者则需要把这些知识转化为可执行的行为,而多步推理、长期规划、工具调用等智能体能力在自然数据中稀缺且昂贵。

因此,业界亟需能够大规模合成结构化、高质量智能体轨迹的系统,并辅以融合偏好与自我批判的通用强化学习框架,弥补静态对齐与开放环境之间的差异。

二、提出MuonClip优化器,通过改写扩充高质量数据

针对上述问题,月之暗面首先在预训练阶段采用高效的Muon优化器进行训练,该优化器具备高效率、权重衰减少等优势。

Muon优化器由海外AI学者Keller Jordan(现已加入OpenAI)提出,月之暗面曾在今年2月对其进行改进并开源。后者在实验中发现,在相同计算预算和模型规模下,Muon显著优于AdamW等经典优化器,是提升大模型训练token利用效率的理想选择。

不过,Muon在扩大规模时暴露出训练不稳定的问题,特别是注意力logits爆炸现象,注意力得分(logits)会在训练过程中无限增大,导致各种后续问题。

月之暗面进一步提出了权重裁剪机制QK-Clip,能在每次参数更新后,根据当前批次中每个注意力头的最大logit值,动态缩放Query和Key的投影权重。

最终,该团队将Muon、权重衰减、RMS匹配与QK-Clip集成,形成统一优化器MuonClip。实验数据表明,加入QK-Clip的训练损失曲线平滑,无损失尖峰(下图右侧)。

预训练数据方面,月之暗面引入了一套合成数据生成策略以提高token效用。具体而言,该团队设计了一条改写流水线,可在不明显过拟合的前提下,扩增高质量token的总量。

例如,在知识型数据上,为提升高质量知识token的效用,月之暗面向模型提供了风格与视角多样的提示词,引导大模型以不同风格、从不同视角对原文进行忠实改写。同时,为保持长文档的全局连贯性并避免信息丢失,模型采用按块自回归重写策略。

在训练前,团队还会通过语义对齐检查确保改写片段与原文内容一致,作为初步质控。

为了强化数学推理能力,月之暗面把高质量数学文档改写成“学习笔记”风格,并通过将其他语言的高质量数学资料翻译成英文来进一步扩大数据多样性。

最终,Kimi K2一共使用了15.5 T token的预训练语料,涵盖Web文本、代码、数学、知识四大领域,且全部经过正确性与质量验证。

模型架构方面,Kimi K2整体架构与DeepSeek-V3相似,采用多头隐式注意力(MLA)作为注意力机制。月之暗面发现,在保持激活参数量不变的前提下,继续提高稀疏度仍能显著降低损失,因此把专家总数从DeepSeek-V3的256提升到384;同时为了减少推理开销,将注意力头数从128降至64。下图是Kimi K2与DeepSeek-V3的核心结构对比。

Kimi K2在英伟达H800 GPU集群完成了训练,并使用了统一并行配置、通信优化等策略,但并未披露集群规模。

三、为工具调用打造海量数据,模型获14项全球SOTA

Kimi K2的后训练由两个核心阶段组成。

在有监督微调阶段,Kimi K2依旧使用了Muon优化器,并构建了一个覆盖多领域的大规模指令微调数据集,重点是提示词多样性和响应质量。这些数据使用了K1.5及其他领域专家模型生成候选回答,再由大模型或人工进行质量评估与过滤。

月之暗面特别工具使用(Tool Use)能力构建了一个大规模Agentic数据合成流水线,整合3000+真实MCP工具和2万+合成工具,生成数千个不同能力组合的智能体与配套任务。

紧接着,该团队模拟多轮交互,并过滤出高质量的智能体轨迹,然后在代码/软件工程等场景中,使用真实执行环境提升数据真实性。

强化学习阶段,月之暗面的目标是在可验证奖励任务与主观偏好任务中提升模型能力。

在可验证的任务上,该团队打造了一个可验证奖励的“训练场”,用于提升模型在数学、STEM、逻辑任务、复杂指令遵循、编程等领域的能力。

针对无明确答案的任务(如创意写作、开放问答),月之暗面引入了模型自评机制,让模型通过对比自身输出并打分。

RL算法优化方面,月之暗面限制了每任务最大token数,避免冗长输出,并利用PTX损失函数防止模型在训练过程中遗忘高价值数据。该团队还在后训练阶段逐步降低模型的temperature,从而降低随机性,确保模型输出的可靠性和一致性。

后训练阶段,月之暗面还对训练基础设施进行了针对性设计,采用协同架构,将训练和推理引擎部署在同一节点,动态分配GPU资源以提升效率。针对长周期任务,该团队采用并行Rollout和分段执行优化GPU利用率,并通过标准化接口支持多样化环境,实现高效的大规模RL训练。

基准测试的结果印证了上述训练流程的效果。

在编程领域,Kimi-K2-Instruct在SWE-bench Verified和LiveCodeBench v6的成绩与商业模型的差距进一步缩小,在真实世界软件开发和竞赛级编程挑战展现出实战能力、

Kimi-K2-Instruct还在多轮工具使用评测、通用知识、数学推理、指令遵循和长上下文任务中获得不错的表现。其MMLU得分(89.5%)、IFEval得分(89.8%) 等超越开源竞品,LMSYS Arena用户评测中位列开源模型榜首。

技术报告中放出了Kimi-K2-Instruct与其他开源、闭源模型的基准测试对比,加粗成绩代表全球SOTA,加粗并划线的成绩代表开源模型SOTA。Kimi-K2-Instruct获得14项全球SOTA,24项开源模型SOTA。

近期,中国开源模型在能力、国际影响力上不断实现突破。本次,Kimi K2已经发布后,便在国内外开源社区上吸引了不少人下载、体验。美国AI搜索独角兽Perplexity的创始人兼CEO甚至称,有计划在Kimi K2的基础上进行进一步训练。

我们也看到,本次Kimi K2的模型架构在DeepSeek-V3的基础上实现了创新,二者同属国产开源模型。随着Kimi逐步加入开源行列并开放旗舰级别的模型,国产开源AI生态中又多了一家重要的参与者。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
米莱的好日子可能就要到头了?他可能最该庆幸,没和中国闹翻脸

米莱的好日子可能就要到头了?他可能最该庆幸,没和中国闹翻脸

丁丁鲤史纪
2026-03-31 16:26:20
姜文女儿官宣怀孕晒孕肚照,去年八月在法国结婚,姜文升级当外公

姜文女儿官宣怀孕晒孕肚照,去年八月在法国结婚,姜文升级当外公

乡野小珥
2026-04-22 15:17:09
“天网2026”正式启动!这类公职人员要被严查了,力度空前!

“天网2026”正式启动!这类公职人员要被严查了,力度空前!

细说职场
2026-04-22 08:42:26
超级世界波!斯坦丘天外飞仙,德比战疯狂庆祝,大连球迷杀人诛心

超级世界波!斯坦丘天外飞仙,德比战疯狂庆祝,大连球迷杀人诛心

奥拜尔
2026-04-22 21:33:18
中年以后,少吃,真的可以保命

中年以后,少吃,真的可以保命

洞见
2026-04-21 09:06:51
江苏17岁女孩溺水,被救后苦寻恩人10年,结婚时才知恩人竟是丈夫

江苏17岁女孩溺水,被救后苦寻恩人10年,结婚时才知恩人竟是丈夫

嘉琪Feel
2025-05-31 11:19:30
春天养肝别乱补!多吃这7种蔬菜,护肝排毒,应季吃更养人

春天养肝别乱补!多吃这7种蔬菜,护肝排毒,应季吃更养人

红色豌豆A
2026-04-21 21:02:10
专家提醒:不要买!不要吃!里面含有硼砂,危害健康,别害了自己

专家提醒:不要买!不要吃!里面含有硼砂,危害健康,别害了自己

蜉蝣说
2025-10-31 10:56:39
祭拜鬼社当天,日本发出崩溃预警,美欧视而不见,中国不再伸援手

祭拜鬼社当天,日本发出崩溃预警,美欧视而不见,中国不再伸援手

离离言几许
2026-04-21 23:24:09
又一家国家级“小巨人”振宏股份即将登陆北交所!

又一家国家级“小巨人”振宏股份即将登陆北交所!

IPO参考
2026-04-22 09:05:26
一句“让他上”救了单位,保安的傲慢,到底毁了谁?

一句“让他上”救了单位,保安的傲慢,到底毁了谁?

社会日日鲜
2026-04-22 08:32:24
在中国高铁上坐了12小时,赞不绝口,却转头把380亿订单给了德国

在中国高铁上坐了12小时,赞不绝口,却转头把380亿订单给了德国

史行途
2026-04-22 10:02:43
察可军现状:在山东老家经商,接手家族商业帝国,早已身价过亿

察可军现状:在山东老家经商,接手家族商业帝国,早已身价过亿

阅微札记
2026-04-22 17:12:42
邓紫棋改编偶像周杰伦《爱琴海》登热搜,周董回复:感谢翻唱,听起来太棒了;两人曾在演唱会互动,周杰伦后悔没签下邓紫棋

邓紫棋改编偶像周杰伦《爱琴海》登热搜,周董回复:感谢翻唱,听起来太棒了;两人曾在演唱会互动,周杰伦后悔没签下邓紫棋

鲁中晨报
2026-04-22 17:28:12
新加坡外长警告:如果中美开战,霍尔木兹海峡危机只能算“彩排”

新加坡外长警告:如果中美开战,霍尔木兹海峡危机只能算“彩排”

观察者网
2026-04-22 18:59:08
常德澧县一对夫妻给鱼塘消毒时不幸溺亡,留下两个孩子,当地:孩子已得到妥善照顾

常德澧县一对夫妻给鱼塘消毒时不幸溺亡,留下两个孩子,当地:孩子已得到妥善照顾

极目新闻
2026-04-22 23:04:41
0-3变成2-0,哈登成为骑士蜕变的关键!但这几个球员打得却很差

0-3变成2-0,哈登成为骑士蜕变的关键!但这几个球员打得却很差

一登侃球
2026-04-23 00:47:10
柯文哲:中国崛起威胁全世界,要努力让中国变成文明社会。

柯文哲:中国崛起威胁全世界,要努力让中国变成文明社会。

今墨缘
2026-04-21 22:33:00
4轮0进球向下俯冲!连续两年没请正经教练,浙江队的困境因管理层

4轮0进球向下俯冲!连续两年没请正经教练,浙江队的困境因管理层

中国足球的那些事儿
2026-04-22 20:20:05
奥沙利文:我和希金斯都是老家伙了,未来靠穆迪普伦对抗中国军团

奥沙利文:我和希金斯都是老家伙了,未来靠穆迪普伦对抗中国军团

杨华评论
2026-04-23 02:17:49
2026-04-23 03:47:00
智东西 incentive-icons
智东西
智东西,AI产业新媒体,专注报道人工智能的前沿技术发展,和技术应用带来的千行百业产业变革。
11668文章数 117037关注度
往期回顾 全部

科技要闻

对话梅涛:没有视频底座,具身智能走不远

头条要闻

伊朗:特朗普“又说谎了”

头条要闻

伊朗:特朗普“又说谎了”

体育要闻

网易传媒再度签约法国队和阿根廷队

娱乐要闻

蜜雪冰城泰国代言人 被扒出辱华黑历史

财经要闻

医院专家号"秒空"!警方牵出黑色产业链

汽车要闻

纯电续航301km+激光雷达 宋Pro DM-i飞驰版9.99万起

态度原创

家居
时尚
房产
艺术
健康

家居要闻

极简绘梦 克制和谐

用了8年还心动,这笔钱是花得真值啊

房产要闻

官宣!今年9月起,广州中小学“重点班”将成历史!

艺术要闻

看!这些美女的眼神能让你心醉神迷!

干细胞抗衰4大误区,90%的人都中招

无障碍浏览 进入关怀版