网易首页 > 网易号 > 正文 申请入驻

Kimi K2 不仅抢了开源第一,还抢了自家论文署名:我「夸」我自己

0
分享至

上周,月之暗面发布了全新版本的大模型,Kimi K2。

这是目前世界上第一个参数量达到万亿级别的开源模型,发布后迅速引爆了圈内讨论。

它不仅在各种评估基准上表现亮眼,也收获了国内外开发者社区的普遍好评。

在 LMSYS 的开源模型排行榜(LMArena)上,Kimi K2 直接跃升至第一名。


第一列是开源模型内的排名,前四都是国产开源模型,Kimi K2 排在第一名;第二列是所有(开源和闭源)模型中的排名。图片来源:https://lmarena.ai/leaderboard/text

但也有不少人质疑 Kimi K2 是在「抄袭」DeepSeek。

Kimi 团队则大方回应:确实是在 DeepSeek V3 的基础上做了改进。

甚至有网友直接对比了两者的架构,指出了细节差异:


Kimi K2 发布后,网友整理 DeepSeek V3 和 Kimi K2 的模型架构区别,来源:https://sebastianraschka.com/blog/2025/the-big-llm-architecture-comparison

就在大家还在讨论这些差异、参数规模、以及模型路线时,Kimi 今天又放出了一份干货:Kimi K2 的技术报告正式发布

我第一时间打开来看,快速扫了一遍,关键词大概是:万亿参数的混合专家模型、让训练更稳定的 MuonClip 优化器、不断被强调的 Agentic 智能,还有自我批评式的通用强化学习……

直到我翻到附录,发现一张有点意思的作者列表,除了看到月之暗面创始人杨植麟的名字,竟然!


Kimi K2 技术报告作者页面

Kimi K2……自己也是作者之一?

我突然有点恍惚,把你「造」出来,你还参与了如何「造出你」的论文撰写?

那我还研究什么,既然它都上作者署名了,直接问他就好了!

我就把这份技术报告交给 Kimi K2 来分析一下,看看它能不能讲明白,Kimi K2 到底做了什么。

于是,这篇文章就变成了:我,把技术报告丢给了 Kimi K2,让它「揭秘」它自己。

Kimi K2:为「智能体时代」奠基的万亿级开源大模型
——《Kimi K2 Technical Report》深度解读

从「会聊天」到「能干活」:为什么需要新一代大模型

过去两年,大模型的竞赛焦点集中在「谁能把考试题刷得更高」,但真实世界的需求正在迅速转向「谁能像人一样干活」。

从自动修复代码漏洞、跨工具协同办公,到自主完成科研实验,业界把这种「感知-规划-执行-反思」的闭环能力称为 Agentic Intelligence(智能体智能)。

Kimi K2 正是这种范式切换下的第一个系统性成果:它不仅要会做题,更要能在复杂、动态、多工具环境中像「实习生」一样自我进化。


速看省流版:

技术层面:MuonClip 优化器、稀疏 MoE 架构、改写数据策略,共同给出了「高质量数据稀缺」时代的超大规模训练新范式;

数据层面:合成+真实混合环境的十万个工具轨迹为社区提供了可复现、可扩展的智能体数据生产线;

开源层面:1 T 参数的 base + instruct 权重全部放出,相当于把一辆 F1 赛车开源给了所有工程师。

模型一览:万亿总参数、320 亿激活的「稀疏巨人」

规模:总参数 1.04 T,激活参数 32 B,MoE(混合专家)架构,稀疏度 48(每 token 只激活 8/384 位专家);DeepSeek V3 的参数总量是 6710 亿,其中激活参数量为370 亿 。

训练数据:15.5 T token,涵盖网页、代码、数学、知识四大领域,全部经过质量清洗与「改写法(数据增强技术,增加数据多样性)」扩增。

训练稳定:首次在大规模模型训练过程中,损失函数没有发生任何大的波动或异常,归功于新优化器 MuonClip。

上下文窗口:128K token,满足长文档、多轮工具调用的需求。

MuonClip:大规模模型超高效训练方法

Muon 优化器以训练效率高著称,但在参数规模较大时,可能会出现注意力权重爆炸的问题,即 logits 值过大,导致训练不稳定。

作者提出 QK-Clip 机制融合到 Muon 优化器中。QK-Clip 能够在 logit 过大时,自动进行调节;同时,不会改变网络结构,对模型干预极小,但作用极大。

注意力权重爆炸问题大多出现在超大规模的大模型训练中,这也是此次 Kimi K2 万亿参数能够成功训练的重要突破之一。


没有使用 QK-Clip 的 Muon 优化器在训练时,会无法控制 logits 数值,从而导致大模型训练的不稳定;而 Kimi K2 的 MuonClip 在整个训练过程中都可以很好的控制 logits 。

实验显示,MuonClip 在中等规模,90 亿激活参数时,就可抑制 logits 超过 1000,在 K2 全量训练中全程没有不稳定和优化问题出现,始终确保了训练的稳定性。

文本数据:合成数据+真实数据双 buff

高质量数据越来越稀缺,而在训练中简单多轮重复读取容易导致模型的过拟合。Kimi K2 提出两套改写策略:

知识文本:用 LLM 以不同风格、视角重写维基百科,同时保持语义一致性自动校验,例如把「光合作用」改写成「植物如何制造养分的侦探故事」;

数学文本:按「学习笔记」风格重写并多语种翻译,把奥数竞赛题都改写成「费曼式讲解」。


数据改写流程,将输入拆分为保留上下文的小块,按顺序重写,然后拼接成完整的重写段落。

Kimi K2 也在多个实验进行了测试,结果显示一次改写+单轮训练的准确率(28.94%)优于原始文本反复读取十轮(23.76%)。

智能体数据:2 万工具、10 万轨迹

要让模型会调用工具,最难的是「可扩展的真实环境」。作者搭建了混合管线:

工具库:3000+ 真实 MCP 工具,2 万+ LLM 合成工具,覆盖金融、城市物联网、软件开发等 20 余领域;

「任务-智能体-评估」三元组自动生成智能体训练样本:每条生成的轨迹(即模型的输入、输出、决策过程、以及所采取的每一步行动)由 LLM Judge 打分,通过率 <10% 时,采用拒绝采样方法;确保只选择符合要求的样本进行进一步的训练或评估;

真实智能体任务数据补充:例如代码类任务直接扔给开源的容器编排平台,执行任务并测试,保证反馈真实。


工具库使用的数据合成流程,工具来自真实世界的工具和LLMs;智能和任务从工具库中生成。

最终产出超过 10 万的高质量轨迹,用于监督微调与强化学习。

强化学习框架:可验证奖励 + 自我批评

可验证奖励的强化学习:对于数学、代码、逻辑题等任务,直接跑单元测试或数值验证,客观评估模型表现;

自我批评奖励:而对于非客观任务(比如写诗等),模型用 30 多条标准(清晰、客观、对话流畅、安全等指标)给 Kimi K2 的回答打分,实现无参考答案的对齐;

预算控制:拒绝「废话连篇」,强制用最少 token 解决问题(节省推理费)。

成绩汇报:开源第一,逼近闭源

所有对比均为「非思考」模式,不考虑测试时计算资源的差异。


Kimi K2 在代码、数学、工具使用和长文本四项关键能力上均取得或逼近当前开源模型的最优成绩,并在多项任务上超越闭源标杆。


详细结果图,从上至下依次是代码、工具、理工科以及通用任务。

局限与展望

多步复杂推理场景下输出过长,可能被截断;

在多轮任务中,如果触发了错误工具,或者工具调用失败,会拉低表现;

Kimi K2,是「Agentic-aware」模型(接受过 agent 任务训练),但还不是一个「完整 Agent 框架」系统。在长流程开发任务中的一次成功率,Kimi K2 仍然低于那些完整 Agent 框架驱动下的系统。

Kimi K2 后续将围绕推理效率、工具自我评估、长过程推理规划继续迭代。

Kimi K2 的意义不止于又刷新了几个 benchmark。可以预料,随着开源社区在此基础上继续改进,2025 下半年将出现一批「比 K2 更会干活」的垂直智能体,真正把大模型从「聊天框」带进「生产线」。

WAIC 2025 APPSO 在现场,欢迎加入社群一起畅聊 AI 产品,获取,解锁更多 AI 新知

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
西贝官微两度转发“人民日报再评西贝关店事件”,还加了15个感叹号:西贝贾国龙一定对照反思,学习改进

西贝官微两度转发“人民日报再评西贝关店事件”,还加了15个感叹号:西贝贾国龙一定对照反思,学习改进

极目新闻
2026-01-19 20:36:40
《镖人》为了换那尔那茜,直接让陈丽君补拍而非换脸,投资达7亿

《镖人》为了换那尔那茜,直接让陈丽君补拍而非换脸,投资达7亿

芊手若
2026-01-18 12:56:11
“让我睡一次,不然死给你看!”17岁少年持刀,威胁舅妈发生关系

“让我睡一次,不然死给你看!”17岁少年持刀,威胁舅妈发生关系

有书
2026-01-09 21:30:59
难以置信!给李亚鹏基金捐款1800万是30万网友,无一明星发文响应

难以置信!给李亚鹏基金捐款1800万是30万网友,无一明星发文响应

火山诗话
2026-01-19 16:05:40
悲剧!曝破三大神在重庆马拉松冲刺时晕倒+随后去世 官方:正核实

悲剧!曝破三大神在重庆马拉松冲刺时晕倒+随后去世 官方:正核实

风过乡
2026-01-20 12:48:50
李湘账号被封仅2天,令人担忧的事发生,和释永信关系早真相大白

李湘账号被封仅2天,令人担忧的事发生,和释永信关系早真相大白

小徐讲八卦
2026-01-18 16:35:00
全明星首发公布后世界队仅剩3名额,阿夫迪亚、唐斯等人竞逐

全明星首发公布后世界队仅剩3名额,阿夫迪亚、唐斯等人竞逐

懂球帝
2026-01-20 11:37:11
男子坐了28年牢,出狱后到派出所重新办证,所长看到他竟哭了出来

男子坐了28年牢,出狱后到派出所重新办证,所长看到他竟哭了出来

红豆讲堂
2025-05-08 09:35:37
杨绛:喜欢把家里打扫很干净的人,表面整洁,实则暴露了人生真相

杨绛:喜欢把家里打扫很干净的人,表面整洁,实则暴露了人生真相

诗词中国
2026-01-19 20:01:58
乌克兰围歼战:库皮扬斯克成俄军第47坦克师绝境。

乌克兰围歼战:库皮扬斯克成俄军第47坦克师绝境。

世界探索者探索
2026-01-17 23:08:05
没飞机可飞了:俄罗斯被迫重启30年前的老客机

没飞机可飞了:俄罗斯被迫重启30年前的老客机

桂系007
2026-01-19 23:45:57
CBA最新消息!曝琼斯加盟辽宁男篮,吉林男篮裁掉阿普森

CBA最新消息!曝琼斯加盟辽宁男篮,吉林男篮裁掉阿普森

体坛瞎白话
2026-01-20 11:45:15
多省份公布金融数据:居民储蓄高增,浙江人均存款超17万元

多省份公布金融数据:居民储蓄高增,浙江人均存款超17万元

第一财经资讯
2026-01-19 19:16:26
突发!全集团全员待岗!

突发!全集团全员待岗!

地产八卦
2026-01-20 06:24:41
“成为中国人”咋就在海外火了

“成为中国人”咋就在海外火了

极目新闻
2026-01-20 08:59:48
李亚鹏做梦也没想到,心中这口恶气竟让向太给出了,窦靖童没说谎

李亚鹏做梦也没想到,心中这口恶气竟让向太给出了,窦靖童没说谎

墨印斋
2026-01-18 21:54:20
中央层面通报3起整治形式主义为基层减负典型问题

中央层面通报3起整治形式主义为基层减负典型问题

界面新闻
2026-01-19 18:06:53
“富婆”李湘栽了:这20年的钱,她到底赚得有多野?

“富婆”李湘栽了:这20年的钱,她到底赚得有多野?

红大娘娱乐
2026-01-18 17:20:47
包钢爆炸多人死亡,蒸汽也爆炸?当水发飙时,威力比TNT还猛!

包钢爆炸多人死亡,蒸汽也爆炸?当水发飙时,威力比TNT还猛!

李将平老师
2026-01-19 11:54:13
惊!李湘被扒“千亿阔太”竟是面子工程,背后隐秘目的大揭秘!

惊!李湘被扒“千亿阔太”竟是面子工程,背后隐秘目的大揭秘!

老黯谈娱
2026-01-20 10:47:56
2026-01-20 14:39:00
AppSo incentive-icons
AppSo
让智能手机更好用的秘密
6022文章数 26743关注度
往期回顾 全部

科技要闻

去年预亏60亿后再投百亿 两大车企紧抱华为

头条要闻

克罗地亚总统劝特朗普"考虑"斯瓦尔巴群岛 挪威急跳脚

头条要闻

克罗地亚总统劝特朗普"考虑"斯瓦尔巴群岛 挪威急跳脚

体育要闻

新的时代!东契奇生涯首夺全明星票王 此前10年詹姆斯7次夺魁

娱乐要闻

贝克汉姆长子发文决裂:全家都在演戏

财经要闻

2026年,7个趋势正在爆发

汽车要闻

奇瑞张贵兵:墨甲不做秀技术的企业 只做痛点终结者

态度原创

家居
教育
房产
数码
公开课

家居要闻

隽永之章 清雅无尘

教育要闻

初中竞赛题,心中没有点墨,根本做不出来

房产要闻

中旅・三亚蓝湾发布会揭秘自贸港好房子高阶形态

数码要闻

吸力狂飙35000Pa!石头G30S Pro首发评测:扫拖自清洁一步到位 懒人狂喜

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版