网易首页 > 网易号 > 正文 申请入驻

月之暗面又开源了!登顶全球第一,还超了新版DeepSeek-R1

0
分享至


智东西
编译 ZeR0
编辑 漠影

智东西6月17日报道,今日凌晨,月之暗面推出针对软件工程任务的全新开源代码大模型Kimi-Dev-72B。

该模型在SWE-bench Verified编程基准测试中取得了全球最高开源模型水平,以仅72B的参数量,成绩超过了刚于5月28日发布、参数量多达671B的新版DeepSeek-R1。


Kimi-Dev-72B在AI软件工程能力基准测试SWE-bench Verified上取得了60.4%的高分,创下开源模型的SOTA成绩。


▲开源模型在SWE-bench上的性能已得到验证


▲闭源模型在SWE-bench上的性能已得到验证

通过大规模强化学习进行了优化。它能够自主修补Docker中的真实存储库,并且只有当整个测试套件通过时才会获得奖励。这确保了解决方案的正确性和稳健性,并符合现实世界的开发标准。

Kimi-Dev-72B现已在Hugging Face和GitHub上提供下载和部署。其发布给社区的关键资源包括模型权重、源代码,技术报告也即将推出。

Hugging Face地址:huggingface.co/moonshotai/Kimi-Dev-72B

GitHub地址:github.com/MoonshotAI/Kimi-Dev

月之暗面介绍了Kimi-Dev-72B的设计理念和技术细节,包括BugFixer和 TestWriter的组合中期训练强化学习测试时自我博弈

1、BugFixer和TestWriter的组合

成功修复错误的补丁(patch)应能通过准确反映该错误的单元测试。同时,复现错误的成功测试应引发断言错误,并在将正确的错误修复补丁应用到代码库后通过。这致使BugFixer和TestWriter互补,一个足够强大的编程大语言模型应该在这两个方面都表现出色。

BugFixer和TestWriter的工作流程类似:它们都会先找到正确的文件进行编辑,然后编辑正确的代码更新,无论是修复脆弱的实现还是插入unittest函数。因此,对于这两种角色,Kimi-Dev-72B都采用了相同的极简框架,该框架仅包含两个阶段:文件本地化和代码编辑。BugFixer和TestWriter的双重设计奠定了Kimi-Dev-72B的基础。

2、训练中期

为了增强Kimi-Dev-72B作为BugFixer和TestWriter的先验知识,月之暗面使用约1500亿个高质量的真实数据进行中期训练。

以Qwen 2.5-72B基础模型为起点,月之暗面收集了数百万个GitHub问题和 PR提交作为其中期训练数据集。数据配方经过​​精心构建,使Kimi-Dev-72B 能够学习人类开发者如何推理GitHub问题、编写代码修复和单元测试。

月之暗面还进行了严格的数据净化,将所有存储库从SWE-bench Verified中剔除。

中期训练充分增强了基础模型对实际Bug修复和单元测试的了解,使该模型成为后续强化学习训练的更佳起点。

3、强化学习

通过适当的中期训练和SFT,Kimi-Dev-72B在文件本地化方面表现出色。因此,其强化学习阶段专注于提升其代码编辑能力。

月之暗面使用了Kimi k1.5中描述的策略优化方法,该方法在推理任务中表现出色。对于SWE-bench Verified,月之暗面重点关注以下三个关键设计:

  • 仅基于结果的奖励。仅使用Docker的最终执行结果(0或1)作为奖励,训练期间不采用任何基于格式或过程的奖励。
  • 高效的提示集。过滤掉模型在多样本评估下成功率为零的提示,从而更有效地利用大批量。采用课程学习(curriculum learning)法,引入新的提示,逐步提高任务难度。
  • 正例强化。在训练的最后阶段,将之前迭代中最近成功的样本纳入当前批次。这有助于模型增强成功模式并提升性能。

Kimi-Dev-72B通过使用高度并行、强大且高效的内部agent基础设施,从可扩展数量的问题解决任务的训练中受益。


4、测试时自我博弈

经过强化学习后,Kimi-Dev-72B能同时掌握BugFixer和TestWriter的角色。在测试过程中,它会采用自我博弈机制,协调自身Bug修复和测试编写的能力。


▲BugFixer和TestWriter之间的测试时自博弈

每个问题最多可生成40个补丁候选和40个测试候选(按照标准无agent设置),可观察到测试时自博弈的扩展效应。

结语:未来迭代侧重深度集成,更无缝地融入工作流程

月之暗面正在积极研究和开发扩展Kimi-Dev-72B功能的方法,并探索更复杂的软件工程任务。

其未来的迭代将侧重于与流行的集成开发环境(IDE)、版本控制系统和CI/CD流水线进行更深入的集成,使Kimi-Dev-72B更加无缝地融入开发者的工作流程。

该公司承诺将持续改进Kimi-Dev-72B,进行严谨的红队测试,并向社区发布更强大的模型。

来源:月之暗面GitHub项目

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
央视发文,张展硕再破天花板,让孙杨潘展乐和整个泳坛“沉默”了

央视发文,张展硕再破天花板,让孙杨潘展乐和整个泳坛“沉默”了

振华观史
2025-11-19 15:59:52
吴艳妮哭成泪人!颁奖典礼掩面痛哭,三届全运会无缘金牌

吴艳妮哭成泪人!颁奖典礼掩面痛哭,三届全运会无缘金牌

奥拜尔
2025-11-19 22:57:40
世界太魔幻,高中学历骗子成我国大学首席科学家,学术圈怎么了?

世界太魔幻,高中学历骗子成我国大学首席科学家,学术圈怎么了?

李将平老师
2025-11-18 20:28:43
山东女团夺冠!范思琦仰天怒吼,何卓佳场下自闭,陈梦落泪!

山东女团夺冠!范思琦仰天怒吼,何卓佳场下自闭,陈梦落泪!

篮球资讯达人
2025-11-19 21:49:04
日官员沉默离华,日媒称中方一个举动罕见,这次会谈信息有点多

日官员沉默离华,日媒称中方一个举动罕见,这次会谈信息有点多

之乎者也小鱼儿
2025-11-19 15:50:30
全世界在等的Gemini 3终于来了!强到断崖领先,连马斯克OpenAI都夸好

全世界在等的Gemini 3终于来了!强到断崖领先,连马斯克OpenAI都夸好

智东西
2025-11-19 03:25:59
杭州官宣取消灵隐寺门票

杭州官宣取消灵隐寺门票

界面新闻
2025-11-19 10:37:00
赴日游客在日媒前表示:不在乎政府的呼吁,花钱是自己的自由!

赴日游客在日媒前表示:不在乎政府的呼吁,花钱是自己的自由!

翻开历史和现实
2025-11-19 12:51:46
15号模特广东冠军后续:一身赘肉是何来头?最新回应:会给交代!

15号模特广东冠军后续:一身赘肉是何来头?最新回应:会给交代!

阿纂看事
2025-11-19 09:07:36
还想淡化?日媒最新爆料

还想淡化?日媒最新爆料

环球时报国际
2025-11-19 22:09:33
霍尊也没想到,自己复出后,分手五年的陈露亲手撕碎他最后的体面

霍尊也没想到,自己复出后,分手五年的陈露亲手撕碎他最后的体面

手工制作阿歼
2025-11-19 09:56:53
辣眼睛!又是出轨,响水47秒成关键词,某金店女店长登上热搜…

辣眼睛!又是出轨,响水47秒成关键词,某金店女店长登上热搜…

火山诗话
2025-11-19 20:30:15
100米栏悲喜夜:3人打开13秒!吴艳妮第2夏思凝第4,广东名将夺冠

100米栏悲喜夜:3人打开13秒!吴艳妮第2夏思凝第4,广东名将夺冠

球场没跑道
2025-11-19 21:33:01
喻恩泰离婚大战!老婆偷情“大”男生,聊天记录露骨又大胆

喻恩泰离婚大战!老婆偷情“大”男生,聊天记录露骨又大胆

叶公子
2025-11-19 19:04:02
“漏X装”,火了!

“漏X装”,火了!

微微热评
2025-11-19 14:51:31
中方舰队刚进钓鱼岛,日本采取行动,不到24小时,美方下场搅局

中方舰队刚进钓鱼岛,日本采取行动,不到24小时,美方下场搅局

博览历史
2025-11-19 18:36:57
前日军退将曾扬言:若不考虑弹道导弹,日本海自一周全歼中国舰队

前日军退将曾扬言:若不考虑弹道导弹,日本海自一周全歼中国舰队

不掉线电波
2025-11-19 16:31:08
喻恩泰和妻子婚内双出轨,聊天记录不堪入目,妻子约P喜欢大的

喻恩泰和妻子婚内双出轨,聊天记录不堪入目,妻子约P喜欢大的

社会酱
2025-11-19 17:42:35
已确认是张颂文!从车祸现场离去后被官媒报道,高群书果然没说错

已确认是张颂文!从车祸现场离去后被官媒报道,高群书果然没说错

鹿楠
2025-11-18 22:45:03
里子面子都没了!邹市明赔光两亿后,冉莹颖亲手撕碎他最后的体面

里子面子都没了!邹市明赔光两亿后,冉莹颖亲手撕碎他最后的体面

赶鸭子上架
2025-11-14 15:48:42
2025-11-20 00:04:49
智东西 incentive-icons
智东西
聚焦智能变革,服务产业升级。
10762文章数 116904关注度
往期回顾 全部

科技要闻

一夜封神,Gemini 3让谷歌找回“碾压感”

头条要闻

日方要求解释为何未告知磋商后会有媒体拍摄 中方回应

头条要闻

日方要求解释为何未告知磋商后会有媒体拍摄 中方回应

体育要闻

世界杯最小参赛国诞生!15万人岛国的奇迹

娱乐要闻

史林子出轨对方前妻放锤!

财经要闻

重磅!中金公司拟收购东兴与信达证券

汽车要闻

此刻价格不重要 第5代帝豪本身就是价值

态度原创

亲子
时尚
游戏
数码
家居

亲子要闻

全国步入呼吸道传染病流行季,上海儿童流感就诊量逐渐上升

辛芷蕾的炸裂10分钟,让人大受震撼

《33号远征队》总监大力称赞《失落的奥德赛》

数码要闻

华为MatePad Edge现场体验丨鸿蒙二合一平板电脑

家居要闻

水岸美学 书香人文生活

无障碍浏览 进入关怀版