网易首页 > 网易号 > 正文 申请入驻

月之暗面又开源了!登顶全球第一,还超了新版DeepSeek-R1

0
分享至


Kimi-Dev-72B登顶全球开源编程模型。

来源:月之暗面GitHub项目

编译:ZeR0

漠影

智东西6月17日报道,今日凌晨,月之暗面推出针对软件工程任务的全新开源代码大模型Kimi-Dev-72B。

该模型在SWE-bench Verified编程基准测试中取得了全球最高开源模型水平,以仅72B的参数量,成绩超过了刚于5月28日发布、参数量多达671B的新版DeepSeek-R1。


Kimi-Dev-72B在AI软件工程能力基准测试SWE-bench Verified上取得了60.4%的高分,创下开源模型的SOTA成绩。


▲开源模型在SWE-bench上的性能已得到验证


▲闭源模型在SWE-bench上的性能已得到验证

通过大规模强化学习进行了优化。它能够自主修补Docker中的真实存储库,并且只有当整个测试套件通过时才会获得奖励。这确保了解决方案的正确性和稳健性,并符合现实世界的开发标准。

Kimi-Dev-72B现已在Hugging Face和GitHub上提供下载和部署。其发布给社区的关键资源包括模型权重、源代码,技术报告也即将推出。

Hugging Face地址:

huggingface.co/moonshotai/Kimi-Dev-72B

GitHub地址:github.com/MoonshotAI/Kimi-Dev

月之暗面介绍了Kimi-Dev-72B的设计理念和技术细节,包括BugFixer和 TestWriter的组合中期训练强化学习测试时自我博弈

1、BugFixer和TestWriter的组合

成功修复错误的补丁(patch)应能通过准确反映该错误的单元测试。同时,复现错误的成功测试应引发断言错误,并在将正确的错误修复补丁应用到代码库后通过。这致使BugFixer和TestWriter互补,一个足够强大的编程大语言模型应该在这两个方面都表现出色。

BugFixer和TestWriter的工作流程类似:它们都会先找到正确的文件进行编辑,然后编辑正确的代码更新,无论是修复脆弱的实现还是插入unittest函数。因此,对于这两种角色,Kimi-Dev-72B都采用了相同的极简框架,该框架仅包含两个阶段:文件本地化和代码编辑。BugFixer和TestWriter的双重设计奠定了Kimi-Dev-72B的基础。

2、训练中期

为了增强Kimi-Dev-72B作为BugFixer和TestWriter的先验知识,月之暗面使用约1500亿个高质量的真实数据进行中期训练。

以Qwen 2.5-72B基础模型为起点,月之暗面收集了数百万个GitHub问题和 PR提交作为其中期训练数据集。数据配方经过精心构建,使Kimi-Dev-72B 能够学习人类开发者如何推理GitHub问题、编写代码修复和单元测试。

月之暗面还进行了严格的数据净化,将所有存储库从SWE-bench Verified中剔除。

中期训练充分增强了基础模型对实际Bug修复和单元测试的了解,使该模型成为后续强化学习训练的更佳起点。

3、强化学习

通过适当的中期训练和SFT,Kimi-Dev-72B在文件本地化方面表现出色。因此,其强化学习阶段专注于提升其代码编辑能力。

月之暗面使用了Kimi k1.5中描述的策略优化方法,该方法在推理任务中表现出色。对于SWE-bench Verified,月之暗面重点关注以下三个关键设计:

  • 仅基于结果的奖励。

    仅使用Docker的最终执行结果(0或1)作为奖励,训练期间不采用任何基于格式或过程的奖励。

  • 高效的提示集。

    过滤掉模型在多样本评估下成功率为零的提示,从而更有效地利用大批量。采用课程学习(curriculum learning)法,引入新的提示,逐步提高任务难度。

  • 正例强化。

    在训练的最后阶段,将之前迭代中最近成功的样本纳入当前批次。这有助于模型增强成功模式并提升性能。

Kimi-Dev-72B通过使用高度并行、强大且高效的内部agent基础设施,从可扩展数量的问题解决任务的训练中受益。


4、测试时自我博弈

经过强化学习后,Kimi-Dev-72B能同时掌握BugFixer和TestWriter的角色。在测试过程中,它会采用自我博弈机制,协调自身Bug修复和测试编写的能力。


▲BugFixer和TestWriter之间的测试时自博弈

每个问题最多可生成40个补丁候选和40个测试候选(按照标准无agent设置),可观察到测试时自博弈的扩展效应。

结语:未来迭代侧重深度集成,

更无缝地融入工作流程

月之暗面正在积极研究和开发扩展Kimi-Dev-72B功能的方法,并探索更复杂的软件工程任务。

其未来的迭代将侧重于与流行的集成开发环境(IDE)、版本控制系统和CI/CD流水线进行更深入的集成,使Kimi-Dev-72B更加无缝地融入开发者的工作流程。

阅读最新前沿科技趋势报告,请访问欧米伽研究所的“未来知识库”

https://wx.zsxq.com/group/454854145828


未来知识库是“ 欧米伽 未来研究所”建立的在线知识库平台,收藏的资料范围包括人工智能、脑科学、互联网、超级智能,数智大脑、能源、军事、经济、人类风险等等领域的前沿进展与未来趋势。目前拥有超过8000篇重要资料。每周更新不少于100篇世界范围最新研究资料。 欢迎扫描二维码或访问https://wx.zsxq.com/group/454854145828进入。

截止到3月31日 ”未来知识库”精选的百部前沿科技趋势报告

(加入未来知识库,全部资料免费阅读和下载)

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
俄罗斯领空已禁止日本航空飞行,如果中国也禁飞,看它怎么去欧洲

俄罗斯领空已禁止日本航空飞行,如果中国也禁飞,看它怎么去欧洲

我心纵横天地间
2025-11-18 20:07:05
日本公然挑衅,金一南将军:我们30多年没打仗,正好趁机锻炼下

日本公然挑衅,金一南将军:我们30多年没打仗,正好趁机锻炼下

文史旺旺旺
2025-11-17 20:38:45
8年给瘫痪父亲换了4个保姆后,我得出一个结论:不能对保姆太好

8年给瘫痪父亲换了4个保姆后,我得出一个结论:不能对保姆太好

小马达情感故事
2025-10-27 19:45:03
一高管花25万欧元,在希腊办理买房移民,半年后懵了

一高管花25万欧元,在希腊办理买房移民,半年后懵了

老黄有话
2024-09-24 08:00:03
4000吨“沉睡氢弹”被击中,北约火速大撤退,乌:都怪俄干的好事

4000吨“沉睡氢弹”被击中,北约火速大撤退,乌:都怪俄干的好事

阿策聊实事
2025-11-19 02:54:40
台湾34个团体联合发表抗议声明:台湾人民拒绝成为日本军国主义的牺牲品

台湾34个团体联合发表抗议声明:台湾人民拒绝成为日本军国主义的牺牲品

环球网资讯
2025-11-17 15:05:32
X欲最强的星座,没有之一!

X欲最强的星座,没有之一!

同道大叔
2025-11-15 22:01:52
维尼修斯比阿隆索更重要:皇马主帅已遭到弗洛伦蒂诺质疑

维尼修斯比阿隆索更重要:皇马主帅已遭到弗洛伦蒂诺质疑

K唐伯虎
2025-11-18 07:57:12
回顾:上海31岁美女博士,因无法接受丈夫身份,从23楼一跃而下

回顾:上海31岁美女博士,因无法接受丈夫身份,从23楼一跃而下

星宇共鸣
2025-03-07 11:41:25
一旦开打,要让解放军“找不着北”,继王世坚之后,于北辰也火了

一旦开打,要让解放军“找不着北”,继王世坚之后,于北辰也火了

沧海旅行家
2025-11-18 12:52:41
救人时接触私密部位算侵入吗?网友:不是,命都没了还在乎这些啊

救人时接触私密部位算侵入吗?网友:不是,命都没了还在乎这些啊

解读热点事件
2025-10-02 00:10:03
毛宁昭告全球,中方不见高市,钝刀子割肉开始,日本股票应声暴跌

毛宁昭告全球,中方不见高市,钝刀子割肉开始,日本股票应声暴跌

南宫一二
2025-11-18 15:49:22
西班牙王后抵京,大衣配光腿不怕冷?王毅外长率队亲自到场接机!

西班牙王后抵京,大衣配光腿不怕冷?王毅外长率队亲自到场接机!

小lu侃侃而谈
2025-11-17 18:47:45
权臣张廷玉被抄家,搜出白银40万两,次日早朝乾隆:快快送还回去

权臣张廷玉被抄家,搜出白银40万两,次日早朝乾隆:快快送还回去

卡西莫多的故事
2025-11-14 10:21:28
前拉玛西亚队友:梅西做的那些动作,他在小时候就能做

前拉玛西亚队友:梅西做的那些动作,他在小时候就能做

懂球帝
2025-11-19 00:22:18
“漏奶风”女装火了,比巴黎世家还炸裂!

“漏奶风”女装火了,比巴黎世家还炸裂!

首席品牌观察
2025-11-15 10:51:57
19岁男子KTV上班,三名女孩来喝酒,男子下体过度使用成永久创伤

19岁男子KTV上班,三名女孩来喝酒,男子下体过度使用成永久创伤

丫头舫
2025-09-22 20:39:00
谁说屁股大就不能穿瑜伽裤?黄色T恤搭薄荷绿瑜伽裤,成熟有活力

谁说屁股大就不能穿瑜伽裤?黄色T恤搭薄荷绿瑜伽裤,成熟有活力

小乔古装汉服
2025-11-12 11:46:01
张艺谋也没想到,金鸡奖结束的第二天,他就被扒了一个底朝天

张艺谋也没想到,金鸡奖结束的第二天,他就被扒了一个底朝天

东方不败然多多
2025-11-19 01:12:36
吴艳妮穿紧身三角裤太窄被批“露骨”,到底碍了谁的眼?

吴艳妮穿紧身三角裤太窄被批“露骨”,到底碍了谁的眼?

傲娇的马甲线
2025-09-17 18:06:44
2025-11-19 04:51:00
人工智能学家 incentive-icons
人工智能学家
人工智能领域权威媒体
4328文章数 37340关注度
往期回顾 全部

科技要闻

谷歌CEO警告:若AI泡沫破裂,没公司能幸免

头条要闻

27岁女孩家门口遇害 妈妈痛哭:墙上还有女儿血迹

头条要闻

27岁女孩家门口遇害 妈妈痛哭:墙上还有女儿血迹

体育要闻

结束最后一次对决,陈梦和朱雨玲笑着相拥

娱乐要闻

宋佳夺影后动了谁的奶酪

财经要闻

中美机器人爆发了一场论战

汽车要闻

硬核配置旗舰气场 岚图泰山售37.99万起

态度原创

房产
艺术
教育
时尚
军事航空

房产要闻

29.4亿!海南“地王”片区,要卖超级宅地!

艺术要闻

你绝对没见过!黎雄才山水画的独特魅力!

教育要闻

留学降温“AI化留学”泛滥海归人设崩塌?

秋天穿衣暂时没灵感?赶紧看看这27套穿搭,舒适自然又大方

军事要闻

日媒扬言要"击沉福建舰" 专家:玩火自焚

无障碍浏览 进入关怀版