网易首页 > 网易号 > 正文 申请入驻

北大、字节跳动联手发布SWE-Swiss:完整配方直指开源SOTA

0
分享至





图 1: SWE-bench Verified 上的性能与模型尺寸对比。该研究的 32B 模型 SWE-Swiss,取得了 60.2% 的顶级分数,与更大的模型如 Kimi-Dev, DeepSeek-R1-0528 处于同一梯队。这证明了该研究的训练配方能让一个小得多的模型达到同样的 SOTA 性能级别,凸显了其卓越的效率。

近日,一项由北京大学、字节跳动 Seed 团队及香港大学联合进行的研究,提出了一种名为「SWE-Swiss」的完整「配方」,旨在高效训练用于解决软件工程问题的 AI 模型。研究团队推出的32B参数模型 SWE-Swiss-32B,在权威基准 SWE-bench Verified 上取得了 60.2% 的准确率,在同尺寸级别中达到了新的 SOTA。该工作证明,通过精巧的方法论设计,中等规模的模型完全有能力实现顶级性能,为 AI 在软件工程领域的应用提供了新的思路。为促进社区发展,该研究的模型、数据集将全部开源。



  • GitHub 地址: https://github.com/zhenyuhe00/SWE-Swiss
  • Hugging Face 模型和数据: https://huggingface.co/SWE-Swiss

引言:软件工程 AI 的挑战与机遇

自动化解决真实世界的软件问题,是大型语言模型(LLM)面临的一项艰巨挑战。相较于纯粹的代码生成,这项任务要求模型具备理解复杂上下文、定位问题、生成修复并进行验证的综合能力。现有框架(如 Agentless)已证明,将此复杂任务分解为结构化工作流是一条可行的路径。然而,如何高效地训练一个模型以精通所有环节,是当前研究的核心问题。

本项工作提出的 SWE-Swiss 配方,正是为了解决这一问题。其核心原则是,通过对软件工程中的核心能力进行显式建模和训练,来构建一个功能强大且高效的问题解决模型。

方法概览:结构化的「SWE-Swiss 配方」

图 2: 由三个核心能力驱动的 LLM 补丁生成流程图示。模型首先利用问题描述和代码库结构进行代码定位和测试生成,随后修复模块利用定位和检索到的文件生成补丁,最后所有生成的测试和已有测试被用来过滤和验证最终的补丁。

SWE-Swiss 配方将问题解决流程解构为三项核心技能:

  • 代码定位 (Localization): 准确识别需要修改的文件。
  • 代码修复 (Repair): 生成能解决问题的正确代码补丁。
  • 单元测试生成 (Unit Test Generation): 创建单元测试以验证修复的有效性。

为确保训练数据的质量,研究团队采用验证性拒绝采样的来构建数据集。该过程首先生成大量候选数据,随后通过严格的、基于测试的自动化验证流程进行筛选,只保留被成功验证的样本用于模型微调

两阶段训练方法

SWE-Swiss 的训练分为两个主要阶段:

  • 第一阶段:通过多任务 SFT 构建基础能力
  • 此阶段将上述三种技能共 10,254 个高质量样本混合,对 Qwen2.5-32B 模型进行监督微调。这使得模型能够对整个问题解决流程建立全面的基础理解。完成此阶段后,模型在未进行测试时扩展的情况下,取得 36.0% 的基准性能。
  • 第二阶段:通过两阶段 RL 精通核心技能
  • 在 SFT 模型的基础上,此阶段专注于通过强化学习提升最关键的「修复」能力。受 POLARIS 的启发,团队设计了

两阶段 RL 课程:首先,模型在完整数据集上训练 200 步以建立广泛能力;随后,通过基于性能的剪枝,移除模型已掌握(准确率 > 90%)的简单样本,让模型在接下来的 90 步训练中专注于更具挑战性的难题。

这一阶段效果显著,在单补丁生成模式下,模型性能从36.0% 跃升至 45.0%



图 3: 两阶段强化学习过程中的性能提升曲线。第一阶段(0-200 步)显示了在完整数据集上训练的稳定提升。第二阶段(200 步之后)则是在过滤后更具挑战性的数据集上继续训练,带来了进一步的性能增益。

测试时扩展

在评估阶段,类似 Agentless 和 Agentless Mini,SWE-Swiss 采用多补丁生成与过滤的策略。在自我一致性 (self-consistency) 的基础上,团队提出了一种「增强自我一致性 (Enhanced Self-consistency)」的最终选择方法。

传统的自洽性方法依赖于代码的「完全一致」匹配,这在语法细节多样的代码场景下存在漏洞。增强自我一致性则通过引入相似度度量,不仅奖励与最多数完全相同的候选者,也奖励那些处在「相似解决方案」密集区域的候选者。该方法的最终评分为:







图 4: SWE-Swiss-32B 的测试时扩展性能,增强自我一致性在 120 个补丁时达到了 60.2% 的准确率。

结论与开源

本项研究工作的核心贡献在于提出并验证了一套完整的、高效的 SWE-Swiss「配方」。实验证明,该配方能够使一个 32B 的中等规模模型和更大的模型相媲美。从 SFT 后的 36.0%,到 RL 后的 45.0%,再到结合测试时扩展和增强自洽性的最终 60.2%,这一系列的性能提升清晰地展示了配方中每一个环节的价值,为业界提供了一条通过优化大模型软件工程能力的有效路径。

该团队将开源 SWE-Swiss-32B 模型、全部训练数据,以期为社区的后续研究提供支持。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
印度网友发出疑问:为何只有中国人身上没有味道?究竟是什么原因

印度网友发出疑问:为何只有中国人身上没有味道?究竟是什么原因

阿纂看事
2026-01-26 10:14:55
这一次,哈梅内伊真的怕了!!!

这一次,哈梅内伊真的怕了!!!

山河路口
2026-01-27 12:42:53
退脏衣女记者全网社死!单位通报,正脸曝光,山东文旅评论区沦陷

退脏衣女记者全网社死!单位通报,正脸曝光,山东文旅评论区沦陷

乌娱子酱
2026-01-27 16:38:27
HBO斥巨资打造,把美剧拍出了新高度

HBO斥巨资打造,把美剧拍出了新高度

来看美剧
2026-01-27 20:21:56
李蓓:上月已清仓黄金,未来10至20年不值得投资,持有黄金可能错失其他重大机遇

李蓓:上月已清仓黄金,未来10至20年不值得投资,持有黄金可能错失其他重大机遇

界面新闻
2026-01-27 16:46:11
江苏一餐饮老板李金良去世,仅37岁,新店才几个月,妻子心都碎了

江苏一餐饮老板李金良去世,仅37岁,新店才几个月,妻子心都碎了

深析古今
2026-01-27 09:48:29
小区内装卸钢化玻璃,不到一小时连发两起事故,有伤者送医后身亡;家属:用工方负责人已被逮捕

小区内装卸钢化玻璃,不到一小时连发两起事故,有伤者送医后身亡;家属:用工方负责人已被逮捕

大风新闻
2026-01-27 17:10:11
别想歪!这幅人体油画靠“光”就能让你呼吸放缓?答案藏在薄纱里

别想歪!这幅人体油画靠“光”就能让你呼吸放缓?答案藏在薄纱里

陈洪标写字说画
2026-01-27 22:31:02
餐馆招牌写“免费加面”,男子二次续面时被要求付3元,还遭言语歧视?多方回应

餐馆招牌写“免费加面”,男子二次续面时被要求付3元,还遭言语歧视?多方回应

潇湘晨报
2026-01-27 22:22:52
“牢A”风波最倒霉的不是那帮留学生和陪读妈妈!而是某品牌项链

“牢A”风波最倒霉的不是那帮留学生和陪读妈妈!而是某品牌项链

火山诗话
2026-01-27 06:17:38
发明“斩杀线”的牢A,把胡锡进干沉默了

发明“斩杀线”的牢A,把胡锡进干沉默了

木蹊说
2026-01-27 01:22:30
钱再多有什么用?51岁百亿影帝黄渤近况曝光,给年轻人们提了个醒

钱再多有什么用?51岁百亿影帝黄渤近况曝光,给年轻人们提了个醒

林雁飞
2026-01-27 12:31:08
70亿分红,没了!

70亿分红,没了!

中国新闻周刊
2026-01-27 19:45:05
官方下场!闫学晶儿媳吃空饷传闻真相大白,原来她和孙涛处境一样

官方下场!闫学晶儿媳吃空饷传闻真相大白,原来她和孙涛处境一样

叨唠
2026-01-27 22:45:19
特朗普果然别有用心,美军准备2套“万全”方案,用来对付谁?

特朗普果然别有用心,美军准备2套“万全”方案,用来对付谁?

空天力量
2026-01-27 13:07:41
张维为说只有国人才可以大口吃肉不可悲,可悲的是下面站满了满脸陶醉的听众

张维为说只有国人才可以大口吃肉不可悲,可悲的是下面站满了满脸陶醉的听众

林中木白
2026-01-27 17:49:23
“流氓有文化更可怕”,退休老干部频繁联系女幼师,聊天记录曝光

“流氓有文化更可怕”,退休老干部频繁联系女幼师,聊天记录曝光

妍妍教育日记
2026-01-27 19:58:28
四川电信科长敛财数千万,其上级女高管亦有巨额财产却平安落地?

四川电信科长敛财数千万,其上级女高管亦有巨额财产却平安落地?

法治边角料
2026-01-27 13:45:45
26岁男子从杭州徒步回重庆,53天走了1400多公里,途经湖北当阳时热心网友邀他吃杀猪饭

26岁男子从杭州徒步回重庆,53天走了1400多公里,途经湖北当阳时热心网友邀他吃杀猪饭

极目新闻
2026-01-27 20:26:52
国务院决定:免去曾国卫职务

国务院决定:免去曾国卫职务

看看新闻Knews
2026-01-27 11:01:02
2026-01-28 06:51:00
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12202文章数 142550关注度
往期回顾 全部

科技要闻

马化腾3年年会讲话透露了哪些关键信息

头条要闻

美报告称中国是其面对最强大国家

头条要闻

美报告称中国是其面对最强大国家

体育要闻

冒充职业球员,比赛规则还和对手现学?

娱乐要闻

张雨绮风波持续发酵,曝多个商务被取消

财经要闻

多地对垄断行业"近亲繁殖"出手了

汽车要闻

标配华为乾崑ADS 4/鸿蒙座舱5 华境S体验车下线

态度原创

家居
数码
游戏
房产
军事航空

家居要闻

现代古典 中性又显韵味

数码要闻

这事你怎么看 索尼与TCL签署意向备忘录 网友:Sony变Tony了

LPL春季赛:决绝让一追二,AL三局击溃IG,大家的排名都不变

房产要闻

实景兑现在即!绿城,在海棠湾重新定义终极旅居想象!

军事要闻

美海军"林肯"号航母打击群抵达中东地区

无障碍浏览 进入关怀版