网易首页 > 网易号 > 正文 申请入驻

北大、字节跳动联手发布SWE-Swiss:完整配方直指开源SOTA

0
分享至





图 1: SWE-bench Verified 上的性能与模型尺寸对比。该研究的 32B 模型 SWE-Swiss,取得了 60.2% 的顶级分数,与更大的模型如 Kimi-Dev, DeepSeek-R1-0528 处于同一梯队。这证明了该研究的训练配方能让一个小得多的模型达到同样的 SOTA 性能级别,凸显了其卓越的效率。

近日,一项由北京大学、字节跳动 Seed 团队及香港大学联合进行的研究,提出了一种名为「SWE-Swiss」的完整「配方」,旨在高效训练用于解决软件工程问题的 AI 模型。研究团队推出的32B参数模型 SWE-Swiss-32B,在权威基准 SWE-bench Verified 上取得了 60.2% 的准确率,在同尺寸级别中达到了新的 SOTA。该工作证明,通过精巧的方法论设计,中等规模的模型完全有能力实现顶级性能,为 AI 在软件工程领域的应用提供了新的思路。为促进社区发展,该研究的模型、数据集将全部开源。



  • GitHub 地址: https://github.com/zhenyuhe00/SWE-Swiss
  • Hugging Face 模型和数据: https://huggingface.co/SWE-Swiss

引言:软件工程 AI 的挑战与机遇

自动化解决真实世界的软件问题,是大型语言模型(LLM)面临的一项艰巨挑战。相较于纯粹的代码生成,这项任务要求模型具备理解复杂上下文、定位问题、生成修复并进行验证的综合能力。现有框架(如 Agentless)已证明,将此复杂任务分解为结构化工作流是一条可行的路径。然而,如何高效地训练一个模型以精通所有环节,是当前研究的核心问题。

本项工作提出的 SWE-Swiss 配方,正是为了解决这一问题。其核心原则是,通过对软件工程中的核心能力进行显式建模和训练,来构建一个功能强大且高效的问题解决模型。

方法概览:结构化的「SWE-Swiss 配方」

图 2: 由三个核心能力驱动的 LLM 补丁生成流程图示。模型首先利用问题描述和代码库结构进行代码定位和测试生成,随后修复模块利用定位和检索到的文件生成补丁,最后所有生成的测试和已有测试被用来过滤和验证最终的补丁。

SWE-Swiss 配方将问题解决流程解构为三项核心技能:

  • 代码定位 (Localization): 准确识别需要修改的文件。
  • 代码修复 (Repair): 生成能解决问题的正确代码补丁。
  • 单元测试生成 (Unit Test Generation): 创建单元测试以验证修复的有效性。

为确保训练数据的质量,研究团队采用验证性拒绝采样的来构建数据集。该过程首先生成大量候选数据,随后通过严格的、基于测试的自动化验证流程进行筛选,只保留被成功验证的样本用于模型微调

两阶段训练方法

SWE-Swiss 的训练分为两个主要阶段:

  • 第一阶段:通过多任务 SFT 构建基础能力
  • 此阶段将上述三种技能共 10,254 个高质量样本混合,对 Qwen2.5-32B 模型进行监督微调。这使得模型能够对整个问题解决流程建立全面的基础理解。完成此阶段后,模型在未进行测试时扩展的情况下,取得 36.0% 的基准性能。
  • 第二阶段:通过两阶段 RL 精通核心技能
  • 在 SFT 模型的基础上,此阶段专注于通过强化学习提升最关键的「修复」能力。受 POLARIS 的启发,团队设计了

两阶段 RL 课程:首先,模型在完整数据集上训练 200 步以建立广泛能力;随后,通过基于性能的剪枝,移除模型已掌握(准确率 > 90%)的简单样本,让模型在接下来的 90 步训练中专注于更具挑战性的难题。

这一阶段效果显著,在单补丁生成模式下,模型性能从36.0% 跃升至 45.0%



图 3: 两阶段强化学习过程中的性能提升曲线。第一阶段(0-200 步)显示了在完整数据集上训练的稳定提升。第二阶段(200 步之后)则是在过滤后更具挑战性的数据集上继续训练,带来了进一步的性能增益。

测试时扩展

在评估阶段,类似 Agentless 和 Agentless Mini,SWE-Swiss 采用多补丁生成与过滤的策略。在自我一致性 (self-consistency) 的基础上,团队提出了一种「增强自我一致性 (Enhanced Self-consistency)」的最终选择方法。

传统的自洽性方法依赖于代码的「完全一致」匹配,这在语法细节多样的代码场景下存在漏洞。增强自我一致性则通过引入相似度度量,不仅奖励与最多数完全相同的候选者,也奖励那些处在「相似解决方案」密集区域的候选者。该方法的最终评分为:







图 4: SWE-Swiss-32B 的测试时扩展性能,增强自我一致性在 120 个补丁时达到了 60.2% 的准确率。

结论与开源

本项研究工作的核心贡献在于提出并验证了一套完整的、高效的 SWE-Swiss「配方」。实验证明,该配方能够使一个 32B 的中等规模模型和更大的模型相媲美。从 SFT 后的 36.0%,到 RL 后的 45.0%,再到结合测试时扩展和增强自洽性的最终 60.2%,这一系列的性能提升清晰地展示了配方中每一个环节的价值,为业界提供了一条通过优化大模型软件工程能力的有效路径。

该团队将开源 SWE-Swiss-32B 模型、全部训练数据,以期为社区的后续研究提供支持。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
26岁天才股神坦言:炒股最笨的方法反而最有效,越简单越容易赚钱

26岁天才股神坦言:炒股最笨的方法反而最有效,越简单越容易赚钱

股经纵横谈
2025-11-19 20:56:05
徐璐的也这么大了吗

徐璐的也这么大了吗

陈意小可爱
2025-11-19 10:46:23
一夜之间,中国传来2个爆炸性突破,美国从88%降到9%,中国猛追

一夜之间,中国传来2个爆炸性突破,美国从88%降到9%,中国猛追

古史青云啊
2025-11-20 02:26:48
你做过最疯狂的事是什么?网友:在公园亲了一小时

你做过最疯狂的事是什么?网友:在公园亲了一小时

解读热点事件
2025-10-11 00:20:03
傻眼了!女子网购三件价格差了3倍的同款毛衣,收到货一对比懵了

傻眼了!女子网购三件价格差了3倍的同款毛衣,收到货一对比懵了

另子维爱读史
2025-11-18 21:46:05
雷佳音在西班牙街头被偶遇,很悠闲,网友称:他在马德里投资买房

雷佳音在西班牙街头被偶遇,很悠闲,网友称:他在马德里投资买房

鑫鑫说说
2025-11-19 09:25:03
中国一定支持!这一仗谁都调解不了,只能打了!

中国一定支持!这一仗谁都调解不了,只能打了!

文史旺旺旺
2025-11-18 19:57:14
全运冠军季军战吴梦洁28分,庄宇珊26分双星闪耀,赵勇乐开花

全运冠军季军战吴梦洁28分,庄宇珊26分双星闪耀,赵勇乐开花

刘笤说体坛
2025-11-20 00:19:19
入冬后,李兰娟建议糖尿病患者:记住“5不吃”,血糖平稳一整天

入冬后,李兰娟建议糖尿病患者:记住“5不吃”,血糖平稳一整天

读懂世界历史
2025-11-19 16:33:43
贵人带你飞!未来3年事业运在线的生肖,灵感爆棚收益翻倍

贵人带你飞!未来3年事业运在线的生肖,灵感爆棚收益翻倍

毅谈生肖
2025-11-19 12:01:02
人到中年才发现:钱要闷声赚,熟人一个都不带

人到中年才发现:钱要闷声赚,熟人一个都不带

阿胖读书
2025-11-18 22:57:28
山东女团好团结!陈梦2场全胜却拒绝站C位,让范思琦站C位

山东女团好团结!陈梦2场全胜却拒绝站C位,让范思琦站C位

振华观史
2025-11-19 22:34:54
全国步入呼吸道传染病流行季,上海儿童流感就诊量逐渐上升

全国步入呼吸道传染病流行季,上海儿童流感就诊量逐渐上升

澎湃新闻
2025-11-19 21:00:29
医生劝告:一旦吃上甲钴胺,4件事就不要做了,别害了自己

医生劝告:一旦吃上甲钴胺,4件事就不要做了,别害了自己

袁医生课堂
2025-11-16 10:58:08
演员张艺洋已执行死刑!中国娱乐圈首例,倪大红、李雪健被牵连

演员张艺洋已执行死刑!中国娱乐圈首例,倪大红、李雪健被牵连

阿纂看事
2025-07-25 17:12:19
会遇到哪个宿敌?世预赛淘汰过意大利的球队均在附加赛第四档

会遇到哪个宿敌?世预赛淘汰过意大利的球队均在附加赛第四档

懂球帝
2025-11-19 06:34:13
詹皇首秀创5项纪录+怒怼质疑!艾顿东契奇狂吹,小里:G联赛球员

詹皇首秀创5项纪录+怒怼质疑!艾顿东契奇狂吹,小里:G联赛球员

你的篮球频道
2025-11-19 15:41:43
泪目!31岁陈梦时隔12年再夺冠:散养1年仍是王牌完成最后一舞?

泪目!31岁陈梦时隔12年再夺冠:散养1年仍是王牌完成最后一舞?

李喜林篮球绝杀
2025-11-19 22:08:41
翩翩起舞的小姐姐,黑色瑜伽裤一穿身材好到犯规,时尚感直接拉满

翩翩起舞的小姐姐,黑色瑜伽裤一穿身材好到犯规,时尚感直接拉满

小乔古装汉服
2025-11-01 18:52:37
事业翻身仗来了!3个生肖贵人加持,未来半年好运不断!

事业翻身仗来了!3个生肖贵人加持,未来半年好运不断!

毅谈生肖
2025-11-19 10:46:59
2025-11-20 05:55:00
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
11756文章数 142508关注度
往期回顾 全部

科技要闻

一夜封神,Gemini 3让谷歌找回“碾压感”

头条要闻

日方要求解释为何未告知磋商后会有媒体拍摄 中方回应

头条要闻

日方要求解释为何未告知磋商后会有媒体拍摄 中方回应

体育要闻

世界杯最小参赛国诞生!15万人岛国的奇迹

娱乐要闻

史林子出轨对方前妻放锤!

财经要闻

重磅!中金公司拟收购东兴与信达证券

汽车要闻

此刻价格不重要 第5代帝豪本身就是价值

态度原创

艺术
手机
数码
本地
公开课

艺术要闻

周恩来夫妇珍贵合影集,太难得一见!

手机要闻

OPPO Find X9系列海外卖爆!销量接近上代2倍

数码要闻

猫头鹰黑化版散热器风扇来袭

本地新闻

第十二届影展携手重庆来福士丨两江交汇,光影共生

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版