网易首页 > 网易号 > 正文 申请入驻

北大、字节跳动联手发布SWE-Swiss:完整配方直指开源SOTA

0
分享至





图 1: SWE-bench Verified 上的性能与模型尺寸对比。该研究的 32B 模型 SWE-Swiss,取得了 60.2% 的顶级分数,与更大的模型如 Kimi-Dev, DeepSeek-R1-0528 处于同一梯队。这证明了该研究的训练配方能让一个小得多的模型达到同样的 SOTA 性能级别,凸显了其卓越的效率。

近日,一项由北京大学、字节跳动 Seed 团队及香港大学联合进行的研究,提出了一种名为「SWE-Swiss」的完整「配方」,旨在高效训练用于解决软件工程问题的 AI 模型。研究团队推出的32B参数模型 SWE-Swiss-32B,在权威基准 SWE-bench Verified 上取得了 60.2% 的准确率,在同尺寸级别中达到了新的 SOTA。该工作证明,通过精巧的方法论设计,中等规模的模型完全有能力实现顶级性能,为 AI 在软件工程领域的应用提供了新的思路。为促进社区发展,该研究的模型、数据集将全部开源。



  • GitHub 地址: https://github.com/zhenyuhe00/SWE-Swiss
  • Hugging Face 模型和数据: https://huggingface.co/SWE-Swiss

引言:软件工程 AI 的挑战与机遇

自动化解决真实世界的软件问题,是大型语言模型(LLM)面临的一项艰巨挑战。相较于纯粹的代码生成,这项任务要求模型具备理解复杂上下文、定位问题、生成修复并进行验证的综合能力。现有框架(如 Agentless)已证明,将此复杂任务分解为结构化工作流是一条可行的路径。然而,如何高效地训练一个模型以精通所有环节,是当前研究的核心问题。

本项工作提出的 SWE-Swiss 配方,正是为了解决这一问题。其核心原则是,通过对软件工程中的核心能力进行显式建模和训练,来构建一个功能强大且高效的问题解决模型。

方法概览:结构化的「SWE-Swiss 配方」

图 2: 由三个核心能力驱动的 LLM 补丁生成流程图示。模型首先利用问题描述和代码库结构进行代码定位和测试生成,随后修复模块利用定位和检索到的文件生成补丁,最后所有生成的测试和已有测试被用来过滤和验证最终的补丁。

SWE-Swiss 配方将问题解决流程解构为三项核心技能:

  • 代码定位 (Localization): 准确识别需要修改的文件。
  • 代码修复 (Repair): 生成能解决问题的正确代码补丁。
  • 单元测试生成 (Unit Test Generation): 创建单元测试以验证修复的有效性。

为确保训练数据的质量,研究团队采用验证性拒绝采样的来构建数据集。该过程首先生成大量候选数据,随后通过严格的、基于测试的自动化验证流程进行筛选,只保留被成功验证的样本用于模型微调

两阶段训练方法

SWE-Swiss 的训练分为两个主要阶段:

  • 第一阶段:通过多任务 SFT 构建基础能力
  • 此阶段将上述三种技能共 10,254 个高质量样本混合,对 Qwen2.5-32B 模型进行监督微调。这使得模型能够对整个问题解决流程建立全面的基础理解。完成此阶段后,模型在未进行测试时扩展的情况下,取得 36.0% 的基准性能。
  • 第二阶段:通过两阶段 RL 精通核心技能
  • 在 SFT 模型的基础上,此阶段专注于通过强化学习提升最关键的「修复」能力。受 POLARIS 的启发,团队设计了

两阶段 RL 课程:首先,模型在完整数据集上训练 200 步以建立广泛能力;随后,通过基于性能的剪枝,移除模型已掌握(准确率 > 90%)的简单样本,让模型在接下来的 90 步训练中专注于更具挑战性的难题。

这一阶段效果显著,在单补丁生成模式下,模型性能从36.0% 跃升至 45.0%



图 3: 两阶段强化学习过程中的性能提升曲线。第一阶段(0-200 步)显示了在完整数据集上训练的稳定提升。第二阶段(200 步之后)则是在过滤后更具挑战性的数据集上继续训练,带来了进一步的性能增益。

测试时扩展

在评估阶段,类似 Agentless 和 Agentless Mini,SWE-Swiss 采用多补丁生成与过滤的策略。在自我一致性 (self-consistency) 的基础上,团队提出了一种「增强自我一致性 (Enhanced Self-consistency)」的最终选择方法。

传统的自洽性方法依赖于代码的「完全一致」匹配,这在语法细节多样的代码场景下存在漏洞。增强自我一致性则通过引入相似度度量,不仅奖励与最多数完全相同的候选者,也奖励那些处在「相似解决方案」密集区域的候选者。该方法的最终评分为:







图 4: SWE-Swiss-32B 的测试时扩展性能,增强自我一致性在 120 个补丁时达到了 60.2% 的准确率。

结论与开源

本项研究工作的核心贡献在于提出并验证了一套完整的、高效的 SWE-Swiss「配方」。实验证明,该配方能够使一个 32B 的中等规模模型和更大的模型相媲美。从 SFT 后的 36.0%,到 RL 后的 45.0%,再到结合测试时扩展和增强自洽性的最终 60.2%,这一系列的性能提升清晰地展示了配方中每一个环节的价值,为业界提供了一条通过优化大模型软件工程能力的有效路径。

该团队将开源 SWE-Swiss-32B 模型、全部训练数据,以期为社区的后续研究提供支持。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
中国向全世界披露:美国4400颗卫星,包围中国空间站,这是要做啥

中国向全世界披露:美国4400颗卫星,包围中国空间站,这是要做啥

素衣读史
2026-01-17 18:35:57
炸锅!马斯克突然发声:我的最大对手是中国!不是美国巨头……

炸锅!马斯克突然发声:我的最大对手是中国!不是美国巨头……

知法而形
2026-01-30 09:41:43
“前湖南卫视主持人李湘再爆惊天大瓜!”

“前湖南卫视主持人李湘再爆惊天大瓜!”

每日一见
2026-01-28 11:58:35
突发,金价“瀑布式”下跌!今日金价最新大盘走势(1月30日)

突发,金价“瀑布式”下跌!今日金价最新大盘走势(1月30日)

说故事的阿袭
2026-01-30 13:40:10
贵州省委常委、贵阳市委书记胡忠雄,补选为贵州省政协副主席

贵州省委常委、贵阳市委书记胡忠雄,补选为贵州省政协副主席

新京报
2026-01-30 13:06:07
京东首位员工,月薪600却随刘强东20年,今身价千万、手握3家公司

京东首位员工,月薪600却随刘强东20年,今身价千万、手握3家公司

法老不说教
2026-01-30 20:18:42
早已杀青却播出无望的7部剧,部部可惜,尤其是最后一部

早已杀青却播出无望的7部剧,部部可惜,尤其是最后一部

小Q侃电影
2026-01-25 13:16:28
福建一学生在校门口横穿马路,被电动车撞出数米远,目击者:事发时学生正在放学;校方:孩子无生命危险

福建一学生在校门口横穿马路,被电动车撞出数米远,目击者:事发时学生正在放学;校方:孩子无生命危险

大风新闻
2026-01-30 15:30:03
火箭交易送走最出色的两名球员!全队都是单属性,谢泼德又要被毁

火箭交易送走最出色的两名球员!全队都是单属性,谢泼德又要被毁

两兄弟养牛
2026-01-30 21:15:42
武汉16岁男生失联原因曝光!凌晨冲桥消失,一件小事吵翻全网

武汉16岁男生失联原因曝光!凌晨冲桥消失,一件小事吵翻全网

奇思妙想草叶君
2026-01-31 00:41:03
泰国突然禁止做空黄金!这不是调控,是货币崩盘前的红色警报?

泰国突然禁止做空黄金!这不是调控,是货币崩盘前的红色警报?

王二哥老搞笑
2026-01-30 16:53:23
又揪出来一个巨贪,金额高达9.7亿,首富夫人郝斌跨境逃亡失败了

又揪出来一个巨贪,金额高达9.7亿,首富夫人郝斌跨境逃亡失败了

墨兰史书
2026-01-17 08:30:09
有性生活的注意!男人感染HPV后,身体有2个表现,教你一眼看出来

有性生活的注意!男人感染HPV后,身体有2个表现,教你一眼看出来

健康科普365
2025-12-15 09:50:47
1966年以后,粟裕大将为何没受到什么影响?主要有四个原因

1966年以后,粟裕大将为何没受到什么影响?主要有四个原因

史韵流转
2025-10-24 09:25:29
朱媛媛最后影像!杀青合影时强撑微笑,辛柏青全程陪护成最后守候

朱媛媛最后影像!杀青合影时强撑微笑,辛柏青全程陪护成最后守候

乐悠悠娱乐
2026-01-30 11:06:13
末节崩盘23中4!完全打不了硬仗,内线支柱倒下,还不交易?

末节崩盘23中4!完全打不了硬仗,内线支柱倒下,还不交易?

阿浪的篮球故事
2026-01-30 16:50:09
国产游戏因屁股在日本大火!愿望单暴涨至5000

国产游戏因屁股在日本大火!愿望单暴涨至5000

游民星空
2026-01-28 16:08:30
斯塔默在三里屯下馆子,英使馆官员表情亮了:见识到中国有多先进

斯塔默在三里屯下馆子,英使馆官员表情亮了:见识到中国有多先进

古史青云啊
2026-01-30 11:51:20
全面反华?澳洲通告全球:达尔文港收归国有,中方打响立威第一枪

全面反华?澳洲通告全球:达尔文港收归国有,中方打响立威第一枪

御前带刀大人
2026-01-30 23:41:12
你来给我揉揉它~布克詹娜这是复合了?

你来给我揉揉它~布克詹娜这是复合了?

柚子说球
2026-01-30 09:07:36
2026-01-31 01:56:49
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12225文章数 142556关注度
往期回顾 全部

科技要闻

意念控制机器人不是科幻 1-2年就落地

头条要闻

金晨是否构成肇事逃逸 助理顶包有何后果 律师解读

头条要闻

金晨是否构成肇事逃逸 助理顶包有何后果 律师解读

体育要闻

“假赌黑”的子弹,还要再飞一会儿吗?

娱乐要闻

警方通报金晨交通事故,否认网传骗保

财经要闻

水贝惊雷:揭秘杰我睿百亿黄金赌局的背后

汽车要闻

合资品牌首搭800V/5C快充 东风日产NX8将于3、4月上市

态度原创

房产
本地
家居
手机
公开课

房产要闻

藏不住的小城大事,海澄新城执掌自贸港风口,进阶兑现美好生活新篇

本地新闻

云游中国|拨开云雾,巫山每帧都是航拍大片

家居要闻

蓝调空舍 自由与个性

手机要闻

差200元!红米Turbo 5与Max该怎么选?这4点核心差异看完不纠结!

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版