网易首页 > 网易号 > 正文 申请入驻

天工不止造物,也能修bug:Skywork-SWE给代码智能体补上软件工程课

0
分享至

机器之心报道

编辑:Panda

400 多年前,宋应星著成《天工开物》。这是一部写给匠人、也写给未来的书。它让人相信:技术不是死物,而是人与世界持续互动的方式。

如果说「天工」代表了中国古代对「工程」与「制造」的极致理解,那么今天,一个同样以「天工」(即 Skywork)为名的 Agent 智能体,正试图在另一片疆域(代码世界)中,继承这份精神。

这个 Skywork,不是炼铁铸器的匠人,而是自主代码智能体基座模型,要修补的是一种现代最复杂的人造系统:(开源)软件工程。它不握锤凿,而是靠多轮交互、长上下文理解与逻辑推理,在成千上万的 GitHub 项目中识别 issue/bug、定位原因、打补丁,并验证是否真的修好了。故此,它得名Skywork-SWE。(注:SWE 是指软件工程 / Software Engineering。)



Skywork-SWE 因何而生?

软件智能体面临的困难

在古人的世界里,修一口破鼎、补一段布帛是「匠人精神」的体现。而在今天,最频繁「破裂」的,莫过于代码。

如今,代码系统早已成为现代文明的骨架。它们运行在日常软件、银行服务、交通调度等各式系统中,也支撑着我们所依赖的 AI 算法本身。但和古代器物一样,再精妙的程序也难免出现 bug—— 有些是逻辑失误,有些是环境变迁,有些甚至源于协作失控。比如,就在前几天,AWS、谷歌云、Azure 和 Cloudflare 都发生了中断,连带着 ChatGPT 和 Cursor 等热门 AI 应用也一并短暂失联;而这一事故的原因可能是一次错误的自动配额更新导致谷歌的 API 管理系统出现了故障。

同时,bug 修复也是软件工程中最基础,却也是最复杂、最消耗人力的任务之一。特别是在真实的 GitHub 项目中,修一个 bug 并不是「找到一行错字那么简单」,它常常需要:

  • 读取和理解成百上千个文件;
  • 推演变量在不同模块的流动路径;
  • 阅读前人留下的修复记录与讨论;
  • 理解上下文、猜测意图、编写代码补丁;
  • 最后,还得跑几遍测试,看看是不是真的「已解决」。

那么,我们能否使用 AI 智能体来完成这些任务呢?

当然可以!但我们需要的绝不是传统的用于解决单独编程任务的 AI 编程模型,而是需要像人类开发者一样能够理解历史上下文、进行多轮推理、在模糊与不确定中做决策、具备落地执行的能力的软件工程智能体。

而难题也随之而生:这类任务长期缺乏高质量训练数据。市面上现有的 SWE 数据集,不是验证机制不足,就是训练样本杂乱无章,难以支持模型在真实工程中进化。另外,这些数据集的规模普遍较小,导致数据 Scaling Law 适用性不明确。

正是为了应对这种挑战,昆仑万维推出了自主代码智能体基座模型 Skywork-SWE。它不仅代表一个性能卓越的模型 ——32B 参数量级别的最强开源软件工程智能体,更是一个集数据、验证、推理与修复为一体的完整系统。不仅如此,他们还基于此成功揭示了LLM 软件工程能力的 Scaling Law

目前,该模型的技术报告和模型权重都已发布。



  • 技术报告:https://huggingface.co/Skywork/Skywork-SWE-32B/resolve/main/assets/Report.pdf
  • 技术博客:https://quixotic-sting-239.notion.site/eb17f379610040ceb54da5d5d24065bd
  • 模型权重:https://huggingface.co/Skywork/Skywork-SWE-32B

Skywork-SWE

数据锤炼出的智能工匠

那么,昆仑万维究竟是如何打造出 Skywork-SWE 的呢?

核心的秘诀在于:在软件工程任务上高质量地达成了数据 Scaling Law

为了获得高质量数据,昆仑万维构建了构建了一套自动化、结构化、可复现的 SWE 数据收集与验证流程,共分为三大阶段、九个步骤。

最终,他们从 15 万个 GitHub 开源项目中筛选出 10,169 个真实代码问题和 8,209 条多轮交互轨迹,构建出了业内最大规模、可验证的 SWE 数据集,其中每一个样本都不是「描述性」的,而是「工程级」的:

  • 每条任务都能在 Docker 中复现;
  • 每个补丁都要通过单元测试验证;
  • 每条智能体轨迹都覆盖完整修复闭环。

下图展示了其完整的数据构建流程:



数据构建流程图

具体来说,阶段 A 的工作是数据采集与预筛选,其中又细分为 GitHub 元数据抓取、PR(Pull Request)收集与任务初筛和安装验证 3 个步骤。第一阶段的处理下来,昆仑万维团队从 15 万个开源仓库中得到了 23,389 个有效任务样本。为了防止数据泄漏,排除 SWE-bench Verified(测试数据集)已包含的仓库。

而阶段 B 则是环境设置和基于执行的验证。同样,这一阶段也分为三个步骤:统一命令生成、Docker 环境构建和单元测试验证。很容易看出来,这一步的目标是确保问题的修复是有效的,进而进一步保证数据的质量。

最后,还需要针对每个任务生成正确的智能体轨迹。这也正是阶段 C 的任务目标。同样地,三个步骤:首先,昆仑万维团队基于开源的 OpenHands 代码智能体框架,选用代码能力突出的商用大模型(如 Claude,DeepSeek 等)作为智能体基座,对每个任务执行最多 100 轮交互,完整记录智能体在问题求解过程中的交互轨迹。然后,他们进行了 Patch 级的验证,以确保智能体行为严格对齐仓库级代码修复目标。最后,构建训练样本库,得到了 8,209 条高质量、长上下文、多轮交互的经过验证的轨迹。

走完全流程后,昆仑万维团队得到了一个当前规模最大、质量最高且可验证的软件工程任务数据集:Skywork-SWE。是的,正是基于该数据集,昆仑万维训练出了同名的自主代码智能体模型:Skywork-SWE-32B!(注:32B 是指模型参数量。)



数据构建过程中各个阶段数据样本量变化图

在任务数量与代码覆盖广度方面,Skywork-SWE 远超现有同类数据集(如 SWE-Gym Lite 与 SWE-bench Verified),可为大模型提供丰富、多样且贴近实际的软件工程任务样本,进而持续推动智能体模型的能力进化。

更具体而言,如下左表所示,相较于其他基准数据集,Skywork-SWE 中的任务在编辑复杂度上显著更高:平均每个补丁涉及 2 个以上函数修改、6 个代码块、以及多达 74 行代码变更,能更真实地反映GitHub 开发中的问题修复复杂度。这也意味着,模型要在此类任务中实现有效修复,必须具备更强的代码理解、上下文建模与多轮交互推理能力。



Skywork-SWE 数据集统计表与 GitHub 仓库词云图

而右图则给出了 Skywork-SWE 数据集的仓库名称词云。可以看到,其中不仅涵盖如 Pydantic、SQLGlot、DVC 等主流开源项目,还包含大量中小型仓库,呈现出高度贴近真实开发生态的任务分布特征。这种贴近真实开发生态的数据构成,有助于提升模型在复杂多样场景下的问题解决能力。

这些能力也在基于 Skywork-SWE 数据集微调得到的 Skywork-SWE-32B 模型上得到了体现。(注:采用的基座模型是 Qwen2.5-Coder-32B-Instruct)。

Skywork-SWE-32B 的实验表现

在广受关注的 SWE-bench Verified 基准(包含 500 个实例,来自 12 个流行 Python GitHub 库的 PR)上,Skywork-SWE-32B 在 OpenHands Agent 框架下取得了 47% 的准确度,超越了现有参数规模在 32B 以下的开源模型,甚至优于参数量高达 671B 的 DeepSeek-V3-0324 模型。



而在这个亮眼成绩背后,他们的实验还成功揭示了 LLM SWE 能力在数据方面的 Scaling Law:随着训练数据规模的持续扩展,SWE 模型性能会持续提升,充分验证了「数据 scaling 带来的性能增益」在软件工程任务中的有效性与适用性。Skywork-SWE-32B 实现了 38.0% pass@1 准确度,刷新 Qwen2.5-Coder-32B 系列模型在 OpenHands 代码框架下的最佳成绩。



可以看到,随着训练轨迹数量的增多,Skywork-SWE-32B 的性能会持续提升。请注意,上图的横轴采用了指数刻度,这意味着模型性能几乎呈指数级随数据增长而提升。更重要的是,在当前数据集规模范围内,性能提升尚未出现饱和迹象,这充分揭示了进一步扩展高质量数据的巨大潜力。

另外,为了在推理阶段进一步释放模型能力,昆仑万维团队也实验了测试时扩展(TTS)技术对 Skywork-SWE-32B 带来的提升,充分释放了模型的潜力,在 Best of 8 的测试下即可达到 47% 的正确率。

下图展示了其具体在不同仓库上的得分情况。



相较于主流的一些闭源模型,经过 TTS 后的 Skywork-SWE-32B 的表现也相当不俗:显著超越了 GPT-4.1-mini(23.86%)、 Claude 3.5 HaiKu(40.6%)和 OpenAI-o1-preview (41.3%),并且领先于 Claude v3.5(46.0%)。



下面通过一个实际案例来看看 Skywork-SWE-32B 的工作过程。

以用 Python 编写的、用于天文学的通用核心软件包 Astropy 及对应的 #14309 PR 为例。



Astropy 仓库 issue:修复当提供的文件路径没有 args 参数时 FITS 链接逻辑崩溃问题。

向 Skywork-SWE-32B 模型输入上述 Astropy 仓库 issue 和相应的代码仓库,可以看到该模型能精准定位问题源文件与具体缺陷,并生成 patch 修复方案。



生成 patch 修复方案示例图

如下所示,Skywork-SWE-32B 生成的方案成功通过了全部测试样例,实现了在 GitHub 代码仓库中从问题理解到解决的一站式代码修复。



单元测试结果示例图

Skywork-SWE-32B 的优异表现充分验证了 Skywork-SWE 数据集的高质量与实际价值。

一份数据集

撬动一个智能体时代

在大模型走向智能体时代的今天,真正稀缺的已不是算力,也不是参数,而是经得起验证、贴近真实、具备闭环反馈的数据。

Skywork-SWE 的意义,恰恰在于此。它不仅仅代表了一个模型,而是一套系统化构建真实工程数据的范式,其中收集的不是孤立的函数调用或代码段,而是成千上万个来自 GitHub 仓库的实际修复任务 —— 每一条都能在环境中复现、通过测试、形成可追踪的智能体交互轨迹。

这份数据集不仅让 Skywork-SWE-32B 成为当前 32B 参数规模下最强的开源软件工程模型之一,更重要的是,它揭示了 LLM 在 SWE 任务中持续增长的性能与数据之间的强相关性,首次系统性验证了数据 Scaling Law 在复杂工程任务上的适用性,堪称软件工程智能体的「ImageNet」。

昆仑万维表示,未来 Skywork-SWE 数据集还将向更多编程语言扩展;另外,其在运行时环境中执行并验证单元测试的设置也有助于近期 LLM 社区对在线强化学习方法的探索。

这背后,折射出昆仑万维对行业趋势的清醒判断:大模型走得再远,最终也要落到真实任务中;开源要想站稳脚跟,必须在「数据+系统+执行力」上全面补强。

过去一年里,昆仑万维围绕 Skywork 系列已布局从 MoE 架构、预训练模型到智能体框架与垂直场景的全链条。我们看到了多模态推理模型 Skywork-R1V 以及超越 Suno V4 的音乐模型 Mureka O1,甚至还有国内首个短剧创作大模型 Skyreels-V1、可交互视频生成世界模型 Matrix-Game 和 Matrix-Zero 以及堪称智能体界的全能型选手的天工超级智能体(Skywork Super Agent)。而更妙的是,以上这些模型大都是开源的!(可点击对应链接了解详情。)

Skywork-SWE 的推出,标志着这一体系进一步落地,也是昆仑万维在代码、内容、办公等智能体任务场景长期探索的延续。在这个探索中,他们不仅造模型,更造数据;不仅做生成,还进行验证。而放眼未来,这种以高质量任务型数据为基础的智能体训练范式,或将成为代码、软件工程乃至通用多模态智能体的「标准工艺」。

天工再起,从数据开始。Skywork-SWE 是对「工程智能体」时代最扎实的回答,也是昆仑万维写下的一份面向行业的「天工开物」。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
TVB男星张颖康离巢,效力19年刘德华是伯乐,曾表示一生不负太太

TVB男星张颖康离巢,效力19年刘德华是伯乐,曾表示一生不负太太

易同学爱谈娱乐
2025-11-11 08:52:40
发现没?央视对全红婵的称呼变了!

发现没?央视对全红婵的称呼变了!

十点街球体育
2025-11-11 18:03:42
投资3.6亿!佛山酱油大厂总部大厦即将启用

投资3.6亿!佛山酱油大厂总部大厦即将启用

小影的娱乐
2025-11-11 03:57:53
21岁泰国女子被3名中国男子轮奸,已报警,索要90万泰铢赔偿!

21岁泰国女子被3名中国男子轮奸,已报警,索要90万泰铢赔偿!

奇思妙想草叶君
2025-11-11 21:42:22
乱了!日本领土危机浮现,不光是琉球,原来连北海道也不是日本的

乱了!日本领土危机浮现,不光是琉球,原来连北海道也不是日本的

壹知眠羊
2025-11-11 16:15:05
“中原村BA”赛场发生冲突,33号球员突然回头肘击对手,对方紧接反击,场面一度混乱;主办方:公安部门已介入

“中原村BA”赛场发生冲突,33号球员突然回头肘击对手,对方紧接反击,场面一度混乱;主办方:公安部门已介入

极目新闻
2025-11-11 21:35:05
台湾终极解决方案:土地回归中国,人员往来自由,两岸统一新路径

台湾终极解决方案:土地回归中国,人员往来自由,两岸统一新路径

阿柒的讯
2025-10-08 00:31:15
曾医生有两个很大的优点:一是主动,二是温柔

曾医生有两个很大的优点:一是主动,二是温柔

爆侃君
2025-11-11 13:03:54
西贝的现状到底是什么?

西贝的现状到底是什么?

每日经济新闻
2025-11-11 19:14:06
福建一市任免多位处级干部|一地公安局多位干部调整

福建一市任免多位处级干部|一地公安局多位干部调整

鲁中晨报
2025-11-11 11:03:15
0℃以下!江苏气温即将暴跌!

0℃以下!江苏气温即将暴跌!

江南晚报
2025-11-12 02:34:56
广西一户人家办白事没人来帮忙,中午还没能开席,村民:他活该

广西一户人家办白事没人来帮忙,中午还没能开席,村民:他活该

唐小糖说情感
2025-10-29 08:32:22
人民币被踢出局?英美联手巩固美元霸权,却忘中国才是购买力关键

人民币被踢出局?英美联手巩固美元霸权,却忘中国才是购买力关键

深析古今
2025-11-11 15:00:19
台北故宫院长妄称台北故宫的文物不属于大陆,老祖宗们都被气醒!

台北故宫院长妄称台北故宫的文物不属于大陆,老祖宗们都被气醒!

我心纵横天地间
2025-11-11 20:40:27
“港独”影帝黄秋生:从千万豪宅到台湾诈骗,如今塑料袋打包家当

“港独”影帝黄秋生:从千万豪宅到台湾诈骗,如今塑料袋打包家当

有趣的胡侃
2025-11-11 10:37:59
孩子将来有没有“官禄命”,不需看八字,只看出生时的4个斤两

孩子将来有没有“官禄命”,不需看八字,只看出生时的4个斤两

古怪奇谈录
2025-11-07 09:10:57
年轻人正在逃离上海!这事怪不了任何人,577万老人换谁也顶不住

年轻人正在逃离上海!这事怪不了任何人,577万老人换谁也顶不住

南权先生
2025-06-16 15:26:16
老人二婚第一次圆房什么感受?68岁阿姨坦白:简直是给我太多惊喜

老人二婚第一次圆房什么感受?68岁阿姨坦白:简直是给我太多惊喜

如烟若梦
2025-09-04 18:45:04
连美驻日大使都出动了,薛剑总领事遭围攻,若被驱逐必对等回应

连美驻日大使都出动了,薛剑总领事遭围攻,若被驱逐必对等回应

闻识
2025-11-11 17:54:38
范思琦微笑祝贺曼昱!赛后为自己打20分:1-3落后将巨星逼入绝境

范思琦微笑祝贺曼昱!赛后为自己打20分:1-3落后将巨星逼入绝境

颜小白的篮球梦
2025-11-11 16:09:14
2025-11-12 04:04:49
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
11694文章数 142501关注度
往期回顾 全部

科技要闻

苹果新品惨败,产线拆光、二代搁浅!

头条要闻

携6.1万枚比特币出逃英国 富婆奢靡生活披露

头条要闻

携6.1万枚比特币出逃英国 富婆奢靡生活披露

体育要闻

一个14岁的小男孩,决定了谁能晋级世界杯

娱乐要闻

古二曝秦雯多次炫耀袭警经历

财经要闻

南昌三瑞智能IPO:委外代工模式存疑

汽车要闻

盈利"大考",汽车智能化企业的中场战事

态度原创

游戏
教育
时尚
数码
本地

《无尽传说 Remastered》评测:前进"/> 主站 商城 论坛 自运营 登录 注册 《无尽传说 Remastered》评测:前进 星河 2025-...

教育要闻

老师们不奢望减轻什么负担,只希望能实行8小时工作制!

舒淇,东亚女孩的恨海情天

数码要闻

海盗船发布《使命召唤:黑色行动 7》联名外设,含键盘等多款产品

本地新闻

云游安徽 | 凌滩玉魄淬千年,诗意钢城马鞍山

无障碍浏览 进入关怀版