网易首页 > 网易号 > 正文 申请入驻

天工不止造物,也能修bug:Skywork-SWE给代码智能体补上软件工程课

0
分享至

机器之心报道

编辑:Panda

400 多年前,宋应星著成《天工开物》。这是一部写给匠人、也写给未来的书。它让人相信:技术不是死物,而是人与世界持续互动的方式。

如果说「天工」代表了中国古代对「工程」与「制造」的极致理解,那么今天,一个同样以「天工」(即 Skywork)为名的 Agent 智能体,正试图在另一片疆域(代码世界)中,继承这份精神。

这个 Skywork,不是炼铁铸器的匠人,而是自主代码智能体基座模型,要修补的是一种现代最复杂的人造系统:(开源)软件工程。它不握锤凿,而是靠多轮交互、长上下文理解与逻辑推理,在成千上万的 GitHub 项目中识别 issue/bug、定位原因、打补丁,并验证是否真的修好了。故此,它得名Skywork-SWE。(注:SWE 是指软件工程 / Software Engineering。)

Skywork-SWE 因何而生?

软件智能体面临的困难

在古人的世界里,修一口破鼎、补一段布帛是「匠人精神」的体现。而在今天,最频繁「破裂」的,莫过于代码。

如今,代码系统早已成为现代文明的骨架。它们运行在日常软件、银行服务、交通调度等各式系统中,也支撑着我们所依赖的 AI 算法本身。但和古代器物一样,再精妙的程序也难免出现 bug—— 有些是逻辑失误,有些是环境变迁,有些甚至源于协作失控。比如,就在前几天,AWS、谷歌云、Azure 和 Cloudflare 都发生了中断,连带着 ChatGPT 和 Cursor 等热门 AI 应用也一并短暂失联;而这一事故的原因可能是一次错误的自动配额更新导致谷歌的 API 管理系统出现了故障。

同时,bug 修复也是软件工程中最基础,却也是最复杂、最消耗人力的任务之一。特别是在真实的 GitHub 项目中,修一个 bug 并不是「找到一行错字那么简单」,它常常需要:

  • 读取和理解成百上千个文件;
  • 推演变量在不同模块的流动路径;
  • 阅读前人留下的修复记录与讨论;
  • 理解上下文、猜测意图、编写代码补丁;
  • 最后,还得跑几遍测试,看看是不是真的「已解决」。

那么,我们能否使用 AI 智能体来完成这些任务呢?

当然可以!但我们需要的绝不是传统的用于解决单独编程任务的 AI 编程模型,而是需要像人类开发者一样能够理解历史上下文、进行多轮推理、在模糊与不确定中做决策、具备落地执行的能力的软件工程智能体。

而难题也随之而生:这类任务长期缺乏高质量训练数据。市面上现有的 SWE 数据集,不是验证机制不足,就是训练样本杂乱无章,难以支持模型在真实工程中进化。另外,这些数据集的规模普遍较小,导致数据 Scaling Law 适用性不明确。

正是为了应对这种挑战,昆仑万维推出了自主代码智能体基座模型 Skywork-SWE。它不仅代表一个性能卓越的模型 ——32B 参数量级别的最强开源软件工程智能体,更是一个集数据、验证、推理与修复为一体的完整系统。不仅如此,他们还基于此成功揭示了LLM 软件工程能力的 Scaling Law

目前,该模型的技术报告和模型权重都已发布。

  • 技术报告:https://huggingface.co/Skywork/Skywork-SWE-32B/resolve/main/assets/Report.pdf
  • 技术博客:https://quixotic-sting-239.notion.site/eb17f379610040ceb54da5d5d24065bd
  • 模型权重:https://huggingface.co/Skywork/Skywork-SWE-32B

Skywork-SWE

数据锤炼出的智能工匠

那么,昆仑万维究竟是如何打造出 Skywork-SWE 的呢?

核心的秘诀在于:在软件工程任务上高质量地达成了数据 Scaling Law

为了获得高质量数据,昆仑万维构建了构建了一套自动化、结构化、可复现的 SWE 数据收集与验证流程,共分为三大阶段、九个步骤。

最终,他们从 15 万个 GitHub 开源项目中筛选出 10,169 个真实代码问题和 8,209 条多轮交互轨迹,构建出了业内最大规模、可验证的 SWE 数据集,其中每一个样本都不是「描述性」的,而是「工程级」的:

  • 每条任务都能在 Docker 中复现;
  • 每个补丁都要通过单元测试验证;
  • 每条智能体轨迹都覆盖完整修复闭环。

下图展示了其完整的数据构建流程:

数据构建流程图

具体来说,阶段 A 的工作是数据采集与预筛选,其中又细分为 GitHub 元数据抓取、PR(Pull Request)收集与任务初筛和安装验证 3 个步骤。第一阶段的处理下来,昆仑万维团队从 15 万个开源仓库中得到了 23,389 个有效任务样本。为了防止数据泄漏,排除 SWE-bench Verified(测试数据集)已包含的仓库。

而阶段 B 则是环境设置和基于执行的验证。同样,这一阶段也分为三个步骤:统一命令生成、Docker 环境构建和单元测试验证。很容易看出来,这一步的目标是确保问题的修复是有效的,进而进一步保证数据的质量。

最后,还需要针对每个任务生成正确的智能体轨迹。这也正是阶段 C 的任务目标。同样地,三个步骤:首先,昆仑万维团队基于开源的 OpenHands 代码智能体框架,选用代码能力突出的商用大模型(如 Claude,DeepSeek 等)作为智能体基座,对每个任务执行最多 100 轮交互,完整记录智能体在问题求解过程中的交互轨迹。然后,他们进行了 Patch 级的验证,以确保智能体行为严格对齐仓库级代码修复目标。最后,构建训练样本库,得到了 8,209 条高质量、长上下文、多轮交互的经过验证的轨迹。

走完全流程后,昆仑万维团队得到了一个当前规模最大、质量最高且可验证的软件工程任务数据集:Skywork-SWE。是的,正是基于该数据集,昆仑万维训练出了同名的自主代码智能体模型:Skywork-SWE-32B!(注:32B 是指模型参数量。)

数据构建过程中各个阶段数据样本量变化图

在任务数量与代码覆盖广度方面,Skywork-SWE 远超现有同类数据集(如 SWE-Gym Lite 与 SWE-bench Verified),可为大模型提供丰富、多样且贴近实际的软件工程任务样本,进而持续推动智能体模型的能力进化。

更具体而言,如下左表所示,相较于其他基准数据集,Skywork-SWE 中的任务在编辑复杂度上显著更高:平均每个补丁涉及 2 个以上函数修改、6 个代码块、以及多达 74 行代码变更,能更真实地反映GitHub 开发中的问题修复复杂度。这也意味着,模型要在此类任务中实现有效修复,必须具备更强的代码理解、上下文建模与多轮交互推理能力。

Skywork-SWE 数据集统计表与 GitHub 仓库词云图

而右图则给出了 Skywork-SWE 数据集的仓库名称词云。可以看到,其中不仅涵盖如 Pydantic、SQLGlot、DVC 等主流开源项目,还包含大量中小型仓库,呈现出高度贴近真实开发生态的任务分布特征。这种贴近真实开发生态的数据构成,有助于提升模型在复杂多样场景下的问题解决能力。

这些能力也在基于 Skywork-SWE 数据集微调得到的 Skywork-SWE-32B 模型上得到了体现。(注:采用的基座模型是 Qwen2.5-Coder-32B-Instruct)。

Skywork-SWE-32B 的实验表现

在广受关注的 SWE-bench Verified 基准(包含 500 个实例,来自 12 个流行 Python GitHub 库的 PR)上,Skywork-SWE-32B 在 OpenHands Agent 框架下取得了 47% 的准确度,超越了现有参数规模在 32B 以下的开源模型,甚至优于参数量高达 671B 的 DeepSeek-V3-0324 模型。

而在这个亮眼成绩背后,他们的实验还成功揭示了 LLM SWE 能力在数据方面的 Scaling Law:随着训练数据规模的持续扩展,SWE 模型性能会持续提升,充分验证了「数据 scaling 带来的性能增益」在软件工程任务中的有效性与适用性。Skywork-SWE-32B 实现了 38.0% pass@1 准确度,刷新 Qwen2.5-Coder-32B 系列模型在 OpenHands 代码框架下的最佳成绩。

可以看到,随着训练轨迹数量的增多,Skywork-SWE-32B 的性能会持续提升。请注意,上图的横轴采用了指数刻度,这意味着模型性能几乎呈指数级随数据增长而提升。更重要的是,在当前数据集规模范围内,性能提升尚未出现饱和迹象,这充分揭示了进一步扩展高质量数据的巨大潜力。

另外,为了在推理阶段进一步释放模型能力,昆仑万维团队也实验了测试时扩展(TTS)技术对 Skywork-SWE-32B 带来的提升,充分释放了模型的潜力,在 Best of 8 的测试下即可达到 47% 的正确率。

下图展示了其具体在不同仓库上的得分情况。

相较于主流的一些闭源模型,经过 TTS 后的 Skywork-SWE-32B 的表现也相当不俗:显著超越了 GPT-4.1-mini(23.86%)、 Claude 3.5 HaiKu(40.6%)和 OpenAI-o1-preview (41.3%),并且领先于 Claude v3.5(46.0%)。

下面通过一个实际案例来看看 Skywork-SWE-32B 的工作过程。

以用 Python 编写的、用于天文学的通用核心软件包 Astropy 及对应的 #14309 PR 为例。

Astropy 仓库 issue:修复当提供的文件路径没有 args 参数时 FITS 链接逻辑崩溃问题。

向 Skywork-SWE-32B 模型输入上述 Astropy 仓库 issue 和相应的代码仓库,可以看到该模型能精准定位问题源文件与具体缺陷,并生成 patch 修复方案。

生成 patch 修复方案示例图

如下所示,Skywork-SWE-32B 生成的方案成功通过了全部测试样例,实现了在 GitHub 代码仓库中从问题理解到解决的一站式代码修复。

单元测试结果示例图

Skywork-SWE-32B 的优异表现充分验证了 Skywork-SWE 数据集的高质量与实际价值。

一份数据集

撬动一个智能体时代

在大模型走向智能体时代的今天,真正稀缺的已不是算力,也不是参数,而是经得起验证、贴近真实、具备闭环反馈的数据。

Skywork-SWE 的意义,恰恰在于此。它不仅仅代表了一个模型,而是一套系统化构建真实工程数据的范式,其中收集的不是孤立的函数调用或代码段,而是成千上万个来自 GitHub 仓库的实际修复任务 —— 每一条都能在环境中复现、通过测试、形成可追踪的智能体交互轨迹。

这份数据集不仅让 Skywork-SWE-32B 成为当前 32B 参数规模下最强的开源软件工程模型之一,更重要的是,它揭示了 LLM 在 SWE 任务中持续增长的性能与数据之间的强相关性,首次系统性验证了数据 Scaling Law 在复杂工程任务上的适用性,堪称软件工程智能体的「ImageNet」。

昆仑万维表示,未来 Skywork-SWE 数据集还将向更多编程语言扩展;另外,其在运行时环境中执行并验证单元测试的设置也有助于近期 LLM 社区对在线强化学习方法的探索。

这背后,折射出昆仑万维对行业趋势的清醒判断:大模型走得再远,最终也要落到真实任务中;开源要想站稳脚跟,必须在「数据+系统+执行力」上全面补强。

过去一年里,昆仑万维围绕 Skywork 系列已布局从 MoE 架构、预训练模型到智能体框架与垂直场景的全链条。我们看到了多模态推理模型 Skywork-R1V 以及超越 Suno V4 的音乐模型 Mureka O1,甚至还有国内首个短剧创作大模型 Skyreels-V1、可交互视频生成世界模型 Matrix-Game 和 Matrix-Zero 以及堪称智能体界的全能型选手的天工超级智能体(Skywork Super Agent)。而更妙的是,以上这些模型大都是开源的!(可点击对应链接了解详情。)

Skywork-SWE 的推出,标志着这一体系进一步落地,也是昆仑万维在代码、内容、办公等智能体任务场景长期探索的延续。在这个探索中,他们不仅造模型,更造数据;不仅做生成,还进行验证。而放眼未来,这种以高质量任务型数据为基础的智能体训练范式,或将成为代码、软件工程乃至通用多模态智能体的「标准工艺」。

天工再起,从数据开始。Skywork-SWE 是对「工程智能体」时代最扎实的回答,也是昆仑万维写下的一份面向行业的「天工开物」。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
学医后才明白,预防骨质疏松最好的习惯,不是晒太阳,而是3件事

学医后才明白,预防骨质疏松最好的习惯,不是晒太阳,而是3件事

垚垚分享健康
2026-05-04 19:15:04
郭焱:国乒男队问题不是一天两天了!封训练的啥?林诗栋被牵着走

郭焱:国乒男队问题不是一天两天了!封训练的啥?林诗栋被牵着走

念洲
2026-05-04 13:13:42
五一高速电车与油车之争再掀热议,24%电车车主的真实困境!

五一高速电车与油车之争再掀热议,24%电车车主的真实困境!

阿芒娱乐说
2026-05-04 15:01:49
伊朗称2枚导弹击中美军舰,国际油价应声大跌

伊朗称2枚导弹击中美军舰,国际油价应声大跌

界面新闻
2026-05-04 18:32:28
她见过中国游客的挥霍,却要假装不羡慕:朝鲜导游的体面,薄得像那件风衣

她见过中国游客的挥霍,却要假装不羡慕:朝鲜导游的体面,薄得像那件风衣

百姓识天下
2026-05-04 22:50:03
轻断食再次封神!复旦大学研究证实:让肝脏脂肪在3月内少20.5%?

轻断食再次封神!复旦大学研究证实:让肝脏脂肪在3月内少20.5%?

橘子约定
2026-05-04 18:26:27
轮到国际足联认怂了。

轮到国际足联认怂了。

果妈聊娱乐
2026-05-04 08:44:29
公安部提醒:换身份证后别急着走!这3个关键步骤多数人忽略

公安部提醒:换身份证后别急着走!这3个关键步骤多数人忽略

老特有话说
2026-05-04 16:04:22
7年前,那个婚前抛弃女友,卖房卖车救妹妹的山西小伙,如今怎样

7年前,那个婚前抛弃女友,卖房卖车救妹妹的山西小伙,如今怎样

李橑在北漂
2026-05-04 09:33:44
五一最堵10大景点出炉!网友:第1名堵到怀疑人生,第5名直接劝退

五一最堵10大景点出炉!网友:第1名堵到怀疑人生,第5名直接劝退

奇思妙想草叶君
2026-05-02 16:12:40
宣扬“美国优先”的美防长,他的夫人竟然也穿“中国货”?美国人“吵翻天”了

宣扬“美国优先”的美防长,他的夫人竟然也穿“中国货”?美国人“吵翻天”了

新民周刊
2026-05-04 16:33:44
上海市金山区党政“一把手”调整!章龙华,任福建省邮政管理局副局长!

上海市金山区党政“一把手”调整!章龙华,任福建省邮政管理局副局长!

娱乐小可爱蛙
2026-05-05 07:20:12
真心感慨倪妮的长相太神奇了!
单看五官真没一个是完美标配

真心感慨倪妮的长相太神奇了! 单看五官真没一个是完美标配

小光侃娱乐
2026-05-04 19:30:04
争冠梦碎!曼城崩盘揪出最大内鬼,致命失误毁了全队

争冠梦碎!曼城崩盘揪出最大内鬼,致命失误毁了全队

奶盖熊本熊
2026-05-05 05:44:10
英超尽显人情世故!热刺逃离降级区,西汉姆联降级几成定局!

英超尽显人情世故!热刺逃离降级区,西汉姆联降级几成定局!

田先生篮球
2026-05-04 09:35:37
3-3后!曼城没退路了:14天踢4场英超+足总杯决赛,输2场或丢2冠

3-3后!曼城没退路了:14天踢4场英超+足总杯决赛,输2场或丢2冠

体育知多少
2026-05-05 07:16:44
亨得利晒与8岁吴宜泽合照:祝贺他成为世界冠军!多么精彩的表现

亨得利晒与8岁吴宜泽合照:祝贺他成为世界冠军!多么精彩的表现

念洲
2026-05-05 07:21:07
五一假期,中国年轻人的“首尔病”犯了

五一假期,中国年轻人的“首尔病”犯了

吴晓波频道
2026-05-05 08:31:30
豆包,你这么垃圾,怎么好意思收费?

豆包,你这么垃圾,怎么好意思收费?

崇晓视界
2026-05-04 17:24:53
真相炸裂!宗庆后3个私生子并非同一母亲,小儿子是别墅管家所生

真相炸裂!宗庆后3个私生子并非同一母亲,小儿子是别墅管家所生

派大星纪录片
2025-07-15 13:28:11
2026-05-05 10:16:49
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12905文章数 142640关注度
往期回顾 全部

科技要闻

OpenAI/Anthropic同日被曝拉拢华尔街建合资公司

头条要闻

牛弹琴:中东又出大事 最倒霉的是三个国家

头条要闻

牛弹琴:中东又出大事 最倒霉的是三个国家

体育要闻

骑士破猛龙:加雷特·阿伦的活力

娱乐要闻

张敬轩还是站上了英皇25周年舞台

财经要闻

五一假期,中国年轻人的“首尔病”犯了

汽车要闻

同比大涨190% 方程豹4月销量29138台

态度原创

家居
艺术
本地
公开课
军事航空

家居要闻

灵动实用 生活艺术场

艺术要闻

震惊!43岁妈妈晒女儿合影,30万网友猜测身份!

本地新闻

用青花瓷的方式,打开西溪湿地

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

特朗普回绝伊朗新方案

无障碍浏览 进入关怀版