网易首页 > 网易号 > 正文 申请入驻

SwingArena:从「写对代码Commit」到「通过CI审查」

0
分享至



过去一年,大模型写代码的能力几乎以肉眼可见的速度提升。从简单脚本到完整功能模块,GPT、Claude、DeepSeek 等模型已经能够在几秒钟内生成看起来相当 “专业” 的代码。

这种能力的提升,让很多人开始认真思考一个问题:AI 能不能真正参与到软件工程的核心流程中?

但越接近真实开发,这个问题就越显得复杂。因为在工业界,“写出一段能跑的代码” 远远不够。

代码是否能被合并,取决于它能否通过完整的持续集成(Continuous Integration,简称 CI)流水线——这是一种在代码开发过程中,通过自动化的构建、测试和代码检查,确保每一次改动都能在真实工程环境下稳定运行的机制。

此外,代码还需符合项目规范、经得起代码审查,并在多轮修改中保持稳定可靠。遗憾的是,现有主流代码评测基准,几乎都停留在“能否通过几个单元测试”的层面。

SwingArena 的出发点,正是填补这块长期缺失的评测空白。

该论文已被ICLR 2026正式接收。目前,SwingArena 已实现全栈开源。





  • 论文标题:SwingArena: Competitive Programming Arena for Long-context GitHub Issue Solving
  • 论文链接:https://arxiv.org/abs/2505.23932
  • 项目链接:https://swing-bench.github.io/

从 “写对代码” 到 “通过审查”,

评测逻辑需要一次转向


在传统评测中,模型面对的是一个高度简化的问题:给定函数签名和说明,只要输出能通过测试的实现即可。这种设定对于衡量基础编程能力是有效的,但它忽略了真实软件开发中最关键的一环 ——审查与迭代。

在现实中,一段代码往往要经历多个回合的反馈与修改,才能最终被接受。CI 系统会自动检查编译、测试、代码风格和潜在风险,而审查者则会从逻辑正确性、边界情况和可维护性等角度不断提出质疑。这种过程,本质上是一种持续博弈。

SwingArena 将这种博弈引入评测之中。它不再让模型 “单打独斗”,而是通过对抗式设定,让两个模型分别扮演 “提交者” 和 “审查者”,在真实 CI 环境中反复交锋。



提交者需要写出足够稳健的补丁才能通过流水线,而审查者则试图通过精心设计的测试暴露潜在问题。最终的得分,完全由真实执行结果决定。



真实工程环境,意味着真实复杂度


要让评测真正贴近工业场景,仅有对抗机制还不够。另一个更现实的挑战在于:真实项目的代码规模,远远超出了大模型的上下文窗口。

一个常见的开源仓库往往包含数万行代码,分布在数百个文件中。模型不可能 “通读全库”,只能在极其有限的上下文中做判断。SwingArena 因此设计了一套完整的检索增强流水线 RACG(Retrieval-Augmented Code Generation),试图在 “给模型多少代码” 与 “给对代码” 之间取得平衡。

RACG 的核心思路,是先通过经典信息检索方法快速缩小文件范围,再以语法结构为单位对代码进行切块,并使用语义模型进行精排。在严格的 token 预算下,系统会动态调整上下文粒度,确保模型看到的是最关键、最相关的代码片段,而不是噪声。

消融实验显示,这种分层检索策略,能够显著提升补丁定位的准确率,相比仅使用关键词匹配,Top-10 命中率提升超过一倍。这意味着模型不只是 “写代码”,而是在更接近人类工程师的认知范围内工作。

当模型真正对抗,差异才开始显现


在 SwingArena 的评测中,一个有趣的现象逐渐浮现:不同模型在工程决策上的 “性格差异”,被前所未有地放大了。

以 GPT-4o 为例,它在提交者角色中表现得极为激进,往往能够快速生成足以击败对手测试的补丁,因此胜率很高。但这种策略的代价是 CI 通过率并不稳定,代码在规范性和鲁棒性上更容易出现问题。

相比之下,DeepSeek 和 Gemini 的表现则明显更为保守。它们生成的代码风格更加规范,通过 CI 的概率也更高,尤其在多语言场景下展现出更强的稳定性。这类差异,在传统基准中往往被 “平均分” 所掩盖,而在对抗式评测中却变得非常直观。

更重要的是,这些结果为实际应用提供了清晰的参考:当目标是快速原型和探索性开发时,激进策略可能更有效;而在生产环境和长期项目中,稳定性显然更重要。

从评测到实践:

为什么 SwingArena 值得被重视


SwingArena 的意义,并不仅仅在于提出了一个新的 benchmark。它更重要的价值,在于推动了一次评测视角的转变:从 “功能正确性” 走向 “工程可用性”。

通过将 CI 流水线、代码审查和多轮迭代引入评测过程,SwingArena 让我们第一次能够系统性地回答这样的问题:哪些模型真的适合进入生产环境?在不同工程场景下,应该如何选择和使用它们?又该如何设计更符合现实需求的 AI 编程助手?

在论文匿名期结束后,SwingArena 将完整开源,包括数据集、评测框架、检索流水线以及所有实验复现代码。团队希望,这套框架不仅能成为研究者比较模型的新工具,也能为工业界评估和落地 AI 编程能力提供参考。

当 AI 生成的代码真正走进 CI 流水线,评测的标准,也必须随之升级。

SwingArena,正是向这个方向迈出的一步。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
古籍记载龙长虎短手相 无名指更长之人晚年多有四种人生结局

古籍记载龙长虎短手相 无名指更长之人晚年多有四种人生结局

唠叨说历史
2026-03-31 14:25:43
黄衣美女,身材真好

黄衣美女,身材真好

蓝色海洋009
2026-05-08 20:09:07
姆巴佩抨击法国右翼政党国民联盟,党主席回击:你离开巴黎后,巴黎可又要拿欧冠了

姆巴佩抨击法国右翼政党国民联盟,党主席回击:你离开巴黎后,巴黎可又要拿欧冠了

懂球帝
2026-05-13 10:23:07
可惜了,不会演硬演,《主角》唯一败笔,换掉她这部剧近乎完美

可惜了,不会演硬演,《主角》唯一败笔,换掉她这部剧近乎完美

芬霏剧时光
2026-05-12 11:13:09
国家一级“杀人王”误闯小区,当地部门倒吸一口气:山里都少见

国家一级“杀人王”误闯小区,当地部门倒吸一口气:山里都少见

夏末moent
2026-05-13 04:57:03
苏-57发射超远程导弹,绝杀乌克兰预警机!给印度空军上了一堂课

苏-57发射超远程导弹,绝杀乌克兰预警机!给印度空军上了一堂课

闻识
2026-05-13 04:47:05
农村光棍没减少,又冒4个扎心怪象,热闹背后全是难念的经

农村光棍没减少,又冒4个扎心怪象,热闹背后全是难念的经

老特有话说
2026-05-12 15:30:33
知名歌唱家贪财好色嫁大30岁二婚男,如今活成这样

知名歌唱家贪财好色嫁大30岁二婚男,如今活成这样

风月得自难寻
2026-05-12 06:25:42
江苏事业单位副高七级养老金从8280元到11434元的核定逻辑解析

江苏事业单位副高七级养老金从8280元到11434元的核定逻辑解析

坠入二次元的海洋
2026-05-13 11:57:56
“妈祖代言人”刘涛:认识20天就闪婚,婚后为丈夫还数亿债务

“妈祖代言人”刘涛:认识20天就闪婚,婚后为丈夫还数亿债务

奇怪的鲨鱼们
2026-05-13 10:06:09
礼宾司看了大会堂的宴会大厅后,觉得太寒酸,就像公社大食堂

礼宾司看了大会堂的宴会大厅后,觉得太寒酸,就像公社大食堂

雍亲王府
2026-05-11 18:40:04
中日斗法:遍布我国的日本学校,被组成困龙局,749局高人一招化解

中日斗法:遍布我国的日本学校,被组成困龙局,749局高人一招化解

天字号野史
2024-11-29 11:55:59
全球最大的公司诞生!市值35万亿,相当于15个阿里,利润超8000亿

全球最大的公司诞生!市值35万亿,相当于15个阿里,利润超8000亿

混沌录
2026-05-11 22:34:09
黄仁勋的中国"归零"桌——从"很高兴"到"绝不卖给你",一个人怎么把全球最大AI芯片市场让给华为丨【商业人物档案】

黄仁勋的中国"归零"桌——从"很高兴"到"绝不卖给你",一个人怎么把全球最大AI芯片市场让给华为丨【商业人物档案】

投资者网
2026-05-12 20:14:20
长得太美被导演占为己有,25岁生下3个孩子,如今个个都给她争光

长得太美被导演占为己有,25岁生下3个孩子,如今个个都给她争光

揽星河的笔记
2026-05-13 13:26:24
印度和印尼都在马六甲“搞事”?中方突然宣布,先进潜艇交付巴铁

印度和印尼都在马六甲“搞事”?中方突然宣布,先进潜艇交付巴铁

云舟史策
2026-05-13 07:15:06
这支部队不属于任何野战军,50年还有人穿红军军装,地位无可替代

这支部队不属于任何野战军,50年还有人穿红军军装,地位无可替代

大运河时空
2026-05-12 14:25:03
特朗普等不了了!启程前对华交底:共同敌人浮现,中方稳坐钓鱼台

特朗普等不了了!启程前对华交底:共同敌人浮现,中方稳坐钓鱼台

领略快乐真谛
2026-05-13 12:29:20
楚嘉禾争了一辈子《主角》,满盘皆输,她给所有的聪明人上了一课

楚嘉禾争了一辈子《主角》,满盘皆输,她给所有的聪明人上了一课

白羽居士
2026-05-12 20:42:06
CBA半决赛赛程出炉!北京北汽能赢上海男篮吗?京媒和沪媒看法罕见一致

CBA半决赛赛程出炉!北京北汽能赢上海男篮吗?京媒和沪媒看法罕见一致

兰亭墨未干
2026-05-13 10:34:51
2026-05-13 14:39:00
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12983文章数 142648关注度
往期回顾 全部

科技要闻

谷歌剧透安卓重大升级 Gemini深度集成底层

头条要闻

特朗普空中发文:很荣幸与杰出人士同去伟大的中国

头条要闻

特朗普空中发文:很荣幸与杰出人士同去伟大的中国

体育要闻

14年半,74万,何冰娇没选那条更安稳的路

娱乐要闻

白鹿掉20万粉,网友为李晨鸣不平

财经要闻

创业板指突破4037.96点创历史新高

汽车要闻

吉利银河“TT”申报图曝光 电动尾翼+激光雷达

态度原创

数码
教育
时尚
手机
游戏

数码要闻

三星Exynos 2700或弃用WLP封装 成本压力成主因

教育要闻

初一期中考炸出“伪牛娃”!海淀这所学校凭啥让孩子后劲十足?

没八卦、纯素人、不惊艳,可她赢麻了

手机要闻

索粉最期待的年度旗舰来了!索尼Xperia 1 VIII发布:售价1.2万元起

《寂静岭f》全球累计出货量突破200万套!美丽而令人战栗的风潮席卷全球

无障碍浏览 进入关怀版