网易首页 > 网易号 > 正文 申请入驻

字节跳动Seed发布NL2Repo-Bench仓库级长程代码生成基准

0
分享至



在 AI 编程领域,大家似乎正处于一个认知错觉的顶点:随着 Coding Agents 独立完成任务的难度和范围逐渐增加,Coding 领域的 AGI 似乎就可以实现?

然而,真正的工程师都知道,写代码的灵魂不在于file/function level的 code creation,而是 project level 的 code completion。写了很长时间的代码,不代表项目做完,更不代表项目做好了。

一个完整的项目开发要求开发者从一个空文件夹开始,理解上万 token 的需求,设计架构、管理多模态逻辑,并产出可安装、可运行的代码仓库。然而现有代码评测基准主要集中在局部代码生成(如 HumanEval、MBPP)或在已有代码库上进行修复(如 SWE-bench)。

近日,首个专门评估编码智能体端到端仓库生成能力的基准测试 ——NL2Repo-Bench 正式发布。它由字节跳动 Seed、南京大学、北京大学等多家机构的研究者联合打造,发布后受到广泛关注。



  • 论文标题:NL2Repo-Bench: Towards Long-Horizon Repository Generation Evaluation of Coding Agents
  • 论文主页:https://huggingface.co/papers/2512.12730
  • 项目链接:https://github.com/multimodal-art-projection/NL2RepoBench
  • ArXiv 论文:https://arxiv.org/pdf/2512.12730

Show me your Repo,

NL2Repo 如何考察 Coding Agent 从 0 到 1 工作能力?

在 OpenAI 对通用人工智能(AGI)的定义中,AGI 需要在大多数具有经济价值的任务上达到或超过人类表现。在软件工程领域,这种愿景意味着开发方式的颠覆式变化:人类只需提供需求,Coding Agent 即可独立完成开发、调试、部署等全部环节,人类不再需要直接写代码。

与以往依赖 LLM 评分或对已有代码仓库进行修改的基准不同,NL2Repo-Bench 的设计亮点在于从 “人类不再需要直接写代码 " 的终极愿景出发,设计了极其严格的 “零代码执行评估” 机制。该基准要求智能体面对完全真空的初始工作空间,仅通过平均长度超 1.8 万 token 的长篇需求说明,自主进行需求理解、开发、测试、多文件协同管理等全链路工作。

简单来说,NL2Repo 团队从 GitHub 挑选了 104 个拥有完备 pytest 测试用例的 Python 开源项目。实验过程中,不同的 Coding Agent 需要根据专家构建的高质量需求文档,从零复现整个仓库,并以项目原有的测试用例作为基准来评估复现效果。

NL2Repo-Bench 是如何构建评测的?

首先是任务选取。

构建 NL2Repo-Bench 这一基准评测数据集的首要挑战在于,如何从海量的 GitHub 开源仓库中萃取出具备高技术含量且可验证的黄金样本。

为了利用可验证的真值(Ground Truth)评估仓库级代码生成能力,NL2Repo-Bench 从具有模块化架构和权威 pytest 测试套件的真实 Python 库中提取任务。Coding Agent 仅接收单一的自然语言规范,必须从零开始重建完整的仓库,包括文件结构和功能逻辑。正确性严格通过在原始上游测试套件中运行生成的代码来衡量。

为了确保评测数据的现实意义与技术深度,团队在筛选流程设定了多维度的准入门槛:

  1. 活跃度:近 3 年内有至少一次更新。

  2. 权威性:Github 星数至少为 10。

  3. 完整性:包含清晰的目录结构、完整测试用例(pytest/unittest)。且源代码仓能够通过其自带的测试用例。

  4. 高难度:代码总行数需在 300 行以上(绝大部分任务超过 1000 行,部分任务过万行)。

  5. 代表性:覆盖工具类(如数据清洗库)、框架类(如轻量级 Web 框架)、算法类(如图像处理库)等多个不同类型的 python library。

选择 Python Library 级别的仓库作为目标,正是因为其开源属性与规范化程度完美契合了这一验证机制,带有完备的测试用例等特征,为评估大模型在仓库级代码生成上的真实表现提供了科学的实验场。



评测构建流程图

任务覆盖方面,NL2RepoBench 包含 104 个真实 Python 仓库级任务,涵盖工具类、框架类、算法类等多个主流 Python 库类别,严格考察 Agent 从自然语言文档出发独立开发可直接运行、可部署的软件仓库能力。

如何消除 Coding Agent 评估过程中的随机性?

需求文档 + 评测环境 + 全流程 QC

在保障 NL2Repo-Bench 任务文档质量的过程中,构建团队确立了一套严密的自动化工具与人工深度参与相结合的验证体系。



NL2Repo 任务文档示例

1. 为了精准锁定仓库的核心功能节点,技术团队首先利用静态扫描工具对源代码进行拓扑分析,提取出支撑项目运行的关键架构信息。

2. 在此基础上,任务文档的编写追求极高的严谨性与全面性,通过 “人工专家 + AI 工具” 的双重校验机制,确保每一个核心功能节点在需求描述中均无遗漏,为模型的代码生成提供准确的指引。

3. 评测环境的稳定性是确保结果可重复性的基石。为此,团队对任务相关的镜像环境进行了精细化配置,通过最小化非功能性依赖,消除了由于环境波动带来的干扰项。

每一项任务从初步草拟到最终收入评测集,都必须强制通过人工文档审核、静态工具检测、镜像环境验证以及预实验验证这四个阶段。这种全生命周期的质量控制闭环,有效排除了低质量任务对基准测试信度的影响,确保了 NL2Repo-Bench 能够真实反映 Coding Agent 在复杂工程场景下的核心竞争力。

Repo 一梭出,

一线 Coding Agent 实际表现如何?

NL2Repo-Bench 团队首次完整测试了当前最强的 Coding Agent,结果显示即便是表现最佳的 Claude4.5,整体通过率仍低于 40%,多数模型的整体表现仅在 20% 左右。

  • 任务难度上升,模型表现快速下降:真实复杂项目开发难度有效体现。
  • Claude 家族遥遥领先,GPT5 意外掉队:交互策略的缺陷明显拖累了 GPT5 表现。



NL2Repo-Bench 团队进一步分析了模型调用工具的偏好与开发策略,发现以下典型问题:

  • 早停(Early-Stop):部分模型缺乏长程规划,过早终止开发;
  • 未终止(Non-Finish):模型频繁陷入等待用户指令的状态,开发未完成;
  • 盲目编辑与导航陷阱:部分 Agent 缺乏系统性规划,浪费大量轮次在无意义操作。




消融实验 1:轮次数对模型表现的影响

NL2Repo-Bench 团队发现,交互轮次增加到 200 次左右可显著提高模型表现。此外,即便在 “开卷考试”(提供测试用例)的条件下,模型也难以突破 60 分,足见真实仓库级开发任务难度之高。



claude4.5 得分变化趋势图

消融实验 2:泄露测试用例对模型表现的影响

主实验中,CodingAgent 除了任务文档和指令外没有任何输入内容。 为了判断测试用例能否对模型的开发工作实现有效辅助,NL2Repo-Bench 团队选取 Claude4.5+ClaudeCode,在执行任务的 workspace 中注入了测试阶段的所有测试文件。



实验结果:生成阶段提供测试用例后,模型在各个难度任务的表现都有了明显的提升,但总体得分仍然偏低(59.4,低于 60 分) 。这一结果一方面表明提供测试用例的情况确实能够实现对模型开发的辅助,另一方面,依然较低的 all-pass rate 也表明了当前的 coding-agent 即使是在 “开卷考试” 的情况下也依然较难实现完整仓库的长程开发。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
狂砸3.14亿!阿森纳夏窗要买4大强援 下赛季剑指双冠王

狂砸3.14亿!阿森纳夏窗要买4大强援 下赛季剑指双冠王

球事百科吖
2026-06-03 12:28:49
婆婆当众骂我二手货,我笑问公公:你养了29年的儿子到底真亲生吗

婆婆当众骂我二手货,我笑问公公:你养了29年的儿子到底真亲生吗

枫红染山径
2026-06-03 09:05:50
中方收到投名状!印尼砸下31亿,抢购中方退役导弹艇,西方不解

中方收到投名状!印尼砸下31亿,抢购中方退役导弹艇,西方不解

安之若憟
2026-06-03 12:48:24
中方严肃定性,16国加入联合军团,共同围剿俄罗斯,日本已经介入

中方严肃定性,16国加入联合军团,共同围剿俄罗斯,日本已经介入

影孖看世界
2026-06-01 23:22:26
现役最佳射手因“叛国”落选?伊朗公布世界杯参赛名单

现役最佳射手因“叛国”落选?伊朗公布世界杯参赛名单

湖报体育
2026-06-02 19:20:43
香港偶遇46岁容祖儿 弯腰驼背走路肚子只剩一张皮 鞋跟高都有20cm

香港偶遇46岁容祖儿 弯腰驼背走路肚子只剩一张皮 鞋跟高都有20cm

科学发掘
2026-06-01 06:03:49
徐帆回应离婚几个月后,68岁冯小刚再惹争议,养女徐朵成导火索!

徐帆回应离婚几个月后,68岁冯小刚再惹争议,养女徐朵成导火索!

乡野小珥
2026-05-18 08:58:28
斯科蒂·皮蓬23岁儿子崩溃自白:15岁那年,同学用Future的歌羞辱我

斯科蒂·皮蓬23岁儿子崩溃自白:15岁那年,同学用Future的歌羞辱我

绿茵狂热者
2026-06-03 01:55:51
微星宣布NVIDIA RTX Spark迷你主机EdgeMesa N AI+

微星宣布NVIDIA RTX Spark迷你主机EdgeMesa N AI+

IT之家
2026-06-02 08:51:08
左手通胀右手衰退,欧美当下的困局

左手通胀右手衰退,欧美当下的困局

米筐投资
2026-06-03 07:07:13
中央5台直播女排时间表:6月3日CCTV5直播中国女排!世联赛赛程表

中央5台直播女排时间表:6月3日CCTV5直播中国女排!世联赛赛程表

等等talk
2026-06-03 12:05:12
谌旭彬:百姓躺平摆烂,食税群体怎么办?

谌旭彬:百姓躺平摆烂,食税群体怎么办?

老郭在学习
2026-06-01 17:12:48
烈日当头下,和尚躬身收麦!坚守祖训的白马寺,打了多少假僧脸?

烈日当头下,和尚躬身收麦!坚守祖训的白马寺,打了多少假僧脸?

削桐作琴
2026-06-02 15:27:07
善恶有报!许家印刚认罪1天,子女近况曝光,大儿子的安排全白费

善恶有报!许家印刚认罪1天,子女近况曝光,大儿子的安排全白费

历史伟人录
2026-05-10 22:06:40
印度抵制中国制造空调,却偷取技术

印度抵制中国制造空调,却偷取技术

郭蛹包工头
2026-06-03 00:21:04
贵州大学道歉开了很坏的头,以后市级医院想招到博士就更难了

贵州大学道歉开了很坏的头,以后市级医院想招到博士就更难了

金水路7号站
2026-06-03 08:19:18
情况有变!我国海警巡航台岛,两岸军机激烈对峙,解放军点名警告

情况有变!我国海警巡航台岛,两岸军机激烈对峙,解放军点名警告

谛听骨语本尊
2026-06-03 13:33:52
印度最高种姓“婆罗门”到底有多牛?永享一项特权,出生就是贵族

印度最高种姓“婆罗门”到底有多牛?永享一项特权,出生就是贵族

网络易不易
2026-06-02 06:00:35
曝魏宗万去世细节!3月进入医院疗养,后辈演员曝其三大暖心举动

曝魏宗万去世细节!3月进入医院疗养,后辈演员曝其三大暖心举动

法老不说教
2026-06-03 13:53:30
网友称山姆鹌鹑蛋两个装很尴尬,特别是分享男同事的时候

网友称山姆鹌鹑蛋两个装很尴尬,特别是分享男同事的时候

映射生活的身影
2026-06-01 22:00:15
2026-06-03 14:40:49
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
13156文章数 142660关注度
往期回顾 全部

科技要闻

员工抗议键鼠追踪,Meta让步:可暂停30分钟

头条要闻

女子称凌晨入睡后银行卡多次被转账损失42万 银行回应

头条要闻

女子称凌晨入睡后银行卡多次被转账损失42万 银行回应

体育要闻

选择中国品牌的库里,和他们的巨大野心

娱乐要闻

著名演员魏宗万去世!曾演活司马懿

财经要闻

左手通胀右手衰退,欧美当下的困局

汽车要闻

依托全域辅助驾驶布局 千里浩瀚助推吉利5月市场大热

态度原创

旅游
本地
艺术
游戏
公开课

旅游要闻

主持人点点带你打卡北美高端亲子品牌Jolly Bubble 波浪谷全国首店,解锁高质量亲子游玩体验,烟台遛娃首选!

本地新闻

用剪纸的方式,打开江苏扬州

艺术要闻

二十年前割麦的场景

越能搬砖,活得越久?MMO 搬砖怎么从"毒瘤"熬成了"香饽饽"

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版