网易首页 > 网易号 > 正文 申请入驻

字节跳动Seed发布NL2Repo-Bench仓库级长程代码生成基准

0
分享至



在 AI 编程领域,大家似乎正处于一个认知错觉的顶点:随着 Coding Agents 独立完成任务的难度和范围逐渐增加,Coding 领域的 AGI 似乎就可以实现?

然而,真正的工程师都知道,写代码的灵魂不在于file/function level的 code creation,而是 project level 的 code completion。写了很长时间的代码,不代表项目做完,更不代表项目做好了。

一个完整的项目开发要求开发者从一个空文件夹开始,理解上万 token 的需求,设计架构、管理多模态逻辑,并产出可安装、可运行的代码仓库。然而现有代码评测基准主要集中在局部代码生成(如 HumanEval、MBPP)或在已有代码库上进行修复(如 SWE-bench)。

近日,首个专门评估编码智能体端到端仓库生成能力的基准测试 ——NL2Repo-Bench 正式发布。它由字节跳动 Seed、南京大学、北京大学等多家机构的研究者联合打造,发布后受到广泛关注。



  • 论文标题:NL2Repo-Bench: Towards Long-Horizon Repository Generation Evaluation of Coding Agents
  • 论文主页:https://huggingface.co/papers/2512.12730
  • 项目链接:https://github.com/multimodal-art-projection/NL2RepoBench
  • ArXiv 论文:https://arxiv.org/pdf/2512.12730

Show me your Repo,

NL2Repo 如何考察 Coding Agent 从 0 到 1 工作能力?

在 OpenAI 对通用人工智能(AGI)的定义中,AGI 需要在大多数具有经济价值的任务上达到或超过人类表现。在软件工程领域,这种愿景意味着开发方式的颠覆式变化:人类只需提供需求,Coding Agent 即可独立完成开发、调试、部署等全部环节,人类不再需要直接写代码。

与以往依赖 LLM 评分或对已有代码仓库进行修改的基准不同,NL2Repo-Bench 的设计亮点在于从 “人类不再需要直接写代码 " 的终极愿景出发,设计了极其严格的 “零代码执行评估” 机制。该基准要求智能体面对完全真空的初始工作空间,仅通过平均长度超 1.8 万 token 的长篇需求说明,自主进行需求理解、开发、测试、多文件协同管理等全链路工作。

简单来说,NL2Repo 团队从 GitHub 挑选了 104 个拥有完备 pytest 测试用例的 Python 开源项目。实验过程中,不同的 Coding Agent 需要根据专家构建的高质量需求文档,从零复现整个仓库,并以项目原有的测试用例作为基准来评估复现效果。

NL2Repo-Bench 是如何构建评测的?

首先是任务选取。

构建 NL2Repo-Bench 这一基准评测数据集的首要挑战在于,如何从海量的 GitHub 开源仓库中萃取出具备高技术含量且可验证的黄金样本。

为了利用可验证的真值(Ground Truth)评估仓库级代码生成能力,NL2Repo-Bench 从具有模块化架构和权威 pytest 测试套件的真实 Python 库中提取任务。Coding Agent 仅接收单一的自然语言规范,必须从零开始重建完整的仓库,包括文件结构和功能逻辑。正确性严格通过在原始上游测试套件中运行生成的代码来衡量。

为了确保评测数据的现实意义与技术深度,团队在筛选流程设定了多维度的准入门槛:

  1. 活跃度:近 3 年内有至少一次更新。

  2. 权威性:Github 星数至少为 10。

  3. 完整性:包含清晰的目录结构、完整测试用例(pytest/unittest)。且源代码仓能够通过其自带的测试用例。

  4. 高难度:代码总行数需在 300 行以上(绝大部分任务超过 1000 行,部分任务过万行)。

  5. 代表性:覆盖工具类(如数据清洗库)、框架类(如轻量级 Web 框架)、算法类(如图像处理库)等多个不同类型的 python library。

选择 Python Library 级别的仓库作为目标,正是因为其开源属性与规范化程度完美契合了这一验证机制,带有完备的测试用例等特征,为评估大模型在仓库级代码生成上的真实表现提供了科学的实验场。



评测构建流程图

任务覆盖方面,NL2RepoBench 包含 104 个真实 Python 仓库级任务,涵盖工具类、框架类、算法类等多个主流 Python 库类别,严格考察 Agent 从自然语言文档出发独立开发可直接运行、可部署的软件仓库能力。

如何消除 Coding Agent 评估过程中的随机性?

需求文档 + 评测环境 + 全流程 QC

在保障 NL2Repo-Bench 任务文档质量的过程中,构建团队确立了一套严密的自动化工具与人工深度参与相结合的验证体系。



NL2Repo 任务文档示例

1. 为了精准锁定仓库的核心功能节点,技术团队首先利用静态扫描工具对源代码进行拓扑分析,提取出支撑项目运行的关键架构信息。

2. 在此基础上,任务文档的编写追求极高的严谨性与全面性,通过 “人工专家 + AI 工具” 的双重校验机制,确保每一个核心功能节点在需求描述中均无遗漏,为模型的代码生成提供准确的指引。

3. 评测环境的稳定性是确保结果可重复性的基石。为此,团队对任务相关的镜像环境进行了精细化配置,通过最小化非功能性依赖,消除了由于环境波动带来的干扰项。

每一项任务从初步草拟到最终收入评测集,都必须强制通过人工文档审核、静态工具检测、镜像环境验证以及预实验验证这四个阶段。这种全生命周期的质量控制闭环,有效排除了低质量任务对基准测试信度的影响,确保了 NL2Repo-Bench 能够真实反映 Coding Agent 在复杂工程场景下的核心竞争力。

Repo 一梭出,

一线 Coding Agent 实际表现如何?

NL2Repo-Bench 团队首次完整测试了当前最强的 Coding Agent,结果显示即便是表现最佳的 Claude4.5,整体通过率仍低于 40%,多数模型的整体表现仅在 20% 左右。

  • 任务难度上升,模型表现快速下降:真实复杂项目开发难度有效体现。
  • Claude 家族遥遥领先,GPT5 意外掉队:交互策略的缺陷明显拖累了 GPT5 表现。



NL2Repo-Bench 团队进一步分析了模型调用工具的偏好与开发策略,发现以下典型问题:

  • 早停(Early-Stop):部分模型缺乏长程规划,过早终止开发;
  • 未终止(Non-Finish):模型频繁陷入等待用户指令的状态,开发未完成;
  • 盲目编辑与导航陷阱:部分 Agent 缺乏系统性规划,浪费大量轮次在无意义操作。




消融实验 1:轮次数对模型表现的影响

NL2Repo-Bench 团队发现,交互轮次增加到 200 次左右可显著提高模型表现。此外,即便在 “开卷考试”(提供测试用例)的条件下,模型也难以突破 60 分,足见真实仓库级开发任务难度之高。



claude4.5 得分变化趋势图

消融实验 2:泄露测试用例对模型表现的影响

主实验中,CodingAgent 除了任务文档和指令外没有任何输入内容。 为了判断测试用例能否对模型的开发工作实现有效辅助,NL2Repo-Bench 团队选取 Claude4.5+ClaudeCode,在执行任务的 workspace 中注入了测试阶段的所有测试文件。



实验结果:生成阶段提供测试用例后,模型在各个难度任务的表现都有了明显的提升,但总体得分仍然偏低(59.4,低于 60 分) 。这一结果一方面表明提供测试用例的情况确实能够实现对模型开发的辅助,另一方面,依然较低的 all-pass rate 也表明了当前的 coding-agent 即使是在 “开卷考试” 的情况下也依然较难实现完整仓库的长程开发。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
最近几天大家看到西方开始公然抢劫我们在海外的资产了

最近几天大家看到西方开始公然抢劫我们在海外的资产了

百态人间
2026-02-13 15:09:39
9场进11球+绝杀!中国足球16岁1米87锋霸崛起:名嘴预言成真

9场进11球+绝杀!中国足球16岁1米87锋霸崛起:名嘴预言成真

李喜林篮球绝杀
2026-02-12 16:40:35
2023年,联邦法院裁定——李昌钰伪造证据罪名成立。

2023年,联邦法院裁定——李昌钰伪造证据罪名成立。

百态人间
2026-02-07 15:38:20
马龙迪拜度假,夏露小腹隆起被疑怀二胎,高价麻布袋吸睛

马龙迪拜度假,夏露小腹隆起被疑怀二胎,高价麻布袋吸睛

悦君兮君不知
2026-02-12 15:32:45
连续跌停!又一超级大妖股崩了?

连续跌停!又一超级大妖股崩了?

财经锐眼
2026-02-12 16:35:08
两股冷空气!广东最低3℃!汕头晴冷模式!最低14℃!

两股冷空气!广东最低3℃!汕头晴冷模式!最低14℃!

ilove汕头
2026-02-13 14:40:55
希拉里助手曾披露:为报复克林顿,希拉里私生活很混乱,依赖药物

希拉里助手曾披露:为报复克林顿,希拉里私生活很混乱,依赖药物

老范谈史
2026-01-07 14:53:22
向太一家去新加坡过年!5岁女儿像洋娃娃,郭碧婷拎包跪地像保姆

向太一家去新加坡过年!5岁女儿像洋娃娃,郭碧婷拎包跪地像保姆

动物奇奇怪怪
2026-02-13 14:34:13
就在今天!2月13日中午,国乒传来樊振东、陈梦、孙颖莎的消息

就在今天!2月13日中午,国乒传来樊振东、陈梦、孙颖莎的消息

皮皮观天下
2026-02-13 12:33:50
广东清远电子厂突然发400元以上年终奖,留厂过春节安排娱乐活动

广东清远电子厂突然发400元以上年终奖,留厂过春节安排娱乐活动

捣蛋窝
2026-02-12 06:09:57
中国公厕里的卖片小广告,如何让老外疯狂?

中国公厕里的卖片小广告,如何让老外疯狂?

酷玩实验室
2026-02-12 14:35:01
33岁失业男子开特斯拉跑货拉拉

33岁失业男子开特斯拉跑货拉拉

闪电新闻
2026-02-12 17:50:31
一百年前,日本预言家王仁三郎预言:2030年内日本将会彻底毁灭!

一百年前,日本预言家王仁三郎预言:2030年内日本将会彻底毁灭!

今日搞笑分享
2026-02-11 13:04:16
郭台铭捐出千亿身家,到底是怎么回事?

郭台铭捐出千亿身家,到底是怎么回事?

林小明商业评说
2026-01-30 23:52:01
银行员工:若你60-80岁了,一定要停止存款,原因让人意想不到

银行员工:若你60-80岁了,一定要停止存款,原因让人意想不到

王二哥老搞笑
2026-02-12 11:18:57
是时候说出真相!对越反击损失多大?光看牺牲名将之后,触目惊心

是时候说出真相!对越反击损失多大?光看牺牲名将之后,触目惊心

今夜繁星坠落
2026-02-10 03:20:25
看蒋万安给儿子们起的名字,就知道他骨子里的中国人身份,藏不住

看蒋万安给儿子们起的名字,就知道他骨子里的中国人身份,藏不住

来科点谱
2026-02-12 07:19:46
曾经的三兄弟,后来兵戎相见,三大巨头只活下TCL,历史令人唏嘘

曾经的三兄弟,后来兵戎相见,三大巨头只活下TCL,历史令人唏嘘

牛牛叨史
2026-01-29 02:25:01
海归光环已经消失?49.5万留学生涌回国,残酷真相:企业只认这个

海归光环已经消失?49.5万留学生涌回国,残酷真相:企业只认这个

南宗历史
2026-01-24 22:48:56
女星自曝炒股亏百万,从800平别墅搬到80平破屋,巅峰期隐婚退圈

女星自曝炒股亏百万,从800平别墅搬到80平破屋,巅峰期隐婚退圈

疯说时尚
2026-02-12 14:17:31
2026-02-13 16:19:00
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12303文章数 142564关注度
往期回顾 全部

科技要闻

DeepSeek更新后被吐槽变冷变傻?

头条要闻

双航母压境美国"王牌"装备尽出 伊朗被指可能很难抵御

头条要闻

双航母压境美国"王牌"装备尽出 伊朗被指可能很难抵御

体育要闻

这张照片背后,是米兰冬奥最催泪的故事

娱乐要闻

米兰冬奥摘银 谷爱凌再遭美国网友网暴

财经要闻

华莱士母公司退市 疯狂扩张下的食安隐忧

汽车要闻

探秘比亚迪巴西工厂 居然是这个画风!

态度原创

房产
教育
时尚
数码
军事航空

房产要闻

三亚新机场,又传出新消息!

教育要闻

矩形折叠,直角三角形中建立方程,初中中考几何压轴题必考题型

50+女人怎么穿更好看?过来人告诉你答案,越老越美赢麻了

数码要闻

GAMEMAX新品机箱来袭,性价比爆棚!

军事要闻

多次成功应对外舰、外机挑衅 太原舰展示052D硬核实力

无障碍浏览 进入关怀版