网易首页 > 网易号 > 正文 申请入驻

字节跳动Seed发布NL2Repo-Bench仓库级长程代码生成基准

0
分享至

来源:市场资讯

(来源:机器之心Pro)


在 AI 编程领域,大家似乎正处于一个认知错觉的顶点:随着 Coding Agents 独立完成任务的难度和范围逐渐增加,Coding 领域的 AGI 似乎就可以实现?

然而,真正的工程师都知道,写代码的灵魂不在于file/function level的 code creation,而是 project level 的 code completion。写了很长时间的代码,不代表项目做完,更不代表项目做好了。

一个完整的项目开发要求开发者从一个空文件夹开始,理解上万 token 的需求,设计架构、管理多模态逻辑,并产出可安装、可运行的代码仓库。然而现有代码评测基准主要集中在局部代码生成(如 HumanEval、MBPP)或在已有代码库上进行修复(如 SWE-bench)。

近日,首个专门评估编码智能体端到端仓库生成能力的基准测试 ——NL2Repo-Bench 正式发布。它由字节跳动 Seed、南京大学、北京大学等多家机构的研究者联合打造,发布后受到广泛关注。


Show me your Repo,

NL2Repo 如何考察 Coding Agent 从 0 到 1 工作能力?

在 OpenAI 对通用人工智能(AGI)的定义中,AGI 需要在大多数具有经济价值的任务上达到或超过人类表现。在软件工程领域,这种愿景意味着开发方式的颠覆式变化:人类只需提供需求,Coding Agent 即可独立完成开发、调试、部署等全部环节,人类不再需要直接写代码。

与以往依赖 LLM 评分或对已有代码仓库进行修改的基准不同,NL2Repo-Bench 的设计亮点在于从 “人类不再需要直接写代码 " 的终极愿景出发,设计了极其严格的 “零代码执行评估” 机制。该基准要求智能体面对完全真空的初始工作空间,仅通过平均长度超 1.8 万 token 的长篇需求说明,自主进行需求理解、开发、测试、多文件协同管理等全链路工作。

简单来说,NL2Repo 团队从 GitHub 挑选了 104 个拥有完备 pytest 测试用例的 Python 开源项目。实验过程中,不同的 Coding Agent 需要根据专家构建的高质量需求文档,从零复现整个仓库,并以项目原有的测试用例作为基准来评估复现效果。

NL2Repo-Bench 是如何构建评测的?

首先是任务选取。

构建 NL2Repo-Bench 这一基准评测数据集的首要挑战在于,如何从海量的 GitHub 开源仓库中萃取出具备高技术含量且可验证的黄金样本。

为了利用可验证的真值(Ground Truth)评估仓库级代码生成能力,NL2Repo-Bench 从具有模块化架构和权威 pytest 测试套件的真实 Python 库中提取任务。Coding Agent 仅接收单一的自然语言规范,必须从零开始重建完整的仓库,包括文件结构和功能逻辑。正确性严格通过在原始上游测试套件中运行生成的代码来衡量。

为了确保评测数据的现实意义与技术深度,团队在筛选流程设定了多维度的准入门槛:

选择 Python Library 级别的仓库作为目标,正是因为其开源属性与规范化程度完美契合了这一验证机制,带有完备的测试用例等特征,为评估大模型在仓库级代码生成上的真实表现提供了科学的实验场。


评测构建流程图

任务覆盖方面,NL2RepoBench 包含 104 个真实 Python 仓库级任务,涵盖工具类、框架类、算法类等多个主流 Python 库类别,严格考察 Agent 从自然语言文档出发独立开发可直接运行、可部署的软件仓库能力。

如何消除 Coding Agent 评估过程中的随机性?

需求文档 + 评测环境 + 全流程 QC

在保障 NL2Repo-Bench 任务文档质量的过程中,构建团队确立了一套严密的自动化工具与人工深度参与相结合的验证体系。


NL2Repo 任务文档示例

1. 为了精准锁定仓库的核心功能节点,技术团队首先利用静态扫描工具对源代码进行拓扑分析,提取出支撑项目运行的关键架构信息。

2. 在此基础上,任务文档的编写追求极高的严谨性与全面性,通过 “人工专家 + AI 工具” 的双重校验机制,确保每一个核心功能节点在需求描述中均无遗漏,为模型的代码生成提供准确的指引。

3. 评测环境的稳定性是确保结果可重复性的基石。为此,团队对任务相关的镜像环境进行了精细化配置,通过最小化非功能性依赖,消除了由于环境波动带来的干扰项。

每一项任务从初步草拟到最终收入评测集,都必须强制通过人工文档审核、静态工具检测、镜像环境验证以及预实验验证这四个阶段。这种全生命周期的质量控制闭环,有效排除了低质量任务对基准测试信度的影响,确保了 NL2Repo-Bench 能够真实反映 Coding Agent 在复杂工程场景下的核心竞争力。

Repo 一梭出,

一线 Coding Agent 实际表现如何?

NL2Repo-Bench 团队首次完整测试了当前最强的 Coding Agent,结果显示即便是表现最佳的 Claude4.5,整体通过率仍低于 40%,多数模型的整体表现仅在 20% 左右。


NL2Repo-Bench 团队进一步分析了模型调用工具的偏好与开发策略,发现以下典型问题:


消融实验 1:轮次数对模型表现的影响

NL2Repo-Bench 团队发现,交互轮次增加到 200 次左右可显著提高模型表现。此外,即便在 “开卷考试”(提供测试用例)的条件下,模型也难以突破 60 分,足见真实仓库级开发任务难度之高。


claude4.5 得分变化趋势图

消融实验 2:泄露测试用例对模型表现的影响

主实验中,CodingAgent 除了任务文档和指令外没有任何输入内容。 为了判断测试用例能否对模型的开发工作实现有效辅助,NL2Repo-Bench 团队选取 Claude4.5+ClaudeCode,在执行任务的 workspace 中注入了测试阶段的所有测试文件。


实验结果:生成阶段提供测试用例后,模型在各个难度任务的表现都有了明显的提升,但总体得分仍然偏低(59.4,低于 60 分) 。这一结果一方面表明提供测试用例的情况确实能够实现对模型开发的辅助,另一方面,依然较低的 all-pass rate 也表明了当前的 coding-agent 即使是在 “开卷考试” 的情况下也依然较难实现完整仓库的长程开发。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
北平解放时,末代摄政王载沣召集全府上下,当场废除40年的旧规矩

北平解放时,末代摄政王载沣召集全府上下,当场废除40年的旧规矩

鉴史录
2026-04-30 22:29:37
52岁大妈:旅游时偶遇大学同学,两人做了错事,要跟老公坦白吗?

52岁大妈:旅游时偶遇大学同学,两人做了错事,要跟老公坦白吗?

热心柚子姐姐
2026-04-30 09:15:27
68岁京城老炮“四宝子”大婚!妻子小其30多岁,发小加代家人缺席

68岁京城老炮“四宝子”大婚!妻子小其30多岁,发小加代家人缺席

观察鉴娱
2026-05-01 08:55:16
正式确认!勇士重启交易,1.49亿前锋或加盟,库里的冠军梦全靠他

正式确认!勇士重启交易,1.49亿前锋或加盟,库里的冠军梦全靠他

体育大朋说
2026-05-01 13:45:03
五一档电影:10间敢死队全差评,寒战1994拉胯,没想到这部爆冷

五一档电影:10间敢死队全差评,寒战1994拉胯,没想到这部爆冷

往史过眼云烟
2026-05-01 19:28:30
湖南两则新闻,每个字都写满了“荒诞”!

湖南两则新闻,每个字都写满了“荒诞”!

胖胖说他不胖
2026-05-01 16:22:53
蛇吞象?生产歼-20的中国军工巨头174亿就被收购了,用意耐人寻味

蛇吞象?生产歼-20的中国军工巨头174亿就被收购了,用意耐人寻味

趣文说娱
2026-04-23 19:52:36
新一轮救市,开启了

新一轮救市,开启了

地产观点
2026-05-02 08:00:19
最新官宣!山东5月起统一调整,60周岁以上老人出游不用再买门票

最新官宣!山东5月起统一调整,60周岁以上老人出游不用再买门票

林子说事
2026-05-01 19:55:14
一价定生死,7款SUV公布价格,谁真狠,谁在硬撑

一价定生死,7款SUV公布价格,谁真狠,谁在硬撑

沙雕小琳琳
2026-05-01 20:06:24
廖凡:25年不拼爹的星二代,妻子是周星驰黄金搭档

廖凡:25年不拼爹的星二代,妻子是周星驰黄金搭档

笑饮孤鸿非
2026-05-01 05:36:41
中国有一座无人敢提及的城市,没有名称,只有一个代号叫404

中国有一座无人敢提及的城市,没有名称,只有一个代号叫404

超级数学建模
2026-05-01 22:40:26
汤尤杯第8日:石宇奇回归,国羽横扫大马约战丹麦,法国死磕印度

汤尤杯第8日:石宇奇回归,国羽横扫大马约战丹麦,法国死磕印度

钉钉陌上花开
2026-05-02 06:30:25
把瑜伽裤穿成日常的松弛感美女

把瑜伽裤穿成日常的松弛感美女

只要高兴就好
2026-04-13 14:30:30
这是迄今为止,我见过身材最美的女人之一,不接受反驳

这是迄今为止,我见过身材最美的女人之一,不接受反驳

小椰的奶奶
2026-04-11 12:33:07
国际油价5月1日下跌

国际油价5月1日下跌

齐鲁壹点
2026-05-02 07:32:26
孩子脱臼复位只收100元,家长举报乱收费!卫健委:应收110元,你还少给了!家长拒缴费后离开!

孩子脱臼复位只收100元,家长举报乱收费!卫健委:应收110元,你还少给了!家长拒缴费后离开!

医脉圈
2026-04-25 20:04:06
34年京城粤菜顶流“跑路”,6万元储值卡秒废,高端餐饮还靠谱吗

34年京城粤菜顶流“跑路”,6万元储值卡秒废,高端餐饮还靠谱吗

椰青美食分享
2026-05-01 18:55:09
西安泡馍遭网友怒批,贵价引发舆论风波!

西安泡馍遭网友怒批,贵价引发舆论风波!

阿天爱旅行
2026-05-01 08:58:38
霍尔木兹海峡,传来大消息!特朗普、伊朗最高领袖发声!美股、黄金、原油突变

霍尔木兹海峡,传来大消息!特朗普、伊朗最高领袖发声!美股、黄金、原油突变

证券时报e公司
2026-05-02 08:01:50
2026-05-02 08:36:49
新浪财经 incentive-icons
新浪财经
新浪财经是一家创建于1999年8月的财经平台
3094979文章数 7060关注度
往期回顾 全部

科技要闻

AI热潮耗尽库存,Mac Mini起售调高200美元

头条要闻

男子因健身设备锁扣崩断被弹飞致瘫痪 监控无法调取

头条要闻

男子因健身设备锁扣崩断被弹飞致瘫痪 监控无法调取

体育要闻

无奈!约基奇:这要在塞尔维亚 全队早被炒了

娱乐要闻

马筱梅产后身材恢复超好 现身户外直播

财经要闻

雷军很努力 小米还是跌破了30港元大关

汽车要闻

限时9.67万起 吉利星越L/星瑞i-HEV智擎混动上市

态度原创

艺术
亲子
旅游
公开课
军事航空

艺术要闻

画画的你绝不能错过!色块与笔触的激情之旅!

亲子要闻

分享我独特的带娃方式

旅游要闻

陪盲人一起春游,他们看不见,出去玩的乐趣是什么?

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

特朗普:对伊战事结束 无限期延长停火

无障碍浏览 进入关怀版