网易首页 > 网易号 > 正文 申请入驻

字节开源最全面代码大模型基准FullStack Bench

0
分享至

代码大模型越来越卷,评估AI编程水平的“考卷”也被迫升级。12月5日,字节豆包大模型团队开源最新代码大模型评估基准FullStack Bench,在业界首次囊括编程全栈技术中超11类真实场景,覆盖16种编程语言,包含3374个问题,相比此前基准,可以更有效地评估大模型在现实世界中的代码开发能力。

代码评估基准是衡量大模型编程能力的标准工具,也是推动模型优化的关键驱动力。不过,当前的代码评估基准覆盖的应用类型和编程语言较为有限,难以反映真实世界中代码开发场景的多样性和复杂性。

比如,主流代码评测集HumanEval和MBPP中近80%数据只聚焦基础编程和高级编程问题;DS-1000中95%数据都集中于数据分析和机器学习任务,且仅对Python语言进行评测;xCodeEval虽覆盖多项任务,但基本局限于高级编程和数学领域。

因此,字节豆包大模型团队与M-A-P开源社区联合提出FullStack Bench,一个专注于全栈编程和多语言编程的代码评估数据集。为囊括在真实全栈开发中涉及的各类应用场景,研究团队从全球最大的程序员技术问答社区Stack Overflow中随机抽取了50万个问题进行分析,筛选出占总问题数前88.1%的应用领域,并对其分布做了适当调整来保证每个领域的鲁棒性,最终形成了FullStack Bench关注的超过11种应用场景及分布比例。

FullStack Bench包含3374个问题,每个问题均包括题目描述、参考解决方案及单元测试用例,总计15168个单元测试。为保证评估准确性,问题内容均由相关领域的编程专家设计,并经AI和人工验证进行质量复核。在初始数据集构建后,团队根据主流代码大模型测试结果,按问题难度、模糊性和可解性对数据质量进行了交叉评估和进一步完善。

FullStack Bench数据集构成情况

为方便开发者对大模型代码能力进行系统性测试,豆包大模型团队还开源了一款高效的代码沙盒执行工具——SandboxFusion,用于评估来自不同语言的不同编程任务。除了FullStack Bench,SandboxFusion还兼容超过10种广泛使用的代码评估数据集,支持23种编程语言。开发者在单服务器上即可轻松部署SandboxFusion,也可直接在GitHub上进行体验。

发布评测基准及沙盒的同时,字节代码大模型也首次曝光。研究中,豆包大模型团队对全球20余款代码大模型及语言大模型的编程表现进行了评测(详见论文),其中包括未披露过的豆包代码大模型Doubao-Coder。

近半年,字节在代码大模型领域进展迅速,今年6月字节发布了由自研代码基座模型支撑的AI编程助手豆包MarsCode,目前每月为用户贡献百万量级代码。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
看哭太多人!四川男子9000工资,5000给生病的母亲,妻子闹离婚了

看哭太多人!四川男子9000工资,5000给生病的母亲,妻子闹离婚了

火山詩话
2026-02-14 06:28:40
平台喊冤:10%抽成恐难覆盖成本!代表回怼:不能总让司机买单

平台喊冤:10%抽成恐难覆盖成本!代表回怼:不能总让司机买单

议纪史
2026-02-14 20:25:05
比特币,直线跳水,超11万人爆仓!美联储降息,又生变数?

比特币,直线跳水,超11万人爆仓!美联储降息,又生变数?

证券时报e公司
2026-02-15 21:47:59
中国女子冰壶队上演惊天逆转,世界壶联回应争议时间

中国女子冰壶队上演惊天逆转,世界壶联回应争议时间

北青网-北京青年报
2026-02-15 09:48:26
女子在上海浦东机场崩溃:一辈子忘不了这天!结果奇迹突现,超10万人点赞,翟女士意外走红

女子在上海浦东机场崩溃:一辈子忘不了这天!结果奇迹突现,超10万人点赞,翟女士意外走红

新民晚报
2026-02-15 12:54:21
人到底有多坏,才能做出这种丧尽天良的事!

人到底有多坏,才能做出这种丧尽天良的事!

槽三刀
2026-02-14 21:35:46
那位替学生挡下子弹的校长,留给世界最后的身影

那位替学生挡下子弹的校长,留给世界最后的身影

教师吧
2026-02-14 22:42:35
闲置水井突喷热水变“温泉”,一个多月前曾喷水24小时后停止,目击者称水温30多度,村支书:欢迎前来投资

闲置水井突喷热水变“温泉”,一个多月前曾喷水24小时后停止,目击者称水温30多度,村支书:欢迎前来投资

极目新闻
2026-02-15 14:27:05
颠覆认知!超150万人数据证实:打牌、麻将动脑型久坐,反而有益认知健康

颠覆认知!超150万人数据证实:打牌、麻将动脑型久坐,反而有益认知健康

医诺维
2026-02-14 16:34:57
速度滑冰男子500米决赛:卫冕冠军高亭宇34秒47完赛

速度滑冰男子500米决赛:卫冕冠军高亭宇34秒47完赛

懂球帝
2026-02-15 01:09:53
奥巴马首次回应“被特朗普恶搞成猿猴 ”:曾经约束着美国公职人员的“廉耻心”和“教养”已荡然无存;特朗普此前拒绝道歉

奥巴马首次回应“被特朗普恶搞成猿猴 ”:曾经约束着美国公职人员的“廉耻心”和“教养”已荡然无存;特朗普此前拒绝道歉

扬子晚报
2026-02-15 16:35:20
北约秘书长回应叫特朗普“爸爸”:是我英语不好造成的,已经接受现实

北约秘书长回应叫特朗普“爸爸”:是我英语不好造成的,已经接受现实

新民周刊
2026-02-15 09:38:07
丈夫买2000多烟花过年!江苏妻子发帖痛斥,平常给生活费抠得要死

丈夫买2000多烟花过年!江苏妻子发帖痛斥,平常给生活费抠得要死

火山詩话
2026-02-15 12:20:39
泽连斯基:已收到美国为期15年的安全保障提案,但乌方希望期限为30至50年

泽连斯基:已收到美国为期15年的安全保障提案,但乌方希望期限为30至50年

大风新闻
2026-02-15 15:23:15
哈登爽了!你好,DPOY!骑士四巨头即将合体

哈登爽了!你好,DPOY!骑士四巨头即将合体

篮球实战宝典
2026-02-15 17:39:57
拾荒老人被踹后续:知情人曝光:“飞车党”作恶 ,结局大快人心

拾荒老人被踹后续:知情人曝光:“飞车党”作恶 ,结局大快人心

社会日日鲜
2026-02-15 08:13:12
香槟开早了!杨文龙提前庆祝导致摔倒,遗憾无缘坡障技巧决赛

香槟开早了!杨文龙提前庆祝导致摔倒,遗憾无缘坡障技巧决赛

懂球帝
2026-02-15 20:05:20
俄军星链使用权限被取消,战场通信瘫痪,俄方却拿不出替代方案

俄军星链使用权限被取消,战场通信瘫痪,俄方却拿不出替代方案

百科密码
2026-02-13 15:53:04
俄15架苏-57隐身战机全调远东,距中国不到400公里,释放何信号?

俄15架苏-57隐身战机全调远东,距中国不到400公里,释放何信号?

策前论
2026-02-14 17:57:15
四川汶川发生地震

四川汶川发生地震

浙江之声
2026-02-15 16:45:38
2026-02-15 22:47:00
智东西 incentive-icons
智东西
聚焦智能变革,服务产业升级。
11235文章数 116972关注度
往期回顾 全部

科技要闻

发春节红包的大厂都被约谈了

头条要闻

TikTok大量老外介绍自己:Ni hao 我们都是中国人了

头条要闻

TikTok大量老外介绍自己:Ni hao 我们都是中国人了

体育要闻

最戏剧性的花滑男单,冠军为什么是他?

娱乐要闻

河南春晚被骂上热搜!大量广告满屏AI

财经要闻

谁在掌控你的胃?起底百亿"飘香剂"江湖

汽车要闻

奔驰中国换帅:段建军离任,李德思接棒

态度原创

本地
亲子
游戏
公开课
军事航空

本地新闻

春花齐放2026:《骏马奔腾迎新岁》

亲子要闻

3岁女儿在奶奶家吃到好吃的,打包回家带给妈妈吃,爸爸羡慕坏了

大话西游手游五福临门怎么玩?想拿高分一定要凑出来五福临门

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

特朗普:在俄乌冲突问题上 泽连斯基必须行动起来

无障碍浏览 进入关怀版