网易首页 > 网易号 > 正文 申请入驻

字节开源最全面代码大模型基准FullStack Bench

0
分享至

代码大模型越来越卷,评估AI编程水平的“考卷”也被迫升级。12月5日,字节豆包大模型团队开源最新代码大模型评估基准FullStack Bench,在业界首次囊括编程全栈技术中超11类真实场景,覆盖16种编程语言,包含3374个问题,相比此前基准,可以更有效地评估大模型在现实世界中的代码开发能力。

代码评估基准是衡量大模型编程能力的标准工具,也是推动模型优化的关键驱动力。不过,当前的代码评估基准覆盖的应用类型和编程语言较为有限,难以反映真实世界中代码开发场景的多样性和复杂性。

比如,主流代码评测集HumanEval和MBPP中近80%数据只聚焦基础编程和高级编程问题;DS-1000中95%数据都集中于数据分析和机器学习任务,且仅对Python语言进行评测;xCodeEval虽覆盖多项任务,但基本局限于高级编程和数学领域。

因此,字节豆包大模型团队与M-A-P开源社区联合提出FullStack Bench,一个专注于全栈编程和多语言编程的代码评估数据集。为囊括在真实全栈开发中涉及的各类应用场景,研究团队从全球最大的程序员技术问答社区Stack Overflow中随机抽取了50万个问题进行分析,筛选出占总问题数前88.1%的应用领域,并对其分布做了适当调整来保证每个领域的鲁棒性,最终形成了FullStack Bench关注的超过11种应用场景及分布比例。

FullStack Bench包含3374个问题,每个问题均包括题目描述、参考解决方案及单元测试用例,总计15168个单元测试。为保证评估准确性,问题内容均由相关领域的编程专家设计,并经AI和人工验证进行质量复核。在初始数据集构建后,团队根据主流代码大模型测试结果,按问题难度、模糊性和可解性对数据质量进行了交叉评估和进一步完善。

FullStack Bench数据集构成情况

为方便开发者对大模型代码能力进行系统性测试,豆包大模型团队还开源了一款高效的代码沙盒执行工具——SandboxFusion,用于评估来自不同语言的不同编程任务。除了FullStack Bench,SandboxFusion还兼容超过10种广泛使用的代码评估数据集,支持23种编程语言。开发者在单服务器上即可轻松部署SandboxFusion,也可直接在GitHub上进行体验。

发布评测基准及沙盒的同时,字节代码大模型也首次曝光。研究中,豆包大模型团队对全球20余款代码大模型及语言大模型的编程表现进行了评测(详见论文),其中包括未披露过的豆包代码大模型Doubao-Coder。

近半年,字节在代码大模型领域进展迅速,今年6月字节发布了由自研代码基座模型支撑的AI编程助手豆包MarsCode,目前每月为用户贡献百万量级代码。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
G2绝杀广厦发布会!卢伟亲承不容易,批球队罚球,谈双大外很无奈

G2绝杀广厦发布会!卢伟亲承不容易,批球队罚球,谈双大外很无奈

篮球资讯达人
2026-05-28 22:48:46
CBA总决赛G2战又变卦了?篮协再次出手了:中国裁判将回归吹罚!

CBA总决赛G2战又变卦了?篮协再次出手了:中国裁判将回归吹罚!

篮球快餐车
2026-05-28 03:15:06
袁立不再隐忍,公开与陈建斌的真实关系,原来我们都被骗了?

袁立不再隐忍,公开与陈建斌的真实关系,原来我们都被骗了?

八斗小先生
2026-05-28 18:57:10
证监会发言定乾坤!神秘力量进场护盘!A股午后反击只是开始?

证监会发言定乾坤!神秘力量进场护盘!A股午后反击只是开始?

丁丁鲤史纪
2026-05-28 18:53:50
科学家称:意识不是大脑的产物,它可能是宇宙本身的底层结构

科学家称:意识不是大脑的产物,它可能是宇宙本身的底层结构

玲儿爱唱歌
2026-05-27 14:43:32
接力爆涨!两大电力央企彻底火了!

接力爆涨!两大电力央企彻底火了!

格隆汇
2026-05-28 19:30:21
央视曝光4种“致癌日用品”,家里千万别囤!很多人还被蒙在鼓里

央视曝光4种“致癌日用品”,家里千万别囤!很多人还被蒙在鼓里

39健康网
2026-05-27 10:32:46
从泡药杨梅事件看安徽茶叶

从泡药杨梅事件看安徽茶叶

闲侃闲侃
2026-05-28 19:32:20
贵州大学招聘管理岗要求配偶为本校在职博士,校方回应

贵州大学招聘管理岗要求配偶为本校在职博士,校方回应

现代快报
2026-05-28 19:50:05
文班的沉默震耳欲聋:他输球后做了什么,让整个联盟“震惊”?

文班的沉默震耳欲聋:他输球后做了什么,让整个联盟“震惊”?

老刘爱运动
2026-05-28 12:39:14
17万美元的中国豪车:40个音箱+40英寸屏,对标迈巴赫

17万美元的中国豪车:40个音箱+40英寸屏,对标迈巴赫

我是一个粉刷匠2
2026-05-27 04:34:37
她带弟弟进入娱乐圈,没想到如今自己无人问津,弟弟却红透半边天

她带弟弟进入娱乐圈,没想到如今自己无人问津,弟弟却红透半边天

冷紫葉
2026-05-28 21:24:12
夺我企业,侵我领空,闯我国境!荷兰想趁势出手,解放军反制来了

夺我企业,侵我领空,闯我国境!荷兰想趁势出手,解放军反制来了

梦史
2026-05-28 23:08:44
正式确认!杨瀚森重磅回归!已经等了整整1年时间

正式确认!杨瀚森重磅回归!已经等了整整1年时间

篮球实战宝典
2026-05-28 18:18:17
苏振任会同县委书记

苏振任会同县委书记

湖南法治报
2026-05-28 15:05:22
柯文哲曾言:若大陆胆敢对台湾出手,我随随便便就能让大陆瘫痪?

柯文哲曾言:若大陆胆敢对台湾出手,我随随便便就能让大陆瘫痪?

趣文说娱
2026-05-27 21:36:10
海参崴军装闹剧:谁在借“红军符号”操弄历史?幕后黑手必须揪出

海参崴军装闹剧:谁在借“红军符号”操弄历史?幕后黑手必须揪出

律法刑道
2026-05-27 15:12:23
广厦输G2揪出祸首!末节0分+4犯+三不沾+多次送三罚球,坑惨球队

广厦输G2揪出祸首!末节0分+4犯+三不沾+多次送三罚球,坑惨球队

南海浪花
2026-05-28 22:47:25
西决G6要崩?马刺雷霆伤情更新!带伤也要打,为了晋级真拼了!

西决G6要崩?马刺雷霆伤情更新!带伤也要打,为了晋级真拼了!

你的篮球频道
2026-05-28 09:39:44
生男生女取决于父亲?错!研究发现:决定孩子性别的人是妈妈

生男生女取决于父亲?错!研究发现:决定孩子性别的人是妈妈

菁妈育儿
2026-05-28 07:25:56
2026-05-29 00:08:49
智东西 incentive-icons
智东西
智东西,AI产业新媒体,专注报道人工智能的前沿技术发展,和技术应用带来的千行百业产业变革。
11922文章数 117086关注度
往期回顾 全部

科技要闻

利润跌27%:快手只剩“可灵”这张牌?

头条要闻

男子养了3万多只鸭子雨后被冲走2万多只:损失70多万

头条要闻

男子养了3万多只鸭子雨后被冲走2万多只:损失70多万

体育要闻

唐斯经历的一切,此刻的他与尼克斯

娱乐要闻

林俊杰七七与大哥嫂子的瓜剪不断理还乱

财经要闻

小米仍需一次创业

汽车要闻

宋Ultra DM-i售12.99万起 选装天神之眼B承诺一年城市领航兜底

态度原创

数码
艺术
本地
公开课
军事航空

数码要闻

慧荣发布AI负载优化SSD主控SM2524XT:14GB/s,DRAM-less

艺术要闻

蚂蚁新总部封顶了!大圆环到底有啥魔力

本地新闻

用剪纸的方式,打开江苏扬州

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

美锁定伊朗打击新目标 考虑重启军事行动

无障碍浏览 进入关怀版