网易首页 > 网易号 > 正文 申请入驻

字节开源全栈AI编程基准,不小心曝光豆包代码大模型

0
分享至

允中 发自 凹非寺
量子位 | 公众号 QbitAI

豆包代码大模型,不小心给曝光了!

在字节开源的代码大模型评估基准FullStack Bench里面,出现了此前字节未披露过的Doubao-Coder。

不过目前还只是Preview版,还并没有上线。

它在多种编程语言上的性能表现如下,可以看到在闭源模型中排名第五。

今年6月,字节还发布了AI编程助手豆包MarsCode。据传即由Doubao-Coder模型支撑。

目前,豆包MarsCode每月为用户贡献百万量级代码。

而回到这个评估基准,据介绍FullStack Bench是目前最全面的代码评估数据集。

团队还同步开源了可随时测评代码大模型的沙盒执行环境SandBox Fusion,单服务器即可部署,也可直接在线体验

全新代码大模型评估基准FullStack Bench

既然如此,那就先来了解一下这个最新评估基准。

有一说一,现在代码大模型越来越卷,评估AI编程水平的“考卷”也被迫升级~

代码评估基准可以帮助代码大模型不断优化。不过,当前的主流基准越来越难以反映代码大模型的真实水平了。

主要体现在题目类型相对单调,覆盖的应用领域和编程语言少,模型即便在考试中拿了高分,现实中可能还是难以应对复杂的编程问题。

为了更真实地评估AI编程水平,字节豆包大模型团队联合M-A-P社区,开源了全新代码大模型评估基准FullStack Bench

这是一个专注于全栈编程和多语言编程的代码评估数据集,它首次囊括了编程全栈技术中超过11类真实场景,覆盖16种编程语言,包含3374个问题。

FullStack Bench的应用领域抽取自全球最大的程序员技术问答社区Stack Overflow,相比HumanEval等基准覆盖的编程领域扩大了一倍以上。

此前业界基准难以反映真实世界代码开发的多样性和复杂性。

例如,HumanEval和MBPP中近80%数据只聚焦于基础编程和高级编程问题;DS-1000中超过95%数据集中于数据分析和机器学习,且仅对Python语言进行评测;xCodeEval虽覆盖多项任务,但基本局限于高级编程和数学领域;McEval和MDEval扩展了支持的编程语言,但应用领域仍局限于基础编程和高级编程,未涉及更广泛的场景。

为模拟全栈开发的实际应用场景,字节豆包大模型和M-A-P研究团队分析了全球最大的程序员技术问答社区Stack Overflow上的问题分布,从中提炼出常见的真实编程应用领域。

团队从Stack Overflow上随机抽取了50万个问题,并使用大模型为每个问题标注应用领域类型。

研究团队筛选出占总问题数前88.1%的主要应用领域,其余领域归类为“其他”。再通过对领域分布做适当调整来保证鲁棒性,最终形成了FullStack Bench关注的超过11种应用场景及分布比例。

FullStack Bench包含3374个问题(中文及英文问题各占一半),每个问题均包括题目描述、参考解决方案、单元测试用例及标签,总计15168个单元测试。

为保证评估准确性,每个问题内容均由相关领域的编程专家设计,并经AI和人工验证进行质量复核。例如,数据分析相关问题,由数据工程专家提出并把关配套内容。

在初始数据集构建后,团队根据主流代码大模型测试结果,按问题难度、模糊性和可解性对数据质量进行了交叉评估和进一步完善。

FullStack Bench数据构成情况如下图所示。

为方便开发者对大模型代码能力进行系统性测试,豆包大模型团队还开源了一款高效的代码沙盒执行工具——SandboxFusion,用于评估来自不同语言的不同编程任务。

除了FullStack Bench,SandboxFusion还兼容超过10种广泛使用的代码评估数据集,支持23种编程语言。开发者在单服务器上即可轻松部署SandboxFusion,也可直接在GitHub上进行体验。

评测结果:解决难题,闭源模型仍优于开源模型

发布评测基准及沙盒的同时,研究团队也基于FullStack Bench测评了全球20余款代码大模型及语言大模型的编程表现。

模型包括Qwen2.5-Coder、DeepSeek-Coder-v2、CodeLlama等开源模型,以及GPT-4o、OpenAI-o1、Doubao-Coder-Preview等闭源模型。对于开源模型,根据模型大小,分为五个组别:1B+、6B+、13B+、20B+和70B+。

跨领域表现:数学编程领域差异最大

得益于强大的推理能力,OpenAI o1-preview不出所料地领先。

不过,一些开源模型也有不错的表现。如DeepSeekCoderv2-Instruct,在AP(高级编程)、OS(操作系统)和其他类别中得到高分,拉开了与其他开源模型的差距。

OpenCoder-1.5B-Instruct、Qwen2.5-Coder-7B-Instruct、Qwen2.5-Coder-14B-Instruct在其各自开源组别中拔得头筹,并超越了一些更高参数级别的模型。

为了全面评估现有大语言模型在不同场景下的表现,研究团队可视化了模型在FullStack Bench各领域的表现。

在BP(基础编程)、AP(高级编程)、MA(数学编程)、ML(机器学习)和MM(多媒体)等领域中,模型表现差异显著,其中以MA领域的差距最大

MA最佳表现者为OpenAI o1-preview(得分80.42),而最差的是CodeLlama-34B-Instruct(得分14.34)。数学编程要求模型同时具备数学和编程能力,那些在高度专业化代码语料库上训练的模型,在MA领域往往表现较差。

这一结果进一步证明,FullStack Bench能够更全面地评估模型的综合编程能力。

跨语言表现:C++、C和Ruby上存较大差异

研究团队对不同模型在多种编程语言上的性能表现进行了分析。

大多数模型在Bash编程任务中表现良好。然而,在C++、C和Ruby的表现上存在较大差异,这表明模型设计者可能在训练语料库中对这些语言进行了选择性采样。部分1B+的小型模型在D、R和Scala语言上的表现较差,其通过率低于10%,这表明它们的多语言处理能力都较弱。

由于SandboxFusion提供了来自编译器的反馈,研究人员评估了模型在部分编程语言上的编译通过率。实验结果表明,编译通过率与测试通过率之间存在正相关关系,但编译通过并不意味着测试一定通过。同时,研究还探讨了中英文表达对模型性能的影响。

解决难题,闭源模型普遍优于开源模型

不同模型在不同难度问题上的表现存在明显差异。总体而言,1B+模型和CodeLlama系列在所有难度级别上的表现均不尽如人意。其余模型在解决简单问题时表现相似,但在中等难度问题上存在一定差距。对于难度较大的问题,闭源模型普遍优于开源模型。

使用SandboxFusion,可提升模型表现

研究人员对比了“反思策略(Reflection)”和“N次推断策略(BoN)”两种策略。在Reflection策略中,通过利用SandboxFusion的反馈上下文对答案进行N次精炼,复现了自我精炼策略 [Madaan et al., 2024]。而在BoN策略中,仅进行N次推断以获得结果。

结果如图所示,“Reflection”策略明显优于“BoN”,这表明SandboxFusion提供的反馈上下文具有较高的有效性。

了解这篇研究的详情,可见文内Arxiv链接,或关注「豆包大模型团队」公众号,查阅更详细解读。

参考链接:
[1]论文链接:https://arxiv.org/pdf/2412.00535v2
[2]数据集开源地址:https://huggingface.co/datasets/ByteDance/FullStackBench
[3]沙盒开源地址:https://github.com/bytedance/SandboxFusion
[4]沙盒体验入口:https://bytedance.github.io/SandboxFusion/playground/datasets

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
7万人狂嘘!7亿曼联耻辱1-1:4轮1胜+赢不了倒数第1 对手已12连败

7万人狂嘘!7亿曼联耻辱1-1:4轮1胜+赢不了倒数第1 对手已12连败

风过乡
2025-12-31 06:37:54
儿子和同学打架,妈妈去道歉竟被侵犯并怀孕,事后对方不承认!

儿子和同学打架,妈妈去道歉竟被侵犯并怀孕,事后对方不承认!

极品小牛肉
2025-08-31 13:27:17
40岁C罗背部折射破门!激动狂奔+SIU庆祝 一整年未戴帽近15年首次

40岁C罗背部折射破门!激动狂奔+SIU庆祝 一整年未戴帽近15年首次

我爱英超
2025-12-31 04:22:16
一记重拳落下来了。12月25日公安部那个会,听得人心惊肉跳

一记重拳落下来了。12月25日公安部那个会,听得人心惊肉跳

百态人间
2025-12-30 16:08:35
续任蓝营大党鞭,傅崐萁喊下会期“起义”:民进党设限处都要突破

续任蓝营大党鞭,傅崐萁喊下会期“起义”:民进党设限处都要突破

海峡导报社
2025-12-31 16:44:03
男子发现妻子胸口有可疑痕迹,到医院检查后,医生:立即联系警察

男子发现妻子胸口有可疑痕迹,到医院检查后,医生:立即联系警察

眼泪博物
2025-08-07 16:47:38
湖北宜昌多人在工地挖掘玛瑙,当地街道办:价值不太高

湖北宜昌多人在工地挖掘玛瑙,当地街道办:价值不太高

大风新闻
2025-12-31 15:04:23
有人预测:2026年,这5样“东西”会严重贬值,普通人可不要碰!

有人预测:2026年,这5样“东西”会严重贬值,普通人可不要碰!

蜉蝣说
2025-12-31 11:02:51
张怡宁参加婚礼哭了,64岁丈夫一直咳嗽,看着很老,还是袁立前任

张怡宁参加婚礼哭了,64岁丈夫一直咳嗽,看着很老,还是袁立前任

一娱三分地
2025-06-11 20:53:37
云南副局长出轨被抓:不雅画面流出,三人对话内容曝光,原配被扒

云南副局长出轨被抓:不雅画面流出,三人对话内容曝光,原配被扒

博士观察
2025-12-30 18:59:06
窦文涛《圆桌派》不嫌丢人吗

窦文涛《圆桌派》不嫌丢人吗

智识漂流
2025-12-30 18:31:38
普京再签征兵令,乌克兰还能撑多久?德军参战又如何?

普京再签征兵令,乌克兰还能撑多久?德军参战又如何?

十柱
2025-12-31 15:41:56
告别工体!26岁国脚方昊转会加盟浙江队,北京国安获得转会费!

告别工体!26岁国脚方昊转会加盟浙江队,北京国安获得转会费!

海浪星体育
2025-12-31 15:13:44
4.7海里!我军演习只差一步登岛,郑丽文发声,“台独”大限将至

4.7海里!我军演习只差一步登岛,郑丽文发声,“台独”大限将至

刘森森
2025-12-30 15:41:47
2026老人公交新规:免费不取消!65岁起享,身份证可刷

2026老人公交新规:免费不取消!65岁起享,身份证可刷

李博世财经
2025-12-31 11:48:17
部分地区中雪!江苏发布最新全省雨雪落区预报图

部分地区中雪!江苏发布最新全省雨雪落区预报图

现代快报
2025-12-31 12:41:03
国民党中央委员选举结果出炉,朱立伦狂喜,连战布局,郑丽文失意

国民党中央委员选举结果出炉,朱立伦狂喜,连战布局,郑丽文失意

介知
2025-12-30 14:23:04
“黄河画家”徐惠君126平尺巨幅画作被人无意“泼墨”,本人称:该画作估价380万元,不会追查肇事者,希望网友提供补救建议,让墨渍成为神来之笔

“黄河画家”徐惠君126平尺巨幅画作被人无意“泼墨”,本人称:该画作估价380万元,不会追查肇事者,希望网友提供补救建议,让墨渍成为神来之笔

极目新闻
2025-12-29 20:27:57
冲突结束,柬泰防长终于握手,王毅早已告知全球,洪森儿媳妇哽咽

冲突结束,柬泰防长终于握手,王毅早已告知全球,洪森儿媳妇哽咽

铁血论古今
2025-12-31 10:57:29
广东男篮为何能8连胜登顶?4项数据高居第一!杜锋革新终于见成效

广东男篮为何能8连胜登顶?4项数据高居第一!杜锋革新终于见成效

萌兰聊个球
2025-12-31 09:03:06
2025-12-31 18:28:49
量子位 incentive-icons
量子位
追踪人工智能动态
11951文章数 176355关注度
往期回顾 全部

科技要闻

老罗,演砸了,也封神了?

头条要闻

新车撞上花坛报保险发现两公司都有保单 车店称填错了

头条要闻

新车撞上花坛报保险发现两公司都有保单 车店称填错了

体育要闻

2025全球射手榜:姆巴佩66球 梅西第6C罗第9

娱乐要闻

林俊杰女友被扒 父亲涉经济案卷款13亿?

财经要闻

高培勇:分配制度改革是提振消费的抓手

汽车要闻

凯迪拉克纯电中型SUV 售价不足24万/33寸曲面屏

态度原创

健康
旅游
手机
家居
公开课

元旦举家出行,注意防流感

旅游要闻

古塔灯海 红楼入梦 南京三场跨年盛宴点亮文化新年

手机要闻

外媒前瞻iOS 27:将适配折叠iPhone,iPadOS功能下放

家居要闻

无形有行 自然与灵感诗意

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版