网易首页 > 网易号 > 正文 申请入驻

豆包1.5Pro重磅更新!7倍MoE性能杠杆,"不使用任何其他模型数据"

0
分享至

鱼羊 发自 凹非寺
量子位 | 公众号 QbitAI

春节前这一波大模型疯狂加更,字节也出手了,最新登场的是豆包全新基础模型——

Doubao-1.5-pro

豆包“演技精湛”的真人级语音对话功能刚刷屏,仅隔一天,背后基础模型字节也给抖落出来了。

先欣赏一波此豆包的演出:

基础模型登场,背后团队不仅放出细节满满的技术博客,还亲自给划了重点:

  • MoE架构,仅用较小激活参数,就能达到世界一流模型性能,性能杠杆达到7倍
  • 数据生产体系高度自主,不使用任何其他模型数据
  • 多模态能力全面提升

更妙的是,Doubao-1.5-pro官宣即上线,火山方舟体验网址同步开放,同时也在豆包APP灰度上线。

这还等什么,当然是第一时间上手实测啦。

就着技术博客,我们也来扒一扒背后更多技术细节,一起往下看~

实测豆包1.5系列

Talk is cheap,show me the product。

官方提到,Doubao-1.5-pro模型综合能力有显著增强,在知识、代码、推理、中文等多个权威测评基准上都达到SOTA。

那么首先,来看现在大模型圈最卷的推理能力。

推理能力实测

先简单来道逻辑判断题,看看Doubao-1.5-pro能不能接住。

某校食堂发生了一起严重的食物中毒事故,关于事故的原因,有如下四种说法:
甲:事故是由食物过期引起的
乙:如果事故是由食物过期引起的,那么食堂管理方面一定存在着监管不到位的现象
丙:事故确实是由食物过期引起,但食堂管理方面并不存在监管不到位的现象
丁:事故不是由食物过期引起的,但食堂管理方面存在监管不到位的现象
如果上述四种说法中只有一种是真的,由此可以推出
A. 乙为真,且食堂存在监管不到位的现象
B. 乙为真,但食堂没有存在监管不到位的现象
C. 甲为真
D. 丙为真

Doubao-1.5-pro的回答是酱婶的:

思路梳理得非常清晰,答案也是准确的。

加大一点难度,给豆包上点计算量,结果又会如何?

一个外星人来到地球后,第一天有相等的可能选择以下四件事中的一件完成:
1、自我毁灭;
2、分裂成两个外星人;
3、分裂成三个外星人;
4、什么都不做。
此后每天,每个外星人均会做一次选择,且彼此之间相互独立,求地球上最终没有外星人的概率

来看Doubao-1.5-pro的应对:

相同的提示词下,Claude 3.5 Sonnet一通输出,却在最后给答案的时候翻车了:

这一题,Doubao-1.5-pro也顺利过关。

值得一提的是,豆包大模型团队提到,Doubao-1.5-pro还经过了视觉、语音等多模态能力的“特训”。那么最后,我们再加试一道图片推理题:

看来跟豆包用表情包聊天,是不成问题了(doge)。

代码能力实测

测完推理能力,再来看看程序员们最关心的代码能力。

第一题,来个当时被o1-pro直接拒绝回答的离谱需求:

只用HTML代码复刻经典游戏《毁灭战士》。

Doubao-1.5-pro也表示:这不合理。

尽管如此,Doubao-1.5-pro还是试图满足我们“五彩斑斓的黑”的需求,主动提出解决方案:

可以使用HTML结合CSS和JavaScript来创建一个简化的、具有《毁灭战士》风格元素的小游戏示例。

运行这些代码,就能得到一个简单的射击小游戏界面,尽管认真要跑起来还需要微调细节,但大体框架并没有什么问题。

端到端语音功能

语音多模态方面,在Doubao-1.5-pro的加持下,豆包APP已经全量上线了新版实时语音对话功能。

于是,我们让豆包学华妃娘娘的语气,送了一波新春祝福:

这模仿能力和理解能力,你给打几分?

未使用任何其他模型蒸馏数据

一波实测下来,豆包大模型1.5 Pro不愧是压轴出场的角色,综合能力没有让大家伙儿失望。

而多个公开评测基准上的亮眼成绩,也从更客观的角度体现了Doubao-1.5-pro现在的身位。

可以看到,Doubao-1.5-pro已经达到业界领先水平,在中文能力上,更是超过了GPT-4o和Claude 3.5 Sonnet等国外大模型。

另外,在视觉和语音等多模态能力上,Doubao-1.5-pro同样取得了亮眼的成绩。

比如在视觉推理任务中,Doubao-1.5-pro的表现不逊色于GPT-4o:

值得关注的是,这一次模型上新,豆包大模型团队也在官方博客中释出了更多技术细节。

接下来,咱们就来划拉划拉重点。

性能杠杆提升至7倍

从Tokens使用量来看,截至12月中旬,豆包大模型的日均Tokens使用量已经超过4万亿,印证了Doubao API和豆包产品的海量推理需求。

为此,豆包团队从预训练阶段就坚持训练-推理一体设计,以平衡模型性能和推理成本。

具体而言,Doubao-1.5-pro采用稀疏MoE架构,团队通过对稀疏度Scaling Law的研究,确定了性能和效率比较平衡的稀疏比例,并根据MoE Scaling Law确定小参数量激活的模型就能达到世界一流模型的性能。

在预训练阶段,仅用较小参数激活的MoE模型,性能即可超过Llama3.1-405B等超大稠密预训练模型。

同时,在完全相同的部分训练数据(9T tokens)对比验证下,激活参数仅为1/7稠密模型参数量的MoE模型,表现超过了稠密模型,性能杠杆提升可达7倍

此前,业界在这一新能杠杆上的普遍水平为不到3倍。比如IBM的Grantie系列模型中,800M激活的MoE模型性能可以接近2B总参数的稠密模型,性能比值约为2.5倍。

高效后训练流程

在近来大模型们集中精力卷的PostTraining上,豆包大模型团队构建了一套高度自主的数据生产体系。

其中最值得关注的一点是:不使用任何其他模型的蒸馏数据,确保数据来源的独立性和可靠性。

SFT阶段,团队开发了一套算法驱动的训练数据优化系统,涵盖训练数据多样性优化,以及精确人题匹配功能,并结合模型自演进(Self-evolve)技术,提升数据标注的多样性和难度,形成了模型性能提升的良性循环。

奖励模型(Reward Model)部分,团队建立了包含prompt分布优化、response筛选、多轮迭代和active learning的完整数据生产pipeline。

在此基础之上,为了实现模型在数学、编程、知识、对话等多维度能力的均衡提升,团队通过深度融合Verlfier和奖励模型,构建了统一的Reward框架。

此外,基于梯度筛选和迭代过滤技术,豆包大模型团队用25%的数据,能够达到近似全量的训练效果。

强化学习(RL)阶段,团队攻克了价值函数训练难点,实现了token-wise稳定建模,在高难度任务上的性能提升超过10个绝对点。并通过对比学习方法,有效提升了模型表现,显著缓解了reward hacking问题。在数据、算法、模型层面全面实现了 Scaling 。

字节最擅长的AB Test经验也被引入了豆包大模型的Post-Training全流程。基于豆包的大规模用户反馈,研发团队构建了从问题发现、数据挖掘、人机结合标注到快速迭代的闭环优化系统,以让用户数据飞轮能持续作用于模型实际使用体验的提升。

One More Thing

另外,豆包官方还低调透露了一嘴“深度思考模式”的消息。

研发团队在完全不使用其他模型数据的条件下,通过RL算法突破和工程优化,充分发挥test time scaling的算力优势,已经实现了豆包深度思考模型。

团队表示,随着RL的持续,模型能力还在不断提升中:

在这一过程中,我们也看到了推理能力在不同领域的泛化,智能的边界正在被慢慢拓宽。

如此说来,下一个版本的豆包更新,可以期待起来了。

豆包的远谋

总结一下豆包1.5背后的技术思路,有两个关键词浮出水面:高效,以及“不走捷径”。

采用顶级模型蒸馏数据,在业内已经是心照不宣的法门,连C端用户,也对A模型口吐“我是B模型”之语见怪不怪。

OpenAI CEO奥特曼自己也曾暗示,复刻o1并没有实现o1本身那么难:

一方面,是在技术创新角度上,从0到1远比从1到100困难得多。

另一方面,大量的学术论文和产业实践已经验证,蒸馏顶级模型数据对于训练基础模型而言,可以说是一条“捷径”。

当然,这条捷径上也并非没有坑。

首先是数据安全问题。

蒸馏其他模型的数据,对于模型开发者而言,天然存在不可控的风险。教师模型的偏见、错误以及版权问题等,都可能会被传递给学生模型。

另外,这一技术方案也可能限制模型的性能上限。

近期就有一线大模型创业者表达了类似观点:如果一定要把模型去对齐一个别的模型,比如GPT的结果,会有一些能力受限。

如此看来,此番豆包公开强调“不使用任何其他模型数据”,背后透露出的是国内第一梯队大模型产品更长远的布局思路:

不走捷径,确保数据来源的独立性、可靠性、可控性。在追求更高智能的长期突破的过程中,把主动权更多地把握在自己手中。

现在,这种自主技术、长期主义的思路,也正在市场上得到正反馈:

火山引擎Tokens日均消耗量的月均复合增长率超过60%,2024年12月日均Tokens市场份额占比已超50%,坐上大模型商用年度头把交椅。

体验地址:
https://www.volcengine.com/

— 完 —

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
大布婚礼DJ亲证:没见过这样的妈!抢新娘风头,还拉儿子跳那种舞

大布婚礼DJ亲证:没见过这样的妈!抢新娘风头,还拉儿子跳那种舞

新欧洲
2026-01-24 21:21:07
青木率99%,高市早苗乐得连喊3声“万岁”,麻生:中方不足畏惧

青木率99%,高市早苗乐得连喊3声“万岁”,麻生:中方不足畏惧

阿伧说事
2026-01-24 15:33:04
“这是被摧毁前的我”—英国逆天网红再发多人事前事后视频

“这是被摧毁前的我”—英国逆天网红再发多人事前事后视频

随波荡漾的漂流瓶
2026-01-24 20:28:36
李昊无奈摇头!6场贡献33扑救+决赛被轰0-4 遗憾无缘赛事最佳门将

李昊无奈摇头!6场贡献33扑救+决赛被轰0-4 遗憾无缘赛事最佳门将

风过乡
2026-01-25 01:31:37
不许报复美国,美方话音刚落,欧盟作出决定,将逐步淘汰中国制造

不许报复美国,美方话音刚落,欧盟作出决定,将逐步淘汰中国制造

阿策聊实事
2026-01-25 02:17:07
彻底崩盘!基辅上演“大逃亡”,美军M270被俄打爆,小泽幻想破灭

彻底崩盘!基辅上演“大逃亡”,美军M270被俄打爆,小泽幻想破灭

妙知
2026-01-23 11:55:37
普京:俄罗斯无论如何都将开发北极

普京:俄罗斯无论如何都将开发北极

财联社
2026-01-24 13:42:10
神剧情!第80分钟扳平,第95分钟绝杀,利物浦队史尴尬纪录诞生

神剧情!第80分钟扳平,第95分钟绝杀,利物浦队史尴尬纪录诞生

足球狗说
2026-01-25 03:50:12
北京日报一针见血指出预制菜的主要矛盾,相较于某日报,高下立判

北京日报一针见血指出预制菜的主要矛盾,相较于某日报,高下立判

一拙见
2026-01-24 16:51:53
牢A是本世纪最大预言家!什么脏货都跳出来了!

牢A是本世纪最大预言家!什么脏货都跳出来了!

红色少女主播
2026-01-22 20:16:29
特朗普,会在春天来访吗?

特朗普,会在春天来访吗?

中国新闻周刊
2026-01-24 10:51:34
13名华人刚落地澳洲, 同时被扣! 手机现金成堆, 人人胃药, 集体上厕所…当场遣返

13名华人刚落地澳洲, 同时被扣! 手机现金成堆, 人人胃药, 集体上厕所…当场遣返

澳微Daily
2026-01-24 14:24:56
中国空警-600遇美国E-2D:刚装备就落后?

中国空警-600遇美国E-2D:刚装备就落后?

老澽爆笑大聪明
2026-01-24 22:20:36
历史如此巧合?杨开慧雕像缺失的石料,竟是主席像的“另一半”!

历史如此巧合?杨开慧雕像缺失的石料,竟是主席像的“另一半”!

鹤羽说个事
2026-01-23 16:07:42
杀猪宴变杀猪盘后续:恶人全员曝光,警方介入,地图名字图片全改

杀猪宴变杀猪盘后续:恶人全员曝光,警方介入,地图名字图片全改

甜柠聊史
2026-01-23 16:54:07
U23国足获得亚洲杯亚军,知名解说员黄健翔:球迷应该记住这支球队,别用胜负绑架他们的成长

U23国足获得亚洲杯亚军,知名解说员黄健翔:球迷应该记住这支球队,别用胜负绑架他们的成长

极目新闻
2026-01-25 01:26:36
委内瑞拉民众示威要求释放马杜罗

委内瑞拉民众示威要求释放马杜罗

参考消息
2026-01-24 11:54:04
人要明白,真正陪你走到最后的,不是父母,不是爱人,也不是子女

人要明白,真正陪你走到最后的,不是父母,不是爱人,也不是子女

诗词中国
2026-01-24 19:58:45
美媒首次公开轰-20参数:第二岛链拦不住,美国本土已不再安全!

美媒首次公开轰-20参数:第二岛链拦不住,美国本土已不再安全!

策略述
2026-01-23 16:36:02
0-4惨败后,日本球迷评论太扎心!中国没变强,更想和乌兹踢决赛

0-4惨败后,日本球迷评论太扎心!中国没变强,更想和乌兹踢决赛

绿茵舞着
2026-01-25 03:04:56
2026-01-25 04:24:49
量子位 incentive-icons
量子位
追踪人工智能动态
12058文章数 176362关注度
往期回顾 全部

科技要闻

黄仁勋现身上海菜市场

头条要闻

U23国足获亚洲杯亚军 体育总局电贺创历史最佳成绩

头条要闻

U23国足获亚洲杯亚军 体育总局电贺创历史最佳成绩

体育要闻

当家球星打替补,他们在故意摆烂?

娱乐要闻

回归还是顶流 凤凰传奇将现身马年春晚

财经要闻

“百年老字号”张小泉遭60亿债务压顶

汽车要闻

有增程和纯电版可选 日产NX8或于3-4月间上市

态度原创

手机
本地
家居
房产
公开课

手机要闻

追觅首款手机狂揽亿元订单:自研芯片+模块化影像,硬刚华为小米

本地新闻

云游中国|格尔木的四季朋友圈,张张值得你点赞

家居要闻

在家度假 160平南洋混搭宅

房产要闻

正式官宣!三亚又一所名校要来了!

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版