网易首页 > 网易号 > 正文 申请入驻

豆包1.5Pro重磅更新!7倍MoE性能杠杆,"不使用任何其他模型数据"

0
分享至

鱼羊 发自 凹非寺
量子位 | 公众号 QbitAI

春节前这一波大模型疯狂加更,字节也出手了,最新登场的是豆包全新基础模型——

Doubao-1.5-pro

豆包“演技精湛”的真人级语音对话功能刚刷屏,仅隔一天,背后基础模型字节也给抖落出来了。

先欣赏一波此豆包的演出:

基础模型登场,背后团队不仅放出细节满满的技术博客,还亲自给划了重点:

  • MoE架构,仅用较小激活参数,就能达到世界一流模型性能,性能杠杆达到7倍
  • 数据生产体系高度自主,不使用任何其他模型数据
  • 多模态能力全面提升

更妙的是,Doubao-1.5-pro官宣即上线,火山方舟体验网址同步开放,同时也在豆包APP灰度上线。

这还等什么,当然是第一时间上手实测啦。

就着技术博客,我们也来扒一扒背后更多技术细节,一起往下看~

实测豆包1.5系列

Talk is cheap,show me the product。

官方提到,Doubao-1.5-pro模型综合能力有显著增强,在知识、代码、推理、中文等多个权威测评基准上都达到SOTA。

那么首先,来看现在大模型圈最卷的推理能力。

推理能力实测

先简单来道逻辑判断题,看看Doubao-1.5-pro能不能接住。

某校食堂发生了一起严重的食物中毒事故,关于事故的原因,有如下四种说法:
甲:事故是由食物过期引起的
乙:如果事故是由食物过期引起的,那么食堂管理方面一定存在着监管不到位的现象
丙:事故确实是由食物过期引起,但食堂管理方面并不存在监管不到位的现象
丁:事故不是由食物过期引起的,但食堂管理方面存在监管不到位的现象
如果上述四种说法中只有一种是真的,由此可以推出
A. 乙为真,且食堂存在监管不到位的现象
B. 乙为真,但食堂没有存在监管不到位的现象
C. 甲为真
D. 丙为真

Doubao-1.5-pro的回答是酱婶的:

思路梳理得非常清晰,答案也是准确的。

加大一点难度,给豆包上点计算量,结果又会如何?

一个外星人来到地球后,第一天有相等的可能选择以下四件事中的一件完成:
1、自我毁灭;
2、分裂成两个外星人;
3、分裂成三个外星人;
4、什么都不做。
此后每天,每个外星人均会做一次选择,且彼此之间相互独立,求地球上最终没有外星人的概率

来看Doubao-1.5-pro的应对:

相同的提示词下,Claude 3.5 Sonnet一通输出,却在最后给答案的时候翻车了:

这一题,Doubao-1.5-pro也顺利过关。

值得一提的是,豆包大模型团队提到,Doubao-1.5-pro还经过了视觉、语音等多模态能力的“特训”。那么最后,我们再加试一道图片推理题:

看来跟豆包用表情包聊天,是不成问题了(doge)。

代码能力实测

测完推理能力,再来看看程序员们最关心的代码能力。

第一题,来个当时被o1-pro直接拒绝回答的离谱需求:

只用HTML代码复刻经典游戏《毁灭战士》。

Doubao-1.5-pro也表示:这不合理。

尽管如此,Doubao-1.5-pro还是试图满足我们“五彩斑斓的黑”的需求,主动提出解决方案:

可以使用HTML结合CSS和JavaScript来创建一个简化的、具有《毁灭战士》风格元素的小游戏示例。

运行这些代码,就能得到一个简单的射击小游戏界面,尽管认真要跑起来还需要微调细节,但大体框架并没有什么问题。

端到端语音功能

语音多模态方面,在Doubao-1.5-pro的加持下,豆包APP已经全量上线了新版实时语音对话功能。

于是,我们让豆包学华妃娘娘的语气,送了一波新春祝福:

这模仿能力和理解能力,你给打几分?

未使用任何其他模型蒸馏数据

一波实测下来,豆包大模型1.5 Pro不愧是压轴出场的角色,综合能力没有让大家伙儿失望。

而多个公开评测基准上的亮眼成绩,也从更客观的角度体现了Doubao-1.5-pro现在的身位。

可以看到,Doubao-1.5-pro已经达到业界领先水平,在中文能力上,更是超过了GPT-4o和Claude 3.5 Sonnet等国外大模型。

另外,在视觉和语音等多模态能力上,Doubao-1.5-pro同样取得了亮眼的成绩。

比如在视觉推理任务中,Doubao-1.5-pro的表现不逊色于GPT-4o:

值得关注的是,这一次模型上新,豆包大模型团队也在官方博客中释出了更多技术细节。

接下来,咱们就来划拉划拉重点。

性能杠杆提升至7倍

从Tokens使用量来看,截至12月中旬,豆包大模型的日均Tokens使用量已经超过4万亿,印证了Doubao API和豆包产品的海量推理需求。

为此,豆包团队从预训练阶段就坚持训练-推理一体设计,以平衡模型性能和推理成本。

具体而言,Doubao-1.5-pro采用稀疏MoE架构,团队通过对稀疏度Scaling Law的研究,确定了性能和效率比较平衡的稀疏比例,并根据MoE Scaling Law确定小参数量激活的模型就能达到世界一流模型的性能。

在预训练阶段,仅用较小参数激活的MoE模型,性能即可超过Llama3.1-405B等超大稠密预训练模型。

同时,在完全相同的部分训练数据(9T tokens)对比验证下,激活参数仅为1/7稠密模型参数量的MoE模型,表现超过了稠密模型,性能杠杆提升可达7倍

此前,业界在这一新能杠杆上的普遍水平为不到3倍。比如IBM的Grantie系列模型中,800M激活的MoE模型性能可以接近2B总参数的稠密模型,性能比值约为2.5倍。

高效后训练流程

在近来大模型们集中精力卷的PostTraining上,豆包大模型团队构建了一套高度自主的数据生产体系。

其中最值得关注的一点是:不使用任何其他模型的蒸馏数据,确保数据来源的独立性和可靠性。

SFT阶段,团队开发了一套算法驱动的训练数据优化系统,涵盖训练数据多样性优化,以及精确人题匹配功能,并结合模型自演进(Self-evolve)技术,提升数据标注的多样性和难度,形成了模型性能提升的良性循环。

奖励模型(Reward Model)部分,团队建立了包含prompt分布优化、response筛选、多轮迭代和active learning的完整数据生产pipeline。

在此基础之上,为了实现模型在数学、编程、知识、对话等多维度能力的均衡提升,团队通过深度融合Verlfier和奖励模型,构建了统一的Reward框架。

此外,基于梯度筛选和迭代过滤技术,豆包大模型团队用25%的数据,能够达到近似全量的训练效果。

强化学习(RL)阶段,团队攻克了价值函数训练难点,实现了token-wise稳定建模,在高难度任务上的性能提升超过10个绝对点。并通过对比学习方法,有效提升了模型表现,显著缓解了reward hacking问题。在数据、算法、模型层面全面实现了 Scaling 。

字节最擅长的AB Test经验也被引入了豆包大模型的Post-Training全流程。基于豆包的大规模用户反馈,研发团队构建了从问题发现、数据挖掘、人机结合标注到快速迭代的闭环优化系统,以让用户数据飞轮能持续作用于模型实际使用体验的提升。

One More Thing

另外,豆包官方还低调透露了一嘴“深度思考模式”的消息。

研发团队在完全不使用其他模型数据的条件下,通过RL算法突破和工程优化,充分发挥test time scaling的算力优势,已经实现了豆包深度思考模型。

团队表示,随着RL的持续,模型能力还在不断提升中:

在这一过程中,我们也看到了推理能力在不同领域的泛化,智能的边界正在被慢慢拓宽。

如此说来,下一个版本的豆包更新,可以期待起来了。

豆包的远谋

总结一下豆包1.5背后的技术思路,有两个关键词浮出水面:高效,以及“不走捷径”。

采用顶级模型蒸馏数据,在业内已经是心照不宣的法门,连C端用户,也对A模型口吐“我是B模型”之语见怪不怪。

OpenAI CEO奥特曼自己也曾暗示,复刻o1并没有实现o1本身那么难:

一方面,是在技术创新角度上,从0到1远比从1到100困难得多。

另一方面,大量的学术论文和产业实践已经验证,蒸馏顶级模型数据对于训练基础模型而言,可以说是一条“捷径”。

当然,这条捷径上也并非没有坑。

首先是数据安全问题。

蒸馏其他模型的数据,对于模型开发者而言,天然存在不可控的风险。教师模型的偏见、错误以及版权问题等,都可能会被传递给学生模型。

另外,这一技术方案也可能限制模型的性能上限。

近期就有一线大模型创业者表达了类似观点:如果一定要把模型去对齐一个别的模型,比如GPT的结果,会有一些能力受限。

如此看来,此番豆包公开强调“不使用任何其他模型数据”,背后透露出的是国内第一梯队大模型产品更长远的布局思路:

不走捷径,确保数据来源的独立性、可靠性、可控性。在追求更高智能的长期突破的过程中,把主动权更多地把握在自己手中。

现在,这种自主技术、长期主义的思路,也正在市场上得到正反馈:

火山引擎Tokens日均消耗量的月均复合增长率超过60%,2024年12月日均Tokens市场份额占比已超50%,坐上大模型商用年度头把交椅。

体验地址:
https://www.volcengine.com/

— 完 —

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
特朗普突然改口,内幕曝光

特朗普突然改口,内幕曝光

环球时报国际
2026-01-23 00:11:05
韩剧女神,被吐槽“断崖式衰老”?

韩剧女神,被吐槽“断崖式衰老”?

寻艺
2026-01-22 18:38:26
格伊转会曼城真实总价高达1.25亿镑!利物浦放弃太明智

格伊转会曼城真实总价高达1.25亿镑!利物浦放弃太明智

夜白侃球
2026-01-22 15:55:50
数览成绩单·2025新成就|中国工业经济如何顶压前行 这份“成绩单”亮点满满

数览成绩单·2025新成就|中国工业经济如何顶压前行 这份“成绩单”亮点满满

新华社
2026-01-22 17:08:46
1亿锋霸急速陨落:7场0球,西蒙尼太失望:连续3次提前换下他

1亿锋霸急速陨落:7场0球,西蒙尼太失望:连续3次提前换下他

足球狗说
2026-01-22 07:22:24
霸气,马刺队文班亚马向其他全明星球员发出挑战:全力以赴

霸气,马刺队文班亚马向其他全明星球员发出挑战:全力以赴

好火子
2026-01-23 01:14:35
贾玲巴黎周“一脸男相”!不爱笑也没梨涡眼神犀利,梳大背头好酷

贾玲巴黎周“一脸男相”!不爱笑也没梨涡眼神犀利,梳大背头好酷

轩逸阿II
2026-01-20 07:54:29
一头牛用扫帚挠痒!1万年来,全球首个牛熟练使用工具案例曝光

一头牛用扫帚挠痒!1万年来,全球首个牛熟练使用工具案例曝光

红星新闻
2026-01-21 13:05:10
就在今天,1月23日凌晨,CBA传来贺希宁、许利民、陈盈骏新消息

就在今天,1月23日凌晨,CBA传来贺希宁、许利民、陈盈骏新消息

小彭美识
2026-01-23 02:59:58
宁死不向中国低头!连走7年下坡路,1块钱贱卖自己,逃出中国市场

宁死不向中国低头!连走7年下坡路,1块钱贱卖自己,逃出中国市场

胖哥不胡说
2026-01-22 17:12:38
“塔斯汀”打假“塔诗汀”,获赔500万元;山寨方签约门店数量上千,不少消费者踩坑:难以分辨!

“塔斯汀”打假“塔诗汀”,获赔500万元;山寨方签约门店数量上千,不少消费者踩坑:难以分辨!

每日经济新闻
2026-01-22 15:35:19
马斯克一语成真:全球争抢的不是芯片,而是中国20万一台的变压器

马斯克一语成真:全球争抢的不是芯片,而是中国20万一台的变压器

现代小青青慕慕
2026-01-22 00:25:08
理想汽车突然大降价

理想汽车突然大降价

科技头版Pro
2026-01-22 16:02:52
原来早已不是中国籍?事业巅峰远赴美国,被老外“玩腻”晚年回国

原来早已不是中国籍?事业巅峰远赴美国,被老外“玩腻”晚年回国

兴史兴谈
2026-01-23 03:06:23
河北沧州杀妻案终审宣判,凶手羁押近照曝光,金家将后继无人

河北沧州杀妻案终审宣判,凶手羁押近照曝光,金家将后继无人

十九妹
2026-01-22 14:49:46
突发!知名网红“一栗小莎子”确诊癌症,疑熬夜导致,儿子才两岁

突发!知名网红“一栗小莎子”确诊癌症,疑熬夜导致,儿子才两岁

裕丰娱间说
2026-01-22 08:56:07
陈道明戳破养老真相:所谓养老,不过是清醒时自渡,糊涂前自在

陈道明戳破养老真相:所谓养老,不过是清醒时自渡,糊涂前自在

青苹果sht
2026-01-20 05:51:45
闫学晶偷税背债被查后首露面,终迎重罚结局

闫学晶偷税背债被查后首露面,终迎重罚结局

余們搞笑段子
2026-01-23 01:09:25
“32岁程序员周末晕倒猝死”妻子再发声:丈夫经常被反复催促才下班,出事前两人正备孕

“32岁程序员周末晕倒猝死”妻子再发声:丈夫经常被反复催促才下班,出事前两人正备孕

极目新闻
2026-01-22 20:34:10
权威数读|增产、增收、增强!2025农业农村经济运行“成绩单”来了!

权威数读|增产、增收、增强!2025农业农村经济运行“成绩单”来了!

新华社
2026-01-22 13:45:13
2026-01-23 03:36:49
量子位 incentive-icons
量子位
追踪人工智能动态
12050文章数 176362关注度
往期回顾 全部

科技要闻

几千亿只是开胃菜,AI基建还得再砸几万亿

头条要闻

“和平委员会”签约国家名单公布 西欧国家无一参加

头条要闻

“和平委员会”签约国家名单公布 西欧国家无一参加

体育要闻

跑个步而已,他们在燃什么?

娱乐要闻

车银优赚800亿 涉嫌逃税200亿!

财经要闻

西贝拿到“救命钱”,然后呢

汽车要闻

配备多块娱乐屏 极氪8X内饰曝光

态度原创

亲子
旅游
艺术
家居
公开课

亲子要闻

真相很可怕!终于揭秘:为什么你记不住3岁前的事?

旅游要闻

降温也能赏花海?上海这里太懂浪漫

艺术要闻

265米!中集集团全球总部开工,大楼如一幅“山水画”

家居要闻

法式风情 南洋中古居

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版