豆包1.5Pro重磅更新！7倍MoE性能杠杆，"不使用任何其他模型数据"|算法|模态|moe|预训练|大模型

豆包1.5Pro重磅更新！7倍MoE性能杠杆，"不使用任何其他模型数据"

2025-01-22 22:14:34　来源: 量子位

北京举报

分享至

鱼羊发自凹非寺
量子位 | 公众号 QbitAI

春节前这一波大模型疯狂加更，字节也出手了，最新登场的是豆包全新基础模型——

Doubao-1.5-pro。

豆包“演技精湛”的真人级语音对话功能刚刷屏，仅隔一天，背后基础模型字节也给抖落出来了。

先欣赏一波此豆包的演出：

基础模型登场，背后团队不仅放出细节满满的技术博客，还亲自给划了重点：

MoE架构，仅用较小激活参数，就能达到世界一流模型性能，性能杠杆达到7倍
数据生产体系高度自主，不使用任何其他模型数据
多模态能力全面提升

更妙的是，Doubao-1.5-pro官宣即上线，火山方舟体验网址同步开放，同时也在豆包APP灰度上线。

这还等什么，当然是第一时间上手实测啦。

就着技术博客，我们也来扒一扒背后更多技术细节，一起往下看~

实测豆包1.5系列

Talk is cheap，show me the product。

官方提到，Doubao-1.5-pro模型综合能力有显著增强，在知识、代码、推理、中文等多个权威测评基准上都达到SOTA。

那么首先，来看现在大模型圈最卷的推理能力。

推理能力实测

先简单来道逻辑判断题，看看Doubao-1.5-pro能不能接住。

某校食堂发生了一起严重的食物中毒事故，关于事故的原因，有如下四种说法：
甲：事故是由食物过期引起的
乙：如果事故是由食物过期引起的，那么食堂管理方面一定存在着监管不到位的现象
丙：事故确实是由食物过期引起，但食堂管理方面并不存在监管不到位的现象
丁：事故不是由食物过期引起的，但食堂管理方面存在监管不到位的现象
如果上述四种说法中只有一种是真的，由此可以推出
A. 乙为真，且食堂存在监管不到位的现象
B. 乙为真，但食堂没有存在监管不到位的现象
C. 甲为真
D. 丙为真

Doubao-1.5-pro的回答是酱婶的：

思路梳理得非常清晰，答案也是准确的。

加大一点难度，给豆包上点计算量，结果又会如何？

一个外星人来到地球后，第一天有相等的可能选择以下四件事中的一件完成:
1、自我毁灭;
2、分裂成两个外星人;
3、分裂成三个外星人;
4、什么都不做。
此后每天，每个外星人均会做一次选择，且彼此之间相互独立，求地球上最终没有外星人的概率

来看Doubao-1.5-pro的应对：

相同的提示词下，Claude 3.5 Sonnet一通输出，却在最后给答案的时候翻车了：

这一题，Doubao-1.5-pro也顺利过关。

值得一提的是，豆包大模型团队提到，Doubao-1.5-pro还经过了视觉、语音等多模态能力的“特训”。那么最后，我们再加试一道图片推理题：

看来跟豆包用表情包聊天，是不成问题了（doge）。

代码能力实测

测完推理能力，再来看看程序员们最关心的代码能力。

第一题，来个当时被o1-pro直接拒绝回答的离谱需求：

只用HTML代码复刻经典游戏《毁灭战士》。

Doubao-1.5-pro也表示：这不合理。

尽管如此，Doubao-1.5-pro还是试图满足我们“五彩斑斓的黑”的需求，主动提出解决方案：

可以使用HTML结合CSS和JavaScript来创建一个简化的、具有《毁灭战士》风格元素的小游戏示例。

运行这些代码，就能得到一个简单的射击小游戏界面，尽管认真要跑起来还需要微调细节，但大体框架并没有什么问题。

端到端语音功能

语音多模态方面，在Doubao-1.5-pro的加持下，豆包APP已经全量上线了新版实时语音对话功能。

于是，我们让豆包学华妃娘娘的语气，送了一波新春祝福：

这模仿能力和理解能力，你给打几分？

未使用任何其他模型蒸馏数据

一波实测下来，豆包大模型1.5 Pro不愧是压轴出场的角色，综合能力没有让大家伙儿失望。

而多个公开评测基准上的亮眼成绩，也从更客观的角度体现了Doubao-1.5-pro现在的身位。

可以看到，Doubao-1.5-pro已经达到业界领先水平，在中文能力上，更是超过了GPT-4o和Claude 3.5 Sonnet等国外大模型。

另外，在视觉和语音等多模态能力上，Doubao-1.5-pro同样取得了亮眼的成绩。

比如在视觉推理任务中，Doubao-1.5-pro的表现不逊色于GPT-4o：

值得关注的是，这一次模型上新，豆包大模型团队也在官方博客中释出了更多技术细节。

接下来，咱们就来划拉划拉重点。

性能杠杆提升至7倍

从Tokens使用量来看，截至12月中旬，豆包大模型的日均Tokens使用量已经超过4万亿，印证了Doubao API和豆包产品的海量推理需求。

为此，豆包团队从预训练阶段就坚持训练-推理一体设计，以平衡模型性能和推理成本。

具体而言，Doubao-1.5-pro采用稀疏MoE架构，团队通过对稀疏度Scaling Law的研究，确定了性能和效率比较平衡的稀疏比例，并根据MoE Scaling Law确定小参数量激活的模型就能达到世界一流模型的性能。

在预训练阶段，仅用较小参数激活的MoE模型，性能即可超过Llama3.1-405B等超大稠密预训练模型。

同时，在完全相同的部分训练数据（9T tokens）对比验证下，激活参数仅为1/7稠密模型参数量的MoE模型，表现超过了稠密模型，性能杠杆提升可达7倍。

此前，业界在这一新能杠杆上的普遍水平为不到3倍。比如IBM的Grantie系列模型中，800M激活的MoE模型性能可以接近2B总参数的稠密模型，性能比值约为2.5倍。

高效后训练流程

在近来大模型们集中精力卷的PostTraining上，豆包大模型团队构建了一套高度自主的数据生产体系。

其中最值得关注的一点是：不使用任何其他模型的蒸馏数据，确保数据来源的独立性和可靠性。

SFT阶段，团队开发了一套算法驱动的训练数据优化系统，涵盖训练数据多样性优化，以及精确人题匹配功能，并结合模型自演进（Self-evolve）技术，提升数据标注的多样性和难度，形成了模型性能提升的良性循环。

奖励模型（Reward Model）部分，团队建立了包含prompt分布优化、response筛选、多轮迭代和active learning的完整数据生产pipeline。

在此基础之上，为了实现模型在数学、编程、知识、对话等多维度能力的均衡提升，团队通过深度融合Verlfier和奖励模型，构建了统一的Reward框架。

此外，基于梯度筛选和迭代过滤技术，豆包大模型团队用25%的数据，能够达到近似全量的训练效果。

强化学习（RL）阶段，团队攻克了价值函数训练难点，实现了token-wise稳定建模，在高难度任务上的性能提升超过10个绝对点。并通过对比学习方法，有效提升了模型表现，显著缓解了reward hacking问题。在数据、算法、模型层面全面实现了 Scaling 。

字节最擅长的AB Test经验也被引入了豆包大模型的Post-Training全流程。基于豆包的大规模用户反馈，研发团队构建了从问题发现、数据挖掘、人机结合标注到快速迭代的闭环优化系统，以让用户数据飞轮能持续作用于模型实际使用体验的提升。

One More Thing

另外，豆包官方还低调透露了一嘴“深度思考模式”的消息。

研发团队在完全不使用其他模型数据的条件下，通过RL算法突破和工程优化，充分发挥test time scaling的算力优势，已经实现了豆包深度思考模型。

团队表示，随着RL的持续，模型能力还在不断提升中：

在这一过程中，我们也看到了推理能力在不同领域的泛化，智能的边界正在被慢慢拓宽。

如此说来，下一个版本的豆包更新，可以期待起来了。

豆包的远谋

总结一下豆包1.5背后的技术思路，有两个关键词浮出水面：高效，以及“不走捷径”。

采用顶级模型蒸馏数据，在业内已经是心照不宣的法门，连C端用户，也对A模型口吐“我是B模型”之语见怪不怪。

OpenAI CEO奥特曼自己也曾暗示，复刻o1并没有实现o1本身那么难：

一方面，是在技术创新角度上，从0到1远比从1到100困难得多。

另一方面，大量的学术论文和产业实践已经验证，蒸馏顶级模型数据对于训练基础模型而言，可以说是一条“捷径”。

当然，这条捷径上也并非没有坑。

首先是数据安全问题。

蒸馏其他模型的数据，对于模型开发者而言，天然存在不可控的风险。教师模型的偏见、错误以及版权问题等，都可能会被传递给学生模型。

另外，这一技术方案也可能限制模型的性能上限。

近期就有一线大模型创业者表达了类似观点：如果一定要把模型去对齐一个别的模型，比如GPT的结果，会有一些能力受限。

如此看来，此番豆包公开强调“不使用任何其他模型数据”，背后透露出的是国内第一梯队大模型产品更长远的布局思路：

不走捷径，确保数据来源的独立性、可靠性、可控性。在追求更高智能的长期突破的过程中，把主动权更多地把握在自己手中。

现在，这种自主技术、长期主义的思路，也正在市场上得到正反馈：

火山引擎Tokens日均消耗量的月均复合增长率超过60%，2024年12月日均Tokens市场份额占比已超50%，坐上大模型商用年度头把交椅。

体验地址：
https://www.volcengine.com/

— 完 —

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.