网易首页 > 网易号 > 正文 申请入驻

豆包1.5Pro重磅更新!7倍MoE性能杠杆,"不使用任何其他模型数据"

0
分享至

鱼羊 发自 凹非寺
量子位 | 公众号 QbitAI

春节前这一波大模型疯狂加更,字节也出手了,最新登场的是豆包全新基础模型——

Doubao-1.5-pro

豆包“演技精湛”的真人级语音对话功能刚刷屏,仅隔一天,背后基础模型字节也给抖落出来了。

先欣赏一波此豆包的演出:

基础模型登场,背后团队不仅放出细节满满的技术博客,还亲自给划了重点:

  • MoE架构,仅用较小激活参数,就能达到世界一流模型性能,性能杠杆达到7倍
  • 数据生产体系高度自主,不使用任何其他模型数据
  • 多模态能力全面提升

更妙的是,Doubao-1.5-pro官宣即上线,火山方舟体验网址同步开放,同时也在豆包APP灰度上线。

这还等什么,当然是第一时间上手实测啦。

就着技术博客,我们也来扒一扒背后更多技术细节,一起往下看~

实测豆包1.5系列

Talk is cheap,show me the product。

官方提到,Doubao-1.5-pro模型综合能力有显著增强,在知识、代码、推理、中文等多个权威测评基准上都达到SOTA。

那么首先,来看现在大模型圈最卷的推理能力。

推理能力实测

先简单来道逻辑判断题,看看Doubao-1.5-pro能不能接住。

某校食堂发生了一起严重的食物中毒事故,关于事故的原因,有如下四种说法:
甲:事故是由食物过期引起的
乙:如果事故是由食物过期引起的,那么食堂管理方面一定存在着监管不到位的现象
丙:事故确实是由食物过期引起,但食堂管理方面并不存在监管不到位的现象
丁:事故不是由食物过期引起的,但食堂管理方面存在监管不到位的现象
如果上述四种说法中只有一种是真的,由此可以推出
A. 乙为真,且食堂存在监管不到位的现象
B. 乙为真,但食堂没有存在监管不到位的现象
C. 甲为真
D. 丙为真

Doubao-1.5-pro的回答是酱婶的:

思路梳理得非常清晰,答案也是准确的。

加大一点难度,给豆包上点计算量,结果又会如何?

一个外星人来到地球后,第一天有相等的可能选择以下四件事中的一件完成:
1、自我毁灭;
2、分裂成两个外星人;
3、分裂成三个外星人;
4、什么都不做。
此后每天,每个外星人均会做一次选择,且彼此之间相互独立,求地球上最终没有外星人的概率

来看Doubao-1.5-pro的应对:

相同的提示词下,Claude 3.5 Sonnet一通输出,却在最后给答案的时候翻车了:

这一题,Doubao-1.5-pro也顺利过关。

值得一提的是,豆包大模型团队提到,Doubao-1.5-pro还经过了视觉、语音等多模态能力的“特训”。那么最后,我们再加试一道图片推理题:

看来跟豆包用表情包聊天,是不成问题了(doge)。

代码能力实测

测完推理能力,再来看看程序员们最关心的代码能力。

第一题,来个当时被o1-pro直接拒绝回答的离谱需求:

只用HTML代码复刻经典游戏《毁灭战士》。

Doubao-1.5-pro也表示:这不合理。

尽管如此,Doubao-1.5-pro还是试图满足我们“五彩斑斓的黑”的需求,主动提出解决方案:

可以使用HTML结合CSS和JavaScript来创建一个简化的、具有《毁灭战士》风格元素的小游戏示例。

运行这些代码,就能得到一个简单的射击小游戏界面,尽管认真要跑起来还需要微调细节,但大体框架并没有什么问题。

端到端语音功能

语音多模态方面,在Doubao-1.5-pro的加持下,豆包APP已经全量上线了新版实时语音对话功能。

于是,我们让豆包学华妃娘娘的语气,送了一波新春祝福:

这模仿能力和理解能力,你给打几分?

未使用任何其他模型蒸馏数据

一波实测下来,豆包大模型1.5 Pro不愧是压轴出场的角色,综合能力没有让大家伙儿失望。

而多个公开评测基准上的亮眼成绩,也从更客观的角度体现了Doubao-1.5-pro现在的身位。

可以看到,Doubao-1.5-pro已经达到业界领先水平,在中文能力上,更是超过了GPT-4o和Claude 3.5 Sonnet等国外大模型。

另外,在视觉和语音等多模态能力上,Doubao-1.5-pro同样取得了亮眼的成绩。

比如在视觉推理任务中,Doubao-1.5-pro的表现不逊色于GPT-4o:

值得关注的是,这一次模型上新,豆包大模型团队也在官方博客中释出了更多技术细节。

接下来,咱们就来划拉划拉重点。

性能杠杆提升至7倍

从Tokens使用量来看,截至12月中旬,豆包大模型的日均Tokens使用量已经超过4万亿,印证了Doubao API和豆包产品的海量推理需求。

为此,豆包团队从预训练阶段就坚持训练-推理一体设计,以平衡模型性能和推理成本。

具体而言,Doubao-1.5-pro采用稀疏MoE架构,团队通过对稀疏度Scaling Law的研究,确定了性能和效率比较平衡的稀疏比例,并根据MoE Scaling Law确定小参数量激活的模型就能达到世界一流模型的性能。

在预训练阶段,仅用较小参数激活的MoE模型,性能即可超过Llama3.1-405B等超大稠密预训练模型。

同时,在完全相同的部分训练数据(9T tokens)对比验证下,激活参数仅为1/7稠密模型参数量的MoE模型,表现超过了稠密模型,性能杠杆提升可达7倍

此前,业界在这一新能杠杆上的普遍水平为不到3倍。比如IBM的Grantie系列模型中,800M激活的MoE模型性能可以接近2B总参数的稠密模型,性能比值约为2.5倍。

高效后训练流程

在近来大模型们集中精力卷的PostTraining上,豆包大模型团队构建了一套高度自主的数据生产体系。

其中最值得关注的一点是:不使用任何其他模型的蒸馏数据,确保数据来源的独立性和可靠性。

SFT阶段,团队开发了一套算法驱动的训练数据优化系统,涵盖训练数据多样性优化,以及精确人题匹配功能,并结合模型自演进(Self-evolve)技术,提升数据标注的多样性和难度,形成了模型性能提升的良性循环。

奖励模型(Reward Model)部分,团队建立了包含prompt分布优化、response筛选、多轮迭代和active learning的完整数据生产pipeline。

在此基础之上,为了实现模型在数学、编程、知识、对话等多维度能力的均衡提升,团队通过深度融合Verlfier和奖励模型,构建了统一的Reward框架。

此外,基于梯度筛选和迭代过滤技术,豆包大模型团队用25%的数据,能够达到近似全量的训练效果。

强化学习(RL)阶段,团队攻克了价值函数训练难点,实现了token-wise稳定建模,在高难度任务上的性能提升超过10个绝对点。并通过对比学习方法,有效提升了模型表现,显著缓解了reward hacking问题。在数据、算法、模型层面全面实现了 Scaling 。

字节最擅长的AB Test经验也被引入了豆包大模型的Post-Training全流程。基于豆包的大规模用户反馈,研发团队构建了从问题发现、数据挖掘、人机结合标注到快速迭代的闭环优化系统,以让用户数据飞轮能持续作用于模型实际使用体验的提升。

One More Thing

另外,豆包官方还低调透露了一嘴“深度思考模式”的消息。

研发团队在完全不使用其他模型数据的条件下,通过RL算法突破和工程优化,充分发挥test time scaling的算力优势,已经实现了豆包深度思考模型。

团队表示,随着RL的持续,模型能力还在不断提升中:

在这一过程中,我们也看到了推理能力在不同领域的泛化,智能的边界正在被慢慢拓宽。

如此说来,下一个版本的豆包更新,可以期待起来了。

豆包的远谋

总结一下豆包1.5背后的技术思路,有两个关键词浮出水面:高效,以及“不走捷径”。

采用顶级模型蒸馏数据,在业内已经是心照不宣的法门,连C端用户,也对A模型口吐“我是B模型”之语见怪不怪。

OpenAI CEO奥特曼自己也曾暗示,复刻o1并没有实现o1本身那么难:

一方面,是在技术创新角度上,从0到1远比从1到100困难得多。

另一方面,大量的学术论文和产业实践已经验证,蒸馏顶级模型数据对于训练基础模型而言,可以说是一条“捷径”。

当然,这条捷径上也并非没有坑。

首先是数据安全问题。

蒸馏其他模型的数据,对于模型开发者而言,天然存在不可控的风险。教师模型的偏见、错误以及版权问题等,都可能会被传递给学生模型。

另外,这一技术方案也可能限制模型的性能上限。

近期就有一线大模型创业者表达了类似观点:如果一定要把模型去对齐一个别的模型,比如GPT的结果,会有一些能力受限。

如此看来,此番豆包公开强调“不使用任何其他模型数据”,背后透露出的是国内第一梯队大模型产品更长远的布局思路:

不走捷径,确保数据来源的独立性、可靠性、可控性。在追求更高智能的长期突破的过程中,把主动权更多地把握在自己手中。

现在,这种自主技术、长期主义的思路,也正在市场上得到正反馈:

火山引擎Tokens日均消耗量的月均复合增长率超过60%,2024年12月日均Tokens市场份额占比已超50%,坐上大模型商用年度头把交椅。

体验地址:
https://www.volcengine.com/

— 完 —

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
“底薪3000元24小时待岗”,32岁程序员周末猝死,妻子:若时光倒流,一定逼他辞职!公司去年三季报净利润8.67亿元

“底薪3000元24小时待岗”,32岁程序员周末猝死,妻子:若时光倒流,一定逼他辞职!公司去年三季报净利润8.67亿元

每日经济新闻
2026-01-22 22:43:06
马斯克创造历史,身家即将突破55000亿

马斯克创造历史,身家即将突破55000亿

新行情
2026-01-22 14:10:00
26岁健美选手毕嘉琪去世,好友曝在睡梦中猝死,满身肌肉血管暴起

26岁健美选手毕嘉琪去世,好友曝在睡梦中猝死,满身肌肉血管暴起

180视角
2026-01-22 13:34:58
马克西绝杀上篮遭杜兰特封盖,但回放显示应是干扰球

马克西绝杀上篮遭杜兰特封盖,但回放显示应是干扰球

懂球帝
2026-01-23 11:13:11
视源股份32岁程序员猝死:底薪3千24小时待岗 公司多岗位要求“抗压能力强”

视源股份32岁程序员猝死:底薪3千24小时待岗 公司多岗位要求“抗压能力强”

中国能源网
2026-01-23 09:04:03
华为登顶,吃了谁的蛋糕?

华为登顶,吃了谁的蛋糕?

智东西
2026-01-22 22:49:33
柬埔寨提高获取公民身份投资门槛:从30万美元涨至100万美元

柬埔寨提高获取公民身份投资门槛:从30万美元涨至100万美元

红星新闻
2026-01-22 13:15:18
知道不好骗了,索性开始硬抢了!

知道不好骗了,索性开始硬抢了!

胖胖说他不胖
2026-01-22 16:47:14
“和平委员会”名单公布,19国已签署,让中方意外的是普京和巴铁

“和平委员会”名单公布,19国已签署,让中方意外的是普京和巴铁

寻途
2026-01-23 05:34:38
马斯克亮相达沃斯:FSD最快2月在中国获批 Optimus明年开售

马斯克亮相达沃斯:FSD最快2月在中国获批 Optimus明年开售

凤凰网科技
2026-01-23 06:58:07
李亚鹏事件再升级,房东助理揭内情,暗指忘恩负义,当地居民发声

李亚鹏事件再升级,房东助理揭内情,暗指忘恩负义,当地居民发声

冷紫葉
2026-01-20 13:26:51
性商教母,被封号!

性商教母,被封号!

微微热评
2026-01-23 00:25:55
单征程6M在手,轻舟智航为何成为普惠级城市NOA“头号玩家”?

单征程6M在手,轻舟智航为何成为普惠级城市NOA“头号玩家”?

AutoBusiness
2026-01-22 15:06:28
泽连斯基宣布:涉嫌处决乌军战俘的俄军士兵已被俘

泽连斯基宣布:涉嫌处决乌军战俘的俄军士兵已被俘

桂系007
2026-01-20 13:23:22
美国启动所谓“和平委员会”,匈牙利、巴基斯坦、阿根廷、印尼、蒙古等18国已签署!特朗普达沃斯讲话,却遭群嘲

美国启动所谓“和平委员会”,匈牙利、巴基斯坦、阿根廷、印尼、蒙古等18国已签署!特朗普达沃斯讲话,却遭群嘲

每日经济新闻
2026-01-23 00:41:25
杜兰特36+7火箭加时惜败76人 恩比德32+15+10马克西36+10

杜兰特36+7火箭加时惜败76人 恩比德32+15+10马克西36+10

醉卧浮生
2026-01-23 10:39:00
爱老婆真的会发达!男子连续15年为妻女买黄金,共买了28件金条金饰,预估收益超100万元!

爱老婆真的会发达!男子连续15年为妻女买黄金,共买了28件金条金饰,预估收益超100万元!

佛山电视台小强热线
2026-01-22 20:00:29
“女硕士患精神疾病走失十余年被找回”案:两人涉嫌强奸罪被起诉

“女硕士患精神疾病走失十余年被找回”案:两人涉嫌强奸罪被起诉

大风新闻
2026-01-22 22:16:16
Tiktok官宣美国方案,两公司共同运营,字节保留算法知识产权

Tiktok官宣美国方案,两公司共同运营,字节保留算法知识产权

第一财经资讯
2026-01-23 08:53:35
央视曝光!真别再吃了,头皮发麻,市监局通报40批食品抽检不合格

央视曝光!真别再吃了,头皮发麻,市监局通报40批食品抽检不合格

深析古今
2026-01-22 16:49:37
2026-01-23 12:48:49
量子位 incentive-icons
量子位
追踪人工智能动态
12050文章数 176362关注度
往期回顾 全部

科技要闻

TikTok守住了算法"灵魂" 更握紧了"钱袋子"

头条要闻

32岁猝死程序员一人干六七人的工作 上月到手薪资披露

头条要闻

32岁猝死程序员一人干六七人的工作 上月到手薪资披露

体育要闻

跑个步而已,他们在燃什么?

娱乐要闻

刘大锤曝料 将王星越的“体面”撕粉碎

财经要闻

茂名首富,这次糟了

汽车要闻

“四十不惑”的吉利 信力不信命

态度原创

艺术
家居
房产
健康
游戏

艺术要闻

现在的春联太俗了,还是过去的“老对联”高雅!

家居要闻

在家度假 160平南洋混搭宅

房产要闻

正式官宣!三亚又一所名校要来了!

打工人年终总结!健康通关=赢麻了

《轮回之兽》已开发六年 非开放世界、时长40小时

无障碍浏览 进入关怀版