网易首页 > 网易号 > 正文 申请入驻

豆包1.5Pro重磅更新!7倍MoE性能杠杆,"不使用任何其他模型数据"

0
分享至

鱼羊 发自 凹非寺
量子位 | 公众号 QbitAI

春节前这一波大模型疯狂加更,字节也出手了,最新登场的是豆包全新基础模型——

Doubao-1.5-pro

豆包“演技精湛”的真人级语音对话功能刚刷屏,仅隔一天,背后基础模型字节也给抖落出来了。

先欣赏一波此豆包的演出:

基础模型登场,背后团队不仅放出细节满满的技术博客,还亲自给划了重点:

  • MoE架构,仅用较小激活参数,就能达到世界一流模型性能,性能杠杆达到7倍
  • 数据生产体系高度自主,不使用任何其他模型数据
  • 多模态能力全面提升

更妙的是,Doubao-1.5-pro官宣即上线,火山方舟体验网址同步开放,同时也在豆包APP灰度上线。

这还等什么,当然是第一时间上手实测啦。

就着技术博客,我们也来扒一扒背后更多技术细节,一起往下看~

实测豆包1.5系列

Talk is cheap,show me the product。

官方提到,Doubao-1.5-pro模型综合能力有显著增强,在知识、代码、推理、中文等多个权威测评基准上都达到SOTA。

那么首先,来看现在大模型圈最卷的推理能力。

推理能力实测

先简单来道逻辑判断题,看看Doubao-1.5-pro能不能接住。

某校食堂发生了一起严重的食物中毒事故,关于事故的原因,有如下四种说法:
甲:事故是由食物过期引起的
乙:如果事故是由食物过期引起的,那么食堂管理方面一定存在着监管不到位的现象
丙:事故确实是由食物过期引起,但食堂管理方面并不存在监管不到位的现象
丁:事故不是由食物过期引起的,但食堂管理方面存在监管不到位的现象
如果上述四种说法中只有一种是真的,由此可以推出
A. 乙为真,且食堂存在监管不到位的现象
B. 乙为真,但食堂没有存在监管不到位的现象
C. 甲为真
D. 丙为真

Doubao-1.5-pro的回答是酱婶的:

思路梳理得非常清晰,答案也是准确的。

加大一点难度,给豆包上点计算量,结果又会如何?

一个外星人来到地球后,第一天有相等的可能选择以下四件事中的一件完成:
1、自我毁灭;
2、分裂成两个外星人;
3、分裂成三个外星人;
4、什么都不做。
此后每天,每个外星人均会做一次选择,且彼此之间相互独立,求地球上最终没有外星人的概率

来看Doubao-1.5-pro的应对:

相同的提示词下,Claude 3.5 Sonnet一通输出,却在最后给答案的时候翻车了:

这一题,Doubao-1.5-pro也顺利过关。

值得一提的是,豆包大模型团队提到,Doubao-1.5-pro还经过了视觉、语音等多模态能力的“特训”。那么最后,我们再加试一道图片推理题:

看来跟豆包用表情包聊天,是不成问题了(doge)。

代码能力实测

测完推理能力,再来看看程序员们最关心的代码能力。

第一题,来个当时被o1-pro直接拒绝回答的离谱需求:

只用HTML代码复刻经典游戏《毁灭战士》。

Doubao-1.5-pro也表示:这不合理。

尽管如此,Doubao-1.5-pro还是试图满足我们“五彩斑斓的黑”的需求,主动提出解决方案:

可以使用HTML结合CSS和JavaScript来创建一个简化的、具有《毁灭战士》风格元素的小游戏示例。

运行这些代码,就能得到一个简单的射击小游戏界面,尽管认真要跑起来还需要微调细节,但大体框架并没有什么问题。

端到端语音功能

语音多模态方面,在Doubao-1.5-pro的加持下,豆包APP已经全量上线了新版实时语音对话功能。

于是,我们让豆包学华妃娘娘的语气,送了一波新春祝福:

这模仿能力和理解能力,你给打几分?

未使用任何其他模型蒸馏数据

一波实测下来,豆包大模型1.5 Pro不愧是压轴出场的角色,综合能力没有让大家伙儿失望。

而多个公开评测基准上的亮眼成绩,也从更客观的角度体现了Doubao-1.5-pro现在的身位。

可以看到,Doubao-1.5-pro已经达到业界领先水平,在中文能力上,更是超过了GPT-4o和Claude 3.5 Sonnet等国外大模型。

另外,在视觉和语音等多模态能力上,Doubao-1.5-pro同样取得了亮眼的成绩。

比如在视觉推理任务中,Doubao-1.5-pro的表现不逊色于GPT-4o:

值得关注的是,这一次模型上新,豆包大模型团队也在官方博客中释出了更多技术细节。

接下来,咱们就来划拉划拉重点。

性能杠杆提升至7倍

从Tokens使用量来看,截至12月中旬,豆包大模型的日均Tokens使用量已经超过4万亿,印证了Doubao API和豆包产品的海量推理需求。

为此,豆包团队从预训练阶段就坚持训练-推理一体设计,以平衡模型性能和推理成本。

具体而言,Doubao-1.5-pro采用稀疏MoE架构,团队通过对稀疏度Scaling Law的研究,确定了性能和效率比较平衡的稀疏比例,并根据MoE Scaling Law确定小参数量激活的模型就能达到世界一流模型的性能。

在预训练阶段,仅用较小参数激活的MoE模型,性能即可超过Llama3.1-405B等超大稠密预训练模型。

同时,在完全相同的部分训练数据(9T tokens)对比验证下,激活参数仅为1/7稠密模型参数量的MoE模型,表现超过了稠密模型,性能杠杆提升可达7倍

此前,业界在这一新能杠杆上的普遍水平为不到3倍。比如IBM的Grantie系列模型中,800M激活的MoE模型性能可以接近2B总参数的稠密模型,性能比值约为2.5倍。

高效后训练流程

在近来大模型们集中精力卷的PostTraining上,豆包大模型团队构建了一套高度自主的数据生产体系。

其中最值得关注的一点是:不使用任何其他模型的蒸馏数据,确保数据来源的独立性和可靠性。

SFT阶段,团队开发了一套算法驱动的训练数据优化系统,涵盖训练数据多样性优化,以及精确人题匹配功能,并结合模型自演进(Self-evolve)技术,提升数据标注的多样性和难度,形成了模型性能提升的良性循环。

奖励模型(Reward Model)部分,团队建立了包含prompt分布优化、response筛选、多轮迭代和active learning的完整数据生产pipeline。

在此基础之上,为了实现模型在数学、编程、知识、对话等多维度能力的均衡提升,团队通过深度融合Verlfier和奖励模型,构建了统一的Reward框架。

此外,基于梯度筛选和迭代过滤技术,豆包大模型团队用25%的数据,能够达到近似全量的训练效果。

强化学习(RL)阶段,团队攻克了价值函数训练难点,实现了token-wise稳定建模,在高难度任务上的性能提升超过10个绝对点。并通过对比学习方法,有效提升了模型表现,显著缓解了reward hacking问题。在数据、算法、模型层面全面实现了 Scaling 。

字节最擅长的AB Test经验也被引入了豆包大模型的Post-Training全流程。基于豆包的大规模用户反馈,研发团队构建了从问题发现、数据挖掘、人机结合标注到快速迭代的闭环优化系统,以让用户数据飞轮能持续作用于模型实际使用体验的提升。

One More Thing

另外,豆包官方还低调透露了一嘴“深度思考模式”的消息。

研发团队在完全不使用其他模型数据的条件下,通过RL算法突破和工程优化,充分发挥test time scaling的算力优势,已经实现了豆包深度思考模型。

团队表示,随着RL的持续,模型能力还在不断提升中:

在这一过程中,我们也看到了推理能力在不同领域的泛化,智能的边界正在被慢慢拓宽。

如此说来,下一个版本的豆包更新,可以期待起来了。

豆包的远谋

总结一下豆包1.5背后的技术思路,有两个关键词浮出水面:高效,以及“不走捷径”。

采用顶级模型蒸馏数据,在业内已经是心照不宣的法门,连C端用户,也对A模型口吐“我是B模型”之语见怪不怪。

OpenAI CEO奥特曼自己也曾暗示,复刻o1并没有实现o1本身那么难:

一方面,是在技术创新角度上,从0到1远比从1到100困难得多。

另一方面,大量的学术论文和产业实践已经验证,蒸馏顶级模型数据对于训练基础模型而言,可以说是一条“捷径”。

当然,这条捷径上也并非没有坑。

首先是数据安全问题。

蒸馏其他模型的数据,对于模型开发者而言,天然存在不可控的风险。教师模型的偏见、错误以及版权问题等,都可能会被传递给学生模型。

另外,这一技术方案也可能限制模型的性能上限。

近期就有一线大模型创业者表达了类似观点:如果一定要把模型去对齐一个别的模型,比如GPT的结果,会有一些能力受限。

如此看来,此番豆包公开强调“不使用任何其他模型数据”,背后透露出的是国内第一梯队大模型产品更长远的布局思路:

不走捷径,确保数据来源的独立性、可靠性、可控性。在追求更高智能的长期突破的过程中,把主动权更多地把握在自己手中。

现在,这种自主技术、长期主义的思路,也正在市场上得到正反馈:

火山引擎Tokens日均消耗量的月均复合增长率超过60%,2024年12月日均Tokens市场份额占比已超50%,坐上大模型商用年度头把交椅。

体验地址:
https://www.volcengine.com/

— 完 —

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
市场监管总局通报48批次食品抽检不合格情况

市场监管总局通报48批次食品抽检不合格情况

界面新闻
2026-01-23 19:04:08
局势恶化,百架F-35集结琉球,美军要搞突袭?上千艘中国船已列阵

局势恶化,百架F-35集结琉球,美军要搞突袭?上千艘中国船已列阵

影孖看世界
2026-01-19 16:33:36
2025中国商界年度人物揭晓:雷军刘强东落选,于东来意外入选

2025中国商界年度人物揭晓:雷军刘强东落选,于东来意外入选

调侃国际观点
2026-01-23 15:56:23
三星正式承认Galaxy S25 Plus爆炸事故,承诺赔偿用户医疗费用

三星正式承认Galaxy S25 Plus爆炸事故,承诺赔偿用户医疗费用

小蜜情感说
2026-01-24 00:35:23
如果在家突发心梗,黄金6分钟自救法,快了解,关键时刻可自救

如果在家突发心梗,黄金6分钟自救法,快了解,关键时刻可自救

健康科普365
2026-01-20 16:05:03
北京又要下雪了,最高温将降至零下!

北京又要下雪了,最高温将降至零下!

鲁中晨报
2026-01-23 17:19:11
42岁王冠定居上海,住800平独栋别墅穿188拖鞋,老公手上纹她名字

42岁王冠定居上海,住800平独栋别墅穿188拖鞋,老公手上纹她名字

疯说时尚
2026-01-22 15:58:27
美媒警告:若中国不还百年债务,美国将拒绝承认对华欠款。

美媒警告:若中国不还百年债务,美国将拒绝承认对华欠款。

特约前排观众
2026-01-23 00:10:07
面值400元“马钞”卖了3000元!业内人士:特殊号码数量有限推高价格

面值400元“马钞”卖了3000元!业内人士:特殊号码数量有限推高价格

封面新闻
2026-01-23 11:15:04
人民日报推荐:从摆烂到无痛自律的8张清单

人民日报推荐:从摆烂到无痛自律的8张清单

洞见
2026-01-18 11:12:10
又涨了!黄金突破5000美元/盎司进入倒计时

又涨了!黄金突破5000美元/盎司进入倒计时

封面新闻
2026-01-23 20:03:02
李银桥在回忆录中提及毛岸英牺牲需由彭德怀承担一定责任,但这一表述缺乏充分依据,难以成立

李银桥在回忆录中提及毛岸英牺牲需由彭德怀承担一定责任,但这一表述缺乏充分依据,难以成立

史海残云
2025-12-23 11:22:17
伊朗神权崩塌前夜:9000万高知青年与内战危机

伊朗神权崩塌前夜:9000万高知青年与内战危机

夏至陌离殇
2026-01-14 15:34:27
高开低走准备弃剧!《小城大事》最大败笔,就是这4位“戏混子”

高开低走准备弃剧!《小城大事》最大败笔,就是这4位“戏混子”

春风笑语
2026-01-23 18:21:54
1996年, 施瓦辛格在家中无事,和35岁200斤女佣发生不当关系

1996年, 施瓦辛格在家中无事,和35岁200斤女佣发生不当关系

南权先生
2026-01-20 15:49:53
克瑞斯·范·普维尔德出任中国足协技术总监

克瑞斯·范·普维尔德出任中国足协技术总监

澎湃新闻
2026-01-23 16:56:05
八字“食神制杀”的格局,地支的“食神”可以制住七杀吗?

八字“食神制杀”的格局,地支的“食神”可以制住七杀吗?

酉印文化
2026-01-15 14:53:36
女子出国在携程订接机服务,下飞机后有人冒充接机人员企图将其带走,女子询问平台人员被告知没有举牌服务

女子出国在携程订接机服务,下飞机后有人冒充接机人员企图将其带走,女子询问平台人员被告知没有举牌服务

观威海
2026-01-22 16:22:04
硬扛两个月,日不行了,中方第四波制裁开始,高市想见中方领导人

硬扛两个月,日不行了,中方第四波制裁开始,高市想见中方领导人

来科点谱
2026-01-23 11:08:16
变成顶级3D锋线了!快船为什么不能增加他的场上戏份呢?

变成顶级3D锋线了!快船为什么不能增加他的场上戏份呢?

稻谷与小麦
2026-01-23 22:19:54
2026-01-24 01:47:00
量子位 incentive-icons
量子位
追踪人工智能动态
12054文章数 176363关注度
往期回顾 全部

科技要闻

TikTok守住了算法"灵魂" 更握紧了"钱袋子"

头条要闻

疑在达沃斯受挫 79岁的特朗普转发超80条帖子发泄怒气

头条要闻

疑在达沃斯受挫 79岁的特朗普转发超80条帖子发泄怒气

体育要闻

杜兰特鏖战44分钟累瘫 轰36+7却致命失误

娱乐要闻

演员孙涛澄清闫学晶言论 落泪维护妻子

财经要闻

2026年,消费没有新故事?

汽车要闻

主打家庭大六座 奕境首款SUV将北京车展亮相

态度原创

时尚
手机
教育
房产
军事航空

今日热点:车银优代言广告被隐藏;《巅峰对决》主演担任米兰冬奥会火炬手……

手机要闻

5499元!天猫苹果旗舰店iPhone Air手机跳水大减价

教育要闻

震撼美味!!!!!!!

房产要闻

正式官宣!三亚又一所名校要来了!

军事要闻

美军首艘“高超导弹战舰”出海测试

无障碍浏览 进入关怀版