网易首页 > 网易号 > 正文 申请入驻

豆包1.5Pro重磅更新!7倍MoE性能杠杆,"不使用任何其他模型数据"

0
分享至

鱼羊 发自 凹非寺
量子位 | 公众号 QbitAI

春节前这一波大模型疯狂加更,字节也出手了,最新登场的是豆包全新基础模型——

Doubao-1.5-pro

豆包“演技精湛”的真人级语音对话功能刚刷屏,仅隔一天,背后基础模型字节也给抖落出来了。

先欣赏一波此豆包的演出:

基础模型登场,背后团队不仅放出细节满满的技术博客,还亲自给划了重点:

  • MoE架构,仅用较小激活参数,就能达到世界一流模型性能,性能杠杆达到7倍
  • 数据生产体系高度自主,不使用任何其他模型数据
  • 多模态能力全面提升

更妙的是,Doubao-1.5-pro官宣即上线,火山方舟体验网址同步开放,同时也在豆包APP灰度上线。

这还等什么,当然是第一时间上手实测啦。

就着技术博客,我们也来扒一扒背后更多技术细节,一起往下看~

实测豆包1.5系列

Talk is cheap,show me the product。

官方提到,Doubao-1.5-pro模型综合能力有显著增强,在知识、代码、推理、中文等多个权威测评基准上都达到SOTA。

那么首先,来看现在大模型圈最卷的推理能力。

推理能力实测

先简单来道逻辑判断题,看看Doubao-1.5-pro能不能接住。

某校食堂发生了一起严重的食物中毒事故,关于事故的原因,有如下四种说法:
甲:事故是由食物过期引起的
乙:如果事故是由食物过期引起的,那么食堂管理方面一定存在着监管不到位的现象
丙:事故确实是由食物过期引起,但食堂管理方面并不存在监管不到位的现象
丁:事故不是由食物过期引起的,但食堂管理方面存在监管不到位的现象
如果上述四种说法中只有一种是真的,由此可以推出
A. 乙为真,且食堂存在监管不到位的现象
B. 乙为真,但食堂没有存在监管不到位的现象
C. 甲为真
D. 丙为真

Doubao-1.5-pro的回答是酱婶的:

思路梳理得非常清晰,答案也是准确的。

加大一点难度,给豆包上点计算量,结果又会如何?

一个外星人来到地球后,第一天有相等的可能选择以下四件事中的一件完成:
1、自我毁灭;
2、分裂成两个外星人;
3、分裂成三个外星人;
4、什么都不做。
此后每天,每个外星人均会做一次选择,且彼此之间相互独立,求地球上最终没有外星人的概率

来看Doubao-1.5-pro的应对:

相同的提示词下,Claude 3.5 Sonnet一通输出,却在最后给答案的时候翻车了:

这一题,Doubao-1.5-pro也顺利过关。

值得一提的是,豆包大模型团队提到,Doubao-1.5-pro还经过了视觉、语音等多模态能力的“特训”。那么最后,我们再加试一道图片推理题:

看来跟豆包用表情包聊天,是不成问题了(doge)。

代码能力实测

测完推理能力,再来看看程序员们最关心的代码能力。

第一题,来个当时被o1-pro直接拒绝回答的离谱需求:

只用HTML代码复刻经典游戏《毁灭战士》。

Doubao-1.5-pro也表示:这不合理。

尽管如此,Doubao-1.5-pro还是试图满足我们“五彩斑斓的黑”的需求,主动提出解决方案:

可以使用HTML结合CSS和JavaScript来创建一个简化的、具有《毁灭战士》风格元素的小游戏示例。

运行这些代码,就能得到一个简单的射击小游戏界面,尽管认真要跑起来还需要微调细节,但大体框架并没有什么问题。

端到端语音功能

语音多模态方面,在Doubao-1.5-pro的加持下,豆包APP已经全量上线了新版实时语音对话功能。

于是,我们让豆包学华妃娘娘的语气,送了一波新春祝福:

这模仿能力和理解能力,你给打几分?

未使用任何其他模型蒸馏数据

一波实测下来,豆包大模型1.5 Pro不愧是压轴出场的角色,综合能力没有让大家伙儿失望。

而多个公开评测基准上的亮眼成绩,也从更客观的角度体现了Doubao-1.5-pro现在的身位。

可以看到,Doubao-1.5-pro已经达到业界领先水平,在中文能力上,更是超过了GPT-4o和Claude 3.5 Sonnet等国外大模型。

另外,在视觉和语音等多模态能力上,Doubao-1.5-pro同样取得了亮眼的成绩。

比如在视觉推理任务中,Doubao-1.5-pro的表现不逊色于GPT-4o:

值得关注的是,这一次模型上新,豆包大模型团队也在官方博客中释出了更多技术细节。

接下来,咱们就来划拉划拉重点。

性能杠杆提升至7倍

从Tokens使用量来看,截至12月中旬,豆包大模型的日均Tokens使用量已经超过4万亿,印证了Doubao API和豆包产品的海量推理需求。

为此,豆包团队从预训练阶段就坚持训练-推理一体设计,以平衡模型性能和推理成本。

具体而言,Doubao-1.5-pro采用稀疏MoE架构,团队通过对稀疏度Scaling Law的研究,确定了性能和效率比较平衡的稀疏比例,并根据MoE Scaling Law确定小参数量激活的模型就能达到世界一流模型的性能。

在预训练阶段,仅用较小参数激活的MoE模型,性能即可超过Llama3.1-405B等超大稠密预训练模型。

同时,在完全相同的部分训练数据(9T tokens)对比验证下,激活参数仅为1/7稠密模型参数量的MoE模型,表现超过了稠密模型,性能杠杆提升可达7倍

此前,业界在这一新能杠杆上的普遍水平为不到3倍。比如IBM的Grantie系列模型中,800M激活的MoE模型性能可以接近2B总参数的稠密模型,性能比值约为2.5倍。

高效后训练流程

在近来大模型们集中精力卷的PostTraining上,豆包大模型团队构建了一套高度自主的数据生产体系。

其中最值得关注的一点是:不使用任何其他模型的蒸馏数据,确保数据来源的独立性和可靠性。

SFT阶段,团队开发了一套算法驱动的训练数据优化系统,涵盖训练数据多样性优化,以及精确人题匹配功能,并结合模型自演进(Self-evolve)技术,提升数据标注的多样性和难度,形成了模型性能提升的良性循环。

奖励模型(Reward Model)部分,团队建立了包含prompt分布优化、response筛选、多轮迭代和active learning的完整数据生产pipeline。

在此基础之上,为了实现模型在数学、编程、知识、对话等多维度能力的均衡提升,团队通过深度融合Verlfier和奖励模型,构建了统一的Reward框架。

此外,基于梯度筛选和迭代过滤技术,豆包大模型团队用25%的数据,能够达到近似全量的训练效果。

强化学习(RL)阶段,团队攻克了价值函数训练难点,实现了token-wise稳定建模,在高难度任务上的性能提升超过10个绝对点。并通过对比学习方法,有效提升了模型表现,显著缓解了reward hacking问题。在数据、算法、模型层面全面实现了 Scaling 。

字节最擅长的AB Test经验也被引入了豆包大模型的Post-Training全流程。基于豆包的大规模用户反馈,研发团队构建了从问题发现、数据挖掘、人机结合标注到快速迭代的闭环优化系统,以让用户数据飞轮能持续作用于模型实际使用体验的提升。

One More Thing

另外,豆包官方还低调透露了一嘴“深度思考模式”的消息。

研发团队在完全不使用其他模型数据的条件下,通过RL算法突破和工程优化,充分发挥test time scaling的算力优势,已经实现了豆包深度思考模型。

团队表示,随着RL的持续,模型能力还在不断提升中:

在这一过程中,我们也看到了推理能力在不同领域的泛化,智能的边界正在被慢慢拓宽。

如此说来,下一个版本的豆包更新,可以期待起来了。

豆包的远谋

总结一下豆包1.5背后的技术思路,有两个关键词浮出水面:高效,以及“不走捷径”。

采用顶级模型蒸馏数据,在业内已经是心照不宣的法门,连C端用户,也对A模型口吐“我是B模型”之语见怪不怪。

OpenAI CEO奥特曼自己也曾暗示,复刻o1并没有实现o1本身那么难:

一方面,是在技术创新角度上,从0到1远比从1到100困难得多。

另一方面,大量的学术论文和产业实践已经验证,蒸馏顶级模型数据对于训练基础模型而言,可以说是一条“捷径”。

当然,这条捷径上也并非没有坑。

首先是数据安全问题。

蒸馏其他模型的数据,对于模型开发者而言,天然存在不可控的风险。教师模型的偏见、错误以及版权问题等,都可能会被传递给学生模型。

另外,这一技术方案也可能限制模型的性能上限。

近期就有一线大模型创业者表达了类似观点:如果一定要把模型去对齐一个别的模型,比如GPT的结果,会有一些能力受限。

如此看来,此番豆包公开强调“不使用任何其他模型数据”,背后透露出的是国内第一梯队大模型产品更长远的布局思路:

不走捷径,确保数据来源的独立性、可靠性、可控性。在追求更高智能的长期突破的过程中,把主动权更多地把握在自己手中。

现在,这种自主技术、长期主义的思路,也正在市场上得到正反馈:

火山引擎Tokens日均消耗量的月均复合增长率超过60%,2024年12月日均Tokens市场份额占比已超50%,坐上大模型商用年度头把交椅。

体验地址:
https://www.volcengine.com/

— 完 —

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
山东舰航母,2条电磁弹射器,兼容空警600,已成定局?

山东舰航母,2条电磁弹射器,兼容空警600,已成定局?

万里繁华
2026-01-23 11:13:03
苏州文旅被指“洗稿”原创文章,原作者只求公开致歉,官方回应:文章已下架,是否构成“洗稿”还需认定

苏州文旅被指“洗稿”原创文章,原作者只求公开致歉,官方回应:文章已下架,是否构成“洗稿”还需认定

扬子晚报
2026-01-22 22:40:28
春节前清租!天河长湴村狂奔,村民补偿猛涨

春节前清租!天河长湴村狂奔,村民补偿猛涨

广州楼市发布
2026-01-22 19:36:57
王楚然超级白嫩美腿太美了

王楚然超级白嫩美腿太美了

可乐谈情感
2026-01-18 11:08:58
贝克汉姆儿媳黑料被扒,曾被造型师吐槽人品差像怪物,且擅长公关

贝克汉姆儿媳黑料被扒,曾被造型师吐槽人品差像怪物,且擅长公关

电影侦探社
2026-01-22 18:10:29
董璇姐姐的普拉提,这身材谁扛得住

董璇姐姐的普拉提,这身材谁扛得住

小椰的奶奶
2026-01-23 11:46:10
1.23今日金价:大家不必等待了!接下来,金价有可能会重演历史!

1.23今日金价:大家不必等待了!接下来,金价有可能会重演历史!

叮当当科技
2026-01-23 03:36:50
自然资源部:坚决拥护党中央决定

自然资源部:坚决拥护党中央决定

新京报
2026-01-22 21:25:13
这夜,气质儒雅的梁朝伟成焦点,素面朝天甩了脂粉气十足的几条街

这夜,气质儒雅的梁朝伟成焦点,素面朝天甩了脂粉气十足的几条街

琴声飞扬
2026-01-22 13:37:44
曼联700万铁闸拒绝冬窗离队!接洽恩迪迪真相揭晓,两人仍是目标

曼联700万铁闸拒绝冬窗离队!接洽恩迪迪真相揭晓,两人仍是目标

罗米的曼联博客
2026-01-22 11:43:26
北京下了死命令,2027年底前,所有中小学必须告别“校外配餐”

北京下了死命令,2027年底前,所有中小学必须告别“校外配餐”

近史博览
2026-01-19 15:32:32
金臀遇上六块腹肌:金姐与C罗的第一次“撞车”

金臀遇上六块腹肌:金姐与C罗的第一次“撞车”

罗氏八卦
2026-01-23 08:44:27
热点丨重庆某医院检验科主任狂买30多处房产!面对纪委她称买房钱“都是借的”

热点丨重庆某医院检验科主任狂买30多处房产!面对纪委她称买房钱“都是借的”

钱眼
2026-01-22 20:09:20
第一个捐款的明星出现了!苗圃现身嫣然医院捐款,更多名人发声了

第一个捐款的明星出现了!苗圃现身嫣然医院捐款,更多名人发声了

萌神木木
2026-01-21 17:18:03
给机会不中用!杜兰特疑干扰球,火箭队加时惜败,球迷:正义必胜

给机会不中用!杜兰特疑干扰球,火箭队加时惜败,球迷:正义必胜

墨史轩
2026-01-23 11:19:04
印度希望中国无偿转让锂电池技术!被中国拒绝后,印度或无法接受

印度希望中国无偿转让锂电池技术!被中国拒绝后,印度或无法接受

临云史策
2026-01-22 18:48:25
为什么成功人士的精力都非常旺盛?网友:几乎不管任何琐碎的事情

为什么成功人士的精力都非常旺盛?网友:几乎不管任何琐碎的事情

另子维爱读史
2025-12-29 17:29:04
沈从文进精神病院后,妻子从未来探望,临终前他说:“对不起”

沈从文进精神病院后,妻子从未来探望,临终前他说:“对不起”

史之铭
2026-01-23 05:29:14
卷走53亿!又一大佬带全家跑路,欠中国银行20亿,投资者血本无归

卷走53亿!又一大佬带全家跑路,欠中国银行20亿,投资者血本无归

以茶带书
2025-12-09 23:33:58
又一品牌宣布:2月2日起,全线涨价!金价持续狂飙,有人直言扛不住了,“一夜没睡……”

又一品牌宣布:2月2日起,全线涨价!金价持续狂飙,有人直言扛不住了,“一夜没睡……”

都市快报橙柿互动
2026-01-23 11:28:21
2026-01-23 12:20:49
量子位 incentive-icons
量子位
追踪人工智能动态
12050文章数 176362关注度
往期回顾 全部

科技要闻

TikTok守住了算法"灵魂" 更握紧了"钱袋子"

头条要闻

面值400元“马钞”卖了3000元 有人报价4600元

头条要闻

面值400元“马钞”卖了3000元 有人报价4600元

体育要闻

跑个步而已,他们在燃什么?

娱乐要闻

刘大锤曝料 将王星越的“体面”撕粉碎

财经要闻

茂名首富,这次糟了

汽车要闻

“四十不惑”的吉利 信力不信命

态度原创

家居
游戏
教育
艺术
公开课

家居要闻

在家度假 160平南洋混搭宅

《神鬼寓言4》可捏脸、选择性别、结婚生子

教育要闻

143:21!高校“博士热”:学历内卷下硕士生的困境与破局

艺术要闻

现在的春联太俗了,还是过去的“老对联”高雅!

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版