网易首页 > 网易号 > 正文 申请入驻

豆包1.5Pro重磅更新!7倍MoE性能杠杆,"不使用任何其他模型数据"

0
分享至

鱼羊 发自 凹非寺
量子位 | 公众号 QbitAI

春节前这一波大模型疯狂加更,字节也出手了,最新登场的是豆包全新基础模型——

Doubao-1.5-pro

豆包“演技精湛”的真人级语音对话功能刚刷屏,仅隔一天,背后基础模型字节也给抖落出来了。

先欣赏一波此豆包的演出:

基础模型登场,背后团队不仅放出细节满满的技术博客,还亲自给划了重点:

  • MoE架构,仅用较小激活参数,就能达到世界一流模型性能,性能杠杆达到7倍
  • 数据生产体系高度自主,不使用任何其他模型数据
  • 多模态能力全面提升

更妙的是,Doubao-1.5-pro官宣即上线,火山方舟体验网址同步开放,同时也在豆包APP灰度上线。

这还等什么,当然是第一时间上手实测啦。

就着技术博客,我们也来扒一扒背后更多技术细节,一起往下看~

实测豆包1.5系列

Talk is cheap,show me the product。

官方提到,Doubao-1.5-pro模型综合能力有显著增强,在知识、代码、推理、中文等多个权威测评基准上都达到SOTA。

那么首先,来看现在大模型圈最卷的推理能力。

推理能力实测

先简单来道逻辑判断题,看看Doubao-1.5-pro能不能接住。

某校食堂发生了一起严重的食物中毒事故,关于事故的原因,有如下四种说法:
甲:事故是由食物过期引起的
乙:如果事故是由食物过期引起的,那么食堂管理方面一定存在着监管不到位的现象
丙:事故确实是由食物过期引起,但食堂管理方面并不存在监管不到位的现象
丁:事故不是由食物过期引起的,但食堂管理方面存在监管不到位的现象
如果上述四种说法中只有一种是真的,由此可以推出
A. 乙为真,且食堂存在监管不到位的现象
B. 乙为真,但食堂没有存在监管不到位的现象
C. 甲为真
D. 丙为真

Doubao-1.5-pro的回答是酱婶的:

思路梳理得非常清晰,答案也是准确的。

加大一点难度,给豆包上点计算量,结果又会如何?

一个外星人来到地球后,第一天有相等的可能选择以下四件事中的一件完成:
1、自我毁灭;
2、分裂成两个外星人;
3、分裂成三个外星人;
4、什么都不做。
此后每天,每个外星人均会做一次选择,且彼此之间相互独立,求地球上最终没有外星人的概率

来看Doubao-1.5-pro的应对:

相同的提示词下,Claude 3.5 Sonnet一通输出,却在最后给答案的时候翻车了:

这一题,Doubao-1.5-pro也顺利过关。

值得一提的是,豆包大模型团队提到,Doubao-1.5-pro还经过了视觉、语音等多模态能力的“特训”。那么最后,我们再加试一道图片推理题:

看来跟豆包用表情包聊天,是不成问题了(doge)。

代码能力实测

测完推理能力,再来看看程序员们最关心的代码能力。

第一题,来个当时被o1-pro直接拒绝回答的离谱需求:

只用HTML代码复刻经典游戏《毁灭战士》。

Doubao-1.5-pro也表示:这不合理。

尽管如此,Doubao-1.5-pro还是试图满足我们“五彩斑斓的黑”的需求,主动提出解决方案:

可以使用HTML结合CSS和JavaScript来创建一个简化的、具有《毁灭战士》风格元素的小游戏示例。

运行这些代码,就能得到一个简单的射击小游戏界面,尽管认真要跑起来还需要微调细节,但大体框架并没有什么问题。

端到端语音功能

语音多模态方面,在Doubao-1.5-pro的加持下,豆包APP已经全量上线了新版实时语音对话功能。

于是,我们让豆包学华妃娘娘的语气,送了一波新春祝福:

这模仿能力和理解能力,你给打几分?

未使用任何其他模型蒸馏数据

一波实测下来,豆包大模型1.5 Pro不愧是压轴出场的角色,综合能力没有让大家伙儿失望。

而多个公开评测基准上的亮眼成绩,也从更客观的角度体现了Doubao-1.5-pro现在的身位。

可以看到,Doubao-1.5-pro已经达到业界领先水平,在中文能力上,更是超过了GPT-4o和Claude 3.5 Sonnet等国外大模型。

另外,在视觉和语音等多模态能力上,Doubao-1.5-pro同样取得了亮眼的成绩。

比如在视觉推理任务中,Doubao-1.5-pro的表现不逊色于GPT-4o:

值得关注的是,这一次模型上新,豆包大模型团队也在官方博客中释出了更多技术细节。

接下来,咱们就来划拉划拉重点。

性能杠杆提升至7倍

从Tokens使用量来看,截至12月中旬,豆包大模型的日均Tokens使用量已经超过4万亿,印证了Doubao API和豆包产品的海量推理需求。

为此,豆包团队从预训练阶段就坚持训练-推理一体设计,以平衡模型性能和推理成本。

具体而言,Doubao-1.5-pro采用稀疏MoE架构,团队通过对稀疏度Scaling Law的研究,确定了性能和效率比较平衡的稀疏比例,并根据MoE Scaling Law确定小参数量激活的模型就能达到世界一流模型的性能。

在预训练阶段,仅用较小参数激活的MoE模型,性能即可超过Llama3.1-405B等超大稠密预训练模型。

同时,在完全相同的部分训练数据(9T tokens)对比验证下,激活参数仅为1/7稠密模型参数量的MoE模型,表现超过了稠密模型,性能杠杆提升可达7倍

此前,业界在这一新能杠杆上的普遍水平为不到3倍。比如IBM的Grantie系列模型中,800M激活的MoE模型性能可以接近2B总参数的稠密模型,性能比值约为2.5倍。

高效后训练流程

在近来大模型们集中精力卷的PostTraining上,豆包大模型团队构建了一套高度自主的数据生产体系。

其中最值得关注的一点是:不使用任何其他模型的蒸馏数据,确保数据来源的独立性和可靠性。

SFT阶段,团队开发了一套算法驱动的训练数据优化系统,涵盖训练数据多样性优化,以及精确人题匹配功能,并结合模型自演进(Self-evolve)技术,提升数据标注的多样性和难度,形成了模型性能提升的良性循环。

奖励模型(Reward Model)部分,团队建立了包含prompt分布优化、response筛选、多轮迭代和active learning的完整数据生产pipeline。

在此基础之上,为了实现模型在数学、编程、知识、对话等多维度能力的均衡提升,团队通过深度融合Verlfier和奖励模型,构建了统一的Reward框架。

此外,基于梯度筛选和迭代过滤技术,豆包大模型团队用25%的数据,能够达到近似全量的训练效果。

强化学习(RL)阶段,团队攻克了价值函数训练难点,实现了token-wise稳定建模,在高难度任务上的性能提升超过10个绝对点。并通过对比学习方法,有效提升了模型表现,显著缓解了reward hacking问题。在数据、算法、模型层面全面实现了 Scaling 。

字节最擅长的AB Test经验也被引入了豆包大模型的Post-Training全流程。基于豆包的大规模用户反馈,研发团队构建了从问题发现、数据挖掘、人机结合标注到快速迭代的闭环优化系统,以让用户数据飞轮能持续作用于模型实际使用体验的提升。

One More Thing

另外,豆包官方还低调透露了一嘴“深度思考模式”的消息。

研发团队在完全不使用其他模型数据的条件下,通过RL算法突破和工程优化,充分发挥test time scaling的算力优势,已经实现了豆包深度思考模型。

团队表示,随着RL的持续,模型能力还在不断提升中:

在这一过程中,我们也看到了推理能力在不同领域的泛化,智能的边界正在被慢慢拓宽。

如此说来,下一个版本的豆包更新,可以期待起来了。

豆包的远谋

总结一下豆包1.5背后的技术思路,有两个关键词浮出水面:高效,以及“不走捷径”。

采用顶级模型蒸馏数据,在业内已经是心照不宣的法门,连C端用户,也对A模型口吐“我是B模型”之语见怪不怪。

OpenAI CEO奥特曼自己也曾暗示,复刻o1并没有实现o1本身那么难:

一方面,是在技术创新角度上,从0到1远比从1到100困难得多。

另一方面,大量的学术论文和产业实践已经验证,蒸馏顶级模型数据对于训练基础模型而言,可以说是一条“捷径”。

当然,这条捷径上也并非没有坑。

首先是数据安全问题。

蒸馏其他模型的数据,对于模型开发者而言,天然存在不可控的风险。教师模型的偏见、错误以及版权问题等,都可能会被传递给学生模型。

另外,这一技术方案也可能限制模型的性能上限。

近期就有一线大模型创业者表达了类似观点:如果一定要把模型去对齐一个别的模型,比如GPT的结果,会有一些能力受限。

如此看来,此番豆包公开强调“不使用任何其他模型数据”,背后透露出的是国内第一梯队大模型产品更长远的布局思路:

不走捷径,确保数据来源的独立性、可靠性、可控性。在追求更高智能的长期突破的过程中,把主动权更多地把握在自己手中。

现在,这种自主技术、长期主义的思路,也正在市场上得到正反馈:

火山引擎Tokens日均消耗量的月均复合增长率超过60%,2024年12月日均Tokens市场份额占比已超50%,坐上大模型商用年度头把交椅。

体验地址:
https://www.volcengine.com/

— 完 —

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
格兰陵岛24小时内被售出,特朗普高兴之余收到坏消息

格兰陵岛24小时内被售出,特朗普高兴之余收到坏消息

夜里看海
2026-01-24 19:02:30
曝欧洲球队仅愿为李昊掏400万!西海岸标价2000万 留洋之路被封死

曝欧洲球队仅愿为李昊掏400万!西海岸标价2000万 留洋之路被封死

风过乡
2026-01-25 10:29:03
大胆预测一波,黄金最终可能会死于科技之手!

大胆预测一波,黄金最终可能会死于科技之手!

流苏晚晴
2026-01-25 17:50:56
1月24日,人社部部长最新表态,社保养老金迎来5个好消息

1月24日,人社部部长最新表态,社保养老金迎来5个好消息

财话连篇
2026-01-25 10:31:23
“正常男孩不会这样坐着”,家长晒儿子满墙奖状,网友却发现端倪

“正常男孩不会这样坐着”,家长晒儿子满墙奖状,网友却发现端倪

妍妍教育日记
2026-01-24 15:53:12
拿600万顶薪,场均4分2板!才28岁,就断崖式下滑?

拿600万顶薪,场均4分2板!才28岁,就断崖式下滑?

弄月公子
2026-01-25 13:08:12
哈电集团:坚决拥护党中央决定

哈电集团:坚决拥护党中央决定

界面新闻
2026-01-24 17:17:06
澳网第九日:王欣瑜10:30挑战阿尼西莫娃,辛纳无缘中心场

澳网第九日:王欣瑜10:30挑战阿尼西莫娃,辛纳无缘中心场

全网球APP
2026-01-25 18:12:49
俞泽辰轰8+2!姜宇星5分,李虎翼6分,亨特0分,辽篮落后新疆2分

俞泽辰轰8+2!姜宇星5分,李虎翼6分,亨特0分,辽篮落后新疆2分

君马体育
2026-01-25 21:03:51
不是迷信!明日腊八节,建议大家:1不出、2不泡、3要吃,别大意

不是迷信!明日腊八节,建议大家:1不出、2不泡、3要吃,别大意

普陀动物世界
2026-01-25 10:31:18
庾澄庆夫妇现身张学友演唱会!庾澄庆老了,妻子比伊能静更有气质

庾澄庆夫妇现身张学友演唱会!庾澄庆老了,妻子比伊能静更有气质

小徐讲八卦
2026-01-25 06:27:09
王钰栋低级失误!媒体人集体怒批:基本功太差,再不出去就晚了

王钰栋低级失误!媒体人集体怒批:基本功太差,再不出去就晚了

奥拜尔
2026-01-24 23:43:02
故事:国民女神宋慧乔,被财阀控制沦为玩物,收集证据10年逆袭

故事:国民女神宋慧乔,被财阀控制沦为玩物,收集证据10年逆袭

飞云如水
2025-01-17 13:43:48
新华社记者直击伊朗最新局势

新华社记者直击伊朗最新局势

新华社
2026-01-24 17:45:55
九碗面后,我抄底了这只龙头

九碗面后,我抄底了这只龙头

小狼哥
2026-01-25 19:11:41
A股:大家坐稳扶好了,明天周一,大牛市或将再次重演历史了!

A股:大家坐稳扶好了,明天周一,大牛市或将再次重演历史了!

另子维爱读史
2026-01-25 18:33:49
重磅!广东队被曝欲签下山西主力内线,朱芳雨又要出手了?

重磅!广东队被曝欲签下山西主力内线,朱芳雨又要出手了?

绯雨儿
2026-01-25 11:45:25
徐彬:输日本坚定了我留洋的决心,邵指导一直给我们灌输“要走出去”

徐彬:输日本坚定了我留洋的决心,邵指导一直给我们灌输“要走出去”

懂球帝
2026-01-25 16:26:21
A股:传来两个消息,明天,周一重要时刻来了!

A股:传来两个消息,明天,周一重要时刻来了!

明心
2026-01-25 11:36:45
回顾:广东16岁女儿不避父,母亲失控将女儿砍死,真相令人窒息

回顾:广东16岁女儿不避父,母亲失控将女儿砍死,真相令人窒息

兰姐说故事
2025-01-22 20:00:02
2026-01-25 22:03:03
量子位 incentive-icons
量子位
追踪人工智能动态
12060文章数 176362关注度
往期回顾 全部

科技要闻

黄仁勋在上海逛菜市场,可能惦记着三件事

头条要闻

在非洲遭绑架殴打的网红博主再发声:打人者愿赔40万

头条要闻

在非洲遭绑架殴打的网红博主再发声:打人者愿赔40万

体育要闻

中国足球不会一夜变强,但他们已经创造历史

娱乐要闻

央八开播 杨紫胡歌主演的40集大剧来了

财经要闻

隋广义等80人被公诉 千亿骗局进入末路

汽车要闻

别克至境E7内饰图曝光 新车将于一季度正式发布

态度原创

房产
本地
艺术
数码
军事航空

房产要闻

正式官宣!三亚又一所名校要来了!

本地新闻

云游中国|格尔木的四季朋友圈,张张值得你点赞

艺术要闻

他是天才画者!这幅作品让人惊叹不已!

数码要闻

AMD锐龙7 9850X3D隐藏特性:轻松省下数百元!

军事要闻

俄美乌三方首轮会谈细节披露

无障碍浏览 进入关怀版