网易首页 > 网易号 > 正文 申请入驻

直指端侧痛点 豆包向推理算力又“砍了一刀”:新模型架构最高降本83%

0
分享至

《科创板日报》2月12日讯(编辑 宋子乔) 豆包概念股午后大幅走强,汉得信息拉升封板,广和通、移远通信、润欣科技、博通集成等纷纷大幅冲高。

消息面上,据豆包大模型团队消息,字节跳动豆包大模型Foundation团队近期提出一种全新的稀疏模型架构——UltraMem,该架构在保证模型效果的前提下,推理速度较传统的MoE架构提升2-6倍,推理成本最高可降低83%。

这项创新成果已被机器学习和AI领域的顶级会议ICLR 2025接收,为解决大模型推理效率和扩展能力问题提供了全新思路。

直指大模型推理场景中的痛点

大模型的推理能力对应的是端侧AI应用/工具的响应能力和速度。随着模型规模的扩大,推理成本和访存效率已成为限制大模型规模应用的关键瓶颈。

在Transformer架构下,模型的性能与其参数数量和计算复杂度呈对数关系。随着LLM规模不断增大,推理成本会急剧增加,速度变慢。

为了解决计算问题,先前的研究者提出了MoE和PKM(Product Key Memory)方案,但它们都有各自的局限性

MoE架构牺牲了效率:MoE架构成功将计算和参数解耦,通过稀疏激活专家的方式,在训练阶段有效减少了计算量,但在推理时,由于模型在推理时只能一个字一个字的生成,batch size(批量大小)和sequence length(序列长度)通常较小,少量的token即可激活几乎所有的专家,进而导致访存急剧上升,进而使推理延迟大幅增加。
PKM架构牺牲了效果:PKM架构通过引入“行路由”和“列路由”机制,这种方法让每个token在推理时仅仅只激活极少数的value(与提示模板中的内容相关联的数据或信息),所以推理时不会遇到访存瓶颈,但其效果很差,且扩展能力有限,难以应对更大规模的模型需求。

这些局限性使得MoE和PKM在推理效率、模型效果和扩展能力等方面的优化空间仍需进一步探索。UltraMem正是为了解决上述痛点。

据介绍,UltraMem参考了PKM的设计,但针对PKM的缺陷予以补充,以实现更高效的访存、更优质的检索,同时,降低了显存和部署成本,其优势主要在于:

降低推理成本:与传统的MoE架构相比,UltraMem在推理成本上实现了最高83%的降低,这对于大规模模型的部署和运行具有重要意义。
提升推理速度:UltraMem的推理速度相比MoE架构提升了2-6倍,这使得模型在处理大规模数据时更加高效。
保持模型效果:在降低推理成本和提升推理速度的同时,UltraMem还保持了模型的效果,确保了模型的准确性和可靠性。

豆包研究团队在151M、680M、1.6B三个不同规模的模型上进行了广泛的实验。实验结果表明,UltraMem在模型效果和推理速度方面均优于MoE和PKM架构,且在680M、1.6B上具有显著的效果优势。

无论是训练端还是推理端,当大模型厂商卷起成本,意味着AI应用将在未来更加高效、易用。

推理成本大幅降低,将助推AI技术在更多领域的应用成为可能,尤其是对于资源受限的场景,如边缘计算和移动设备等,能让更多企业和开发者有能力使用和部署AI模型。

对于用户而言,UltraMem架构的突破、推理速度的提升可使AI应用如智能助手、自然语言处理等在实时应用中响应更迅速,交互更流畅,优化用户的使用体验,提高内容创作、日常办公等场景下的效率。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
上海男子爱上江西51岁老太,相差18岁恋爱九年不结婚

上海男子爱上江西51岁老太,相差18岁恋爱九年不结婚

浩舞纆画
2026-03-05 18:41:23
粟裕全歼张灵甫74师,毛主席听完战报沉默半晌:连我都没料到他敢这么打

粟裕全歼张灵甫74师,毛主席听完战报沉默半晌:连我都没料到他敢这么打

史海孤雁
2026-03-18 18:18:12
高市早苗称愿与中方对话,然后北京提了要求,日本上下都沉默了

高市早苗称愿与中方对话,然后北京提了要求,日本上下都沉默了

安安说
2026-03-25 11:00:02
马杜罗今天再次“出庭” 此前拒绝美方一切所谓“犯罪指控”

马杜罗今天再次“出庭” 此前拒绝美方一切所谓“犯罪指控”

闪电新闻
2026-03-26 10:21:04
江青作品惊艳!字写得灵动,秘诀竟在用笔!

江青作品惊艳!字写得灵动,秘诀竟在用笔!

书画相约
2026-03-19 09:15:49
美国隐瞒战死人数!美军炸了锅:不想为以色列而死

美国隐瞒战死人数!美军炸了锅:不想为以色列而死

涵豆说娱
2026-03-25 10:17:17
大伯突然给我发消息,让我赶紧卖掉房子,钱全部给堂弟,我问为啥

大伯突然给我发消息,让我赶紧卖掉房子,钱全部给堂弟,我问为啥

小秋情感说
2026-03-26 09:21:52
王晶曝陈百强真正死因,64岁何超琼颜面尽失

王晶曝陈百强真正死因,64岁何超琼颜面尽失

君笙的拂兮
2026-03-22 03:44:36
4、5、6月幸运连连的三个生肖,危机变转机,财富破土节节攀升

4、5、6月幸运连连的三个生肖,危机变转机,财富破土节节攀升

毅谈生肖
2026-03-26 11:47:20
兄弟俩联手创办苏宁,如今弟弟千亿资产清零,哥哥却走上另一条路

兄弟俩联手创办苏宁,如今弟弟千亿资产清零,哥哥却走上另一条路

鲸探所长
2026-03-24 14:38:04
揭开美国粮价低的真面目!他们骗人的鬼把戏终于被揭穿了!

揭开美国粮价低的真面目!他们骗人的鬼把戏终于被揭穿了!

老范谈史
2026-03-25 22:45:51
文班亚马惊天隔扣,马刺替补席惊呆了:这是外星人!

文班亚马惊天隔扣,马刺替补席惊呆了:这是外星人!

仰卧撑FTUer
2026-03-26 11:00:12
伊朗实力惊人,以方多个军事中心被炸,美以反应再次印证中国猜想

伊朗实力惊人,以方多个军事中心被炸,美以反应再次印证中国猜想

嘻嘻笑
2026-03-26 09:54:20
当医生看病遇到同行,网友:基本一句劝都听不到了!

当医生看病遇到同行,网友:基本一句劝都听不到了!

夜深爱杂谈
2026-03-25 21:05:25
台胞迎来好消息,统一后可自驾直达北京,郑丽文获大陆诚挚邀请

台胞迎来好消息,统一后可自驾直达北京,郑丽文获大陆诚挚邀请

肖兹探秘说
2026-03-25 19:08:23
麦克阿瑟回忆朝鲜战争:一开始我是日夜祈祷,希望中国能早日参战

麦克阿瑟回忆朝鲜战争:一开始我是日夜祈祷,希望中国能早日参战

我不是沃神
2026-03-23 09:25:03
一场战争掀开了一个政治乞丐

一场战争掀开了一个政治乞丐

维美丽心甜
2025-11-12 07:20:03
岛国女老师不科学身材大赏:巨灯细腰 TOP10,美到极致

岛国女老师不科学身材大赏:巨灯细腰 TOP10,美到极致

碧波万览
2026-03-26 01:20:03
“香港演员几乎全军覆没! 无戏可拍”引发网友热议

“香港演员几乎全军覆没! 无戏可拍”引发网友热议

许三岁
2026-03-26 11:35:13
78岁连路都走不稳还开演唱会,全网骂声一片,她却扬言回馈粉丝

78岁连路都走不稳还开演唱会,全网骂声一片,她却扬言回馈粉丝

洲洲影视娱评
2026-01-28 12:23:18
2026-03-26 13:48:49
财联社 incentive-icons
财联社
以“准确、快速、权威、专业”为新闻准则,为投资者提供专业的投资资讯。
699841文章数 1019179关注度
往期回顾 全部

科技要闻

Meta高管狂分百亿期权,700名员工却下岗

头条要闻

伊朗议长和外长暂被移出美以清除名单 时限4到5天

头条要闻

伊朗议长和外长暂被移出美以清除名单 时限4到5天

体育要闻

35岁替补门将,凭什么入选英格兰队?

娱乐要闻

张雪峰家人首发声 不设追思会丧事从简

财经要闻

黄仁勋:芯片公司的时代已经结束了

汽车要闻

一汽奥迪A6L e-tron开启预售 CLTC最大续航815km

态度原创

艺术
旅游
数码
时尚
手机

艺术要闻

哪一座桥不是风景?

旅游要闻

明起全面实行线上实名预约购票!云台山景区发布公告

数码要闻

Intel史上最先进!酷睿Ultra 300系列vPro平台发布

2026年了,最好看的还是“这件针织”!

手机要闻

三星One UI 9前瞻:小部件更方正、Now Bar动画更丝滑

无障碍浏览 进入关怀版