网易首页 > 网易号 > 正文 申请入驻

打磨三年、支持万亿 MoE,腾讯混元模型团队的真实推理实力到底如何?

0
分享至

采访嘉宾|刘凯,腾讯混元大模型推理方向负责人

作者 | 华卫

2023 年 9 月,腾讯终于在一片翘首以盼中推出自研的混元大模型。对于入局早晚的问题,腾讯董事会主席兼首席执行官马化腾曾这样说道,“我们在埋头研发,但并不急于早早做完,把半成品拿出来展示。”

据悉,混元大模型未来能支持 50 多个腾讯业务产品,而幻觉比主流开源大模型降低 30% 至 50%、文生图推理耗时缩短至 3-4 秒,是混元大模型目前已达到的推理性能。那么,其背后的核心团队究竟做了哪些努力?技术实力到底如何?

就此,InfoQ 对腾讯混元大模型推理方向负责人刘凯进行了专访,听他详细讲述了腾讯混元大模型在推理和压缩方面的技术能力与团队实践。在即将召开的 AICon 全球人工智能开发与应用大会 暨 大模型应用生态展上,InfoQ 也邀请到刘凯老师来做演讲分享,他将进一步透露大模型推理加速与压缩的技术方法以及腾讯混元大模型的落地进展。

以下为访谈实录,经编辑。

如何在推理赛道扳回“一局”?

InfoQ:、作为较晚入场大模型的国内互联网大厂,腾讯团队有什么优势?

刘凯:对于晚入场这个说法,并不准确。早在 2020 年,腾讯出于自身业务需要已经展开预训练大模型的技术探索和积累,并率先在内部业务譬如广告上进行应用投产。腾讯对于处理前沿技术探索和输出的关系,一贯以来是比较一致的,对于正在探索的技术路线,往往会用自身业务作为试验田对方案进行反复验证和完善,之后才会对外发布和输出。

说到优势,我觉得在大模型技术的前沿探索中,腾讯在以下方面具备相当的积累和竞争力:1、在数据、算法、工程等方向,我们有一批经验丰富的专家;2、我们有一个强大的机器学习平台 Angel(曾获 2023 年中国电子学会科学技术进步一等奖);3、腾讯内部有大量适合大模型落地的业务应用场景,能在和业务的合作中助力腾讯混元团队能力的快速成长。

InfoQ:推理能力对大模型而言十分关键,腾讯混元大模型做到了什么水平?目前是否有量化的能力指标?

刘凯:目前腾讯混元大模型的吞吐能力达到开源框架的 2 倍以上,文生图 & 文生视频推理耗时下降 65%。规模上,模型支持万亿 MoE、上下文长度保持 256K 以上,同时支持多种压缩方法,包括量化、蒸馏、裁剪、稀疏、并行解码、步数蒸馏等,能在保证效果无损的基础上,将吞吐提升 2~8 倍。

InfoQ:不同模态的内容生成框架下,混元大模型采用的推理和压缩方法有差异吗?

刘凯:会存在一定的差异。比如文生文 & 图生文的场景,由于模型较大一般需要采用分布式推理;而文生图 & 文生视频的扩散模型,在大部分场景下使用单卡推理即可,不过随着模型的逐步增大,我们也在支持分布式推理。

压缩方法上也存在一定的差异,文生图 & 文生视频扩散模型使用步数蒸馏收益更大,所以蒸馏的优先级会高于其他方法;而在生文场景,量化由于简单高效,优先级最高、之后逐步是蒸馏、投机采样、裁剪稀疏等方法。

InfoQ:目前有哪些可以有效提高模型推理速度和准确度的技术?主要优化思路是什么?

刘凯:并行解码等相关技术都值得一试,其主要思路是通过使用更小的模型或者一次更多的生成 token 数来加快速度,同时使用 base 模型进行结果校验来保证生成的效果。

InfoQ:对腾讯混元大模型来说,端侧推理是一个降低推理成本的好方式吗?是否有可能实现?

刘凯:是的,端侧推理是腾讯混元大模型逐步推进的一个方向。腾讯内部有很多业务适合端侧推理,比如会议、文档、输入法等。

将模型从大化“小”的心得

InfoQ:模型的规模参数大到一定程度后,会产生哪些负面效应?

刘凯:模型参数的持续上升,会带来成本的上升和耗时的增加,同时也给推理优化带来了很大的挑战。首先我们知道大模型推理的瓶颈主要集中在显存和带宽上,为了放下更大的模型,我们需要进行单机多卡、多机多卡的部署。

当使用多机多卡时,带宽就涉及到显存带宽、卡间带宽、网络带宽等三个方面,其速度依次递减,耗时会逐步上升,而部署卡数的上升必然会带来卡成本及配套设备成本的上升。此外,框架 3D 并行能力并非无限制无损扩展,如果超大模型设计的不合理,会使得优化难度成倍上升。

InfoQ:如何在保持性能效果的前提下将大模型做“小”?腾讯有什么好的技术思路分享?

刘凯:模型压缩方法主要包括蒸馏、裁剪、稀疏、量化等。在上述方法中,量化容易实现,是最稳定的,也是各大公司广泛使用的方法。以腾讯混元大模型为例,我们在 Dense 以及 MoE 模型都大规模使用了量化模型,从精度上覆盖了 INT8、FP8、INT4,并在逐步尝试 2bit、1bit 的压缩,目前在范围上已经支持了权重、激活、KV-Cache 的量化。

由于腾讯内部应用场景很多,对模型规模有多样的需求,我们也开发了裁剪 + 蒸馏的方式来快速扩展模型矩阵,保证各个业务可以使用适合自己的大模型。稀疏这块,其实服务器侧的使用会比较少,但腾讯在这块有持续打磨。除了上述通用方法之外,针对大模型也有一些新的压缩方法,比如文生文当中的 GQA/MQA,并行解码,Cache 方案等;文生图、文生视频的步数蒸馏等。

InfoQ:现实应用中,当落地场景的训练数据未知或不可获得时,如何合理进行模型压缩?

刘凯:针对这个问题我想稍微扩展一下,首先我们知道模型压缩一般分为 Training-Base 和 Training-Free 两种方法,但大模型压缩时我们一般还是建议走 Training-Free 过程,因为大模型的训练过程长、成本高、调参复杂,一般情况不建议去触碰。并且,随着模型规模的增大,无损压缩的难度是减小的,所以使用简单便捷的 Training-Free 的方法比较好。

使用 Training-Free 也需要一些数据进行校准,如果获得不到训练的数据时,我们的建议是通过两种方法解决:1、选取通用数据集的数据进行校准;2、使用大模型生成一定的数据来进行校准。

InfoQ:在即将到来的 AICon 上,您准备向听众分享哪些方面的内容?

刘凯:在即将到来的 AICon 上,我会给大家分享腾讯混元大模型推理框架 Angel-HCF、压缩工具 SNIP 的技术进展以及腾讯混元大模型的落地情况,并针对 GPU 底层优化、服务化能力、压缩算法的优缺点进行剖析,让大家能快速了解大模型推理相关技术。

嘉宾介绍:

刘凯,腾讯高级工程师,腾讯混元大模型推理方向负责人,负责文生文、文生图等大模型压缩优化及推理加速。10 年以上 GPU 高性能优化经验,丰富的深度学习推理框架优化经验。带领团队完成大模型压缩 & 推理框架从 0 到 1 的构建。

AICon 全球人工智能开发与应用大会 暨 大模型应用生态展将于 5 月 17 日正式开幕,本次大会主题为「智能未来,探索 AI 无限可能」。如您感兴趣,可点击「阅读原文」查看更多详情。

会议即将开幕,扫码可预约主题演讲直播,购票或咨询其他问题请联系票务同学:13269078023,或扫描上方二维码添加大会福利官,可领取福利资料包。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
别再存定期了!央行释放重要信号:普通人的财富保卫,主战场已变

别再存定期了!央行释放重要信号:普通人的财富保卫,主战场已变

复转小能手
2026-02-24 17:31:33
康熙将鳌拜满门抄斩,问其女:可知罪?女孩反问后,当场脸色大变

康熙将鳌拜满门抄斩,问其女:可知罪?女孩反问后,当场脸色大变

暮雨咋歇着
2026-02-17 22:32:22
西方观察家认为:这次的美伊以冲突会导致永久改写台海战争的规则

西方观察家认为:这次的美伊以冲突会导致永久改写台海战争的规则

阿芒娱乐说
2026-03-06 18:28:30
2026年3月起,贵人登门财运爆棚事业开挂的三个星座,抓住翻身机会

2026年3月起,贵人登门财运爆棚事业开挂的三个星座,抓住翻身机会

小晴星座说
2026-03-06 19:29:18
下任最高领袖遭“清除”威胁,伊朗还能打多久?

下任最高领袖遭“清除”威胁,伊朗还能打多久?

中国新闻周刊
2026-03-04 20:05:14
志愿军参谋长被授少将,彭总却说:他要是少将,我顶多中将!

志愿军参谋长被授少将,彭总却说:他要是少将,我顶多中将!

史韵流转
2026-03-06 09:16:04
两会第一天,48岁王励勤的“采访”火了,孙颖莎的心愿恐将达成

两会第一天,48岁王励勤的“采访”火了,孙颖莎的心愿恐将达成

小徐讲八卦
2026-03-06 06:05:12
居心险恶!打伊朗只是幌子,美国真正目的是隔山打牛,拖垮中国?

居心险恶!打伊朗只是幌子,美国真正目的是隔山打牛,拖垮中国?

近史博览
2026-03-06 09:14:34
伊朗封锁霍尔木兹海峡,五星红旗成为了“通行证”,美西方国家急了

伊朗封锁霍尔木兹海峡,五星红旗成为了“通行证”,美西方国家急了

麓谷隐士
2026-03-06 11:13:24
霍尔木兹海峡对中国放行,中国是敌是友伊朗分的很清楚

霍尔木兹海峡对中国放行,中国是敌是友伊朗分的很清楚

时光琉影8
2026-03-05 20:25:41
浙江8旬老人与保姆相伴多年,没领证成心病:我走了,她怎么办?

浙江8旬老人与保姆相伴多年,没领证成心病:我走了,她怎么办?

一丝不苟的法律人
2026-03-06 15:14:55
解放台湾需要多久?解放军中将给出准确答案

解放台湾需要多久?解放军中将给出准确答案

阿七说体育
2026-02-25 13:19:06
当豪华遇上智能:深度解析第六代奥迪A6L的五大进化

当豪华遇上智能:深度解析第六代奥迪A6L的五大进化

12缸汽车
2026-03-06 17:08:37
央视元宵晚会收视破7,一屋子专业歌手,愣是没唱过两个跨界演员

央视元宵晚会收视破7,一屋子专业歌手,愣是没唱过两个跨界演员

查尔菲的笔记
2026-03-05 12:00:14
一旦战争爆发,中国实力究竟有多强?美国专家的评价让人出乎意料

一旦战争爆发,中国实力究竟有多强?美国专家的评价让人出乎意料

蹲坑看世界
2026-03-04 10:14:26
人物|穆杰塔巴·哈梅内伊:伊朗权力核心的“影子接班人”?

人物|穆杰塔巴·哈梅内伊:伊朗权力核心的“影子接班人”?

上观新闻
2026-03-04 16:45:03
不到24小时,伊朗新防长遭斩首!哈梅死得不冤,内鬼才是最大威胁

不到24小时,伊朗新防长遭斩首!哈梅死得不冤,内鬼才是最大威胁

近史阁
2026-03-05 20:29:13
上港与河南的首轮中超比赛还没踢,球队就做出重要决定,赢得点赞

上港与河南的首轮中超比赛还没踢,球队就做出重要决定,赢得点赞

818体育
2026-03-06 18:07:03
属虎的!三八节一过,家中恐有大变化,快做好准备!

属虎的!三八节一过,家中恐有大变化,快做好准备!

糖逗在娱乐
2026-03-06 07:46:25
央视公布!中国卫星立大功,全程直播美军行动,一举一动尽收眼底

央视公布!中国卫星立大功,全程直播美军行动,一举一动尽收眼底

李健政观察
2026-03-05 14:23:55
2026-03-06 20:04:49
InfoQ incentive-icons
InfoQ
有内容的技术社区媒体
12115文章数 51789关注度
往期回顾 全部

科技要闻

独家|除夕加班、毫无黑料!林俊旸无奈离场

头条要闻

美媒询问中方对伊朗的支持是否涉军事援助 外交部回应

头条要闻

美媒询问中方对伊朗的支持是否涉军事援助 外交部回应

体育要闻

跑了24年,他终于成为英超“最长的河”

娱乐要闻

周杰伦社交媒体晒昆凌,夫妻感情稳定

财经要闻

关于经济、股市等,五部门都说了啥?

汽车要闻

逃离ICU,上汽通用“止血”企稳

态度原创

教育
旅游
时尚
房产
手机

教育要闻

少年新闻频道·新闻百科丨不仅“涨知识”,更为了“长脑子”

旅游要闻

黄河岸边山桃花竞放春意盎然

看来看去还是这些穿搭最高级,不老套、不死板,舒适又显气质

房产要闻

传统学区房熄火?2月海口二手房爆火的板块竟然是…

手机要闻

小米开测首个手机版龙虾Xiaomi miclaw!王腾:超级期待

无障碍浏览 进入关怀版