网易首页 > 网易号 > 正文 申请入驻

来自科技进步一等奖的肯定:腾讯破解万亿参数大模型训练难题

0
分享至

机器之心发布

机器之心编辑部

中国电子学会 2023 科学技术奖授奖名单公布,这次,我们发现了一个熟悉的身影 —— 腾讯 Angel 机器学习平台。

在大模型飞速发展的当下,科学技术奖授予机器学习平台类研究和应用项目,对于模型训练平台的价值和重要性给予了充分的肯定。



科学技术奖授予机器学习平台类研究和应用项目,在大模型飞速发展的当下,对于模型训练平台的价值和重要性给予了充分的肯定。

从深度学习的新一轮浪潮开始,各大公司都已经意识到机器学习平台对于打造人工智能技术的意义,谷歌、微软、英伟达都有自己的机器学习平台,为快速训练人工智能模型提供便捷支持。

2023 年开始,大模型的兴起进一步提升了模型参数量,各大公司都推出参数规模达千亿、万亿大小的模型,这些模型普遍采用深度神经网络模型,存在模型分布式训练难和应用复杂带来的模型设计难两大核心痛点。

为什么是 Angel 机器学习平台?

详解四大核心技术突破

由多名院士等权威专家组成的鉴定委员会认为, 腾讯 Angel 机器学习平台技术复杂度高、研制难度大、创新性强,应用前景广阔,整体技术达到国际先进水平,其中面向 all-to-all 通信的高效缓存调度与管理技术、自适应预采样与图结构搜索技术达到国际领先水平。



腾讯 Angel 平台架构图

腾讯 Angel 机器学习平台采用了分布式参数服务器架构,这种架构的特点是,存储模型参数和执行模型计算,这两种任务在分别的服务器上运行,增加更多服务器就可以支持更大、计算需求更高的模型。

面对海量数据和超大规模模型训练需求 ,腾讯 Angel 机器学习平台在网络通信与缓存、模型存储与调度、多模态模型与融合学习排序以及大规模图模型与结构搜索技术等核心环节取得技术突破。



为了提高训练效率,TB 级机器学习模型通常采用分布式训练方法,需要大量的参数和梯度同步,以 1.8T 模型千卡训练为例,IO 通信量达到 25TB, 耗时占比 53%,此外,加上不同算力集群间的异构网络环境,通信网络延迟不一,这些都对模型训练过程中的通信开销提出了较高的要求。腾讯 Angel 机器学习平台基于腾讯云星脉网络的高效通信与缓存调度管理技术,可有效解决 TB 级模型训练通讯开销大的问题,实现网络通信耗时减少 80%,分布式训练性能达业界主流方案的 2.5 倍。



现有的算力条件下,尽管模型达到 TB 级,而主流 GPU 的显存仍只有 80G,参数存储有瓶颈。针对 TB 级模型训练参数存储难的关键问题, 腾讯 Angel 机器学习平台提出了显存主存统一视角存储管理机制,实现模型存储容量比业界增加 1 倍,训练性能是业界主流方案 2 倍。



大模型要向通用模型发展,离不开对多模态数据的处理支持,不同模态,例如文字、图像、视频等数据的对齐融合理解难度大。在多模态模型的训练上, 腾讯 Angel 机器学习平台针对广告场景,提出多模态融合学习的全链路排序广告推荐技术,助力广告召回率提升 40% 以上。



另外,针对面向推荐系统的图模型训练, 腾讯 Angel 机器学习平台设计了图节点特征自适应图网络结构搜索技术,可自动输出最优结构,解决了 TB 图模型应用中 “图数据挖掘难” 的问题,实现模型训练性能提升 28 倍,与业界比具有最优扩展性。

腾讯 Angel 机器学习平台锻造之路

腾讯混元大模型扩展到万亿规模

作为腾讯人工智能技术的基础平台,腾讯 Angel 平台诞生于 2015 年,支持 PS-Worker 分布式训练, 以及十亿参数 LDA 模型的训练。

2017 年,Angel 框架在 Github 开源,向开发者开放,同时,技术上,Angel 解决了异构网络下的通信问题,性能进一步提升。2019 年,在可扩展图模型多模态理解技术取得突破,解决万亿节点可扩展图模型问题。2021 年,提出 GPU 显存统一视角存储技术,解决大模型 参数存储与性能问题。

在腾讯通用人工智能大模型腾讯混元的打造中,腾讯 Angel 机器学习平台也发挥了重要作用。

2023 年 9 月,腾讯混元大模型正式对外亮相,预训练语料超 2 万亿 tokens,具有强大的中文理解与创作能力、逻辑推理能力,以及可靠的任务执行能力。

面对建设腾讯混元大模型的需求,腾讯 Angel 机器学习平台打造了自研的面向大模型训练和推理的机器学习框架 Angel PTM 和 Angel HCF,支持单任务万卡级别超大规模训练和大规模推理服务部署。实现大模型训练效率提升至主流开源框架的 2.6 倍,千亿级大模型训练可节省 50% 算力成本,升级后支持单任务万卡级别超大规模训练。在推理上,腾讯 Angel 机器学习平台推理速度提高了 1.3 倍,在腾讯混元大模型文生图的应用中,推理耗时从原本的 10 秒缩短至 3 至 4 秒。

此外,Angel 还提供了从模型研发到应用落地的一站式平台,支持用户通过 API 接口或精调等方式快速调用腾讯混元大模型能力,加速大模型应用构建,腾讯会议、腾讯新闻、腾讯视频等超过 400 个腾讯产品及场景均已接入腾讯混元内测。

腾讯混元通过采用混合专家模型 (MoE) 结构,已将模型扩展至万亿级参数规模,推动了性能提升和推理成本下降。作为通用模型,腾讯混元在中文表现上处于业界领先水平,尤其在文本生成、数理逻辑和多轮对话中性能表现卓越。目前,腾讯混元也在积极发展多模态模型,以进一步加强文生图和文生视频能力。

腾讯大量的应用场景,为腾讯 Angel 机器学习平台的落地提供了实验地。除了腾讯混元大模型,腾讯 Angel 机器学习平台也支持了腾讯广告以及腾讯会议等产品,并通过腾讯云服务多个行业和企业客户,助力各行各业的数字化和智能化发展。

以腾讯广告为例,采用腾讯 Angel 机器学习平分布式训练优化、多模态理解图数据挖掘等创新技术,广告业务场景中的多模态大模型训练速度提升 5 倍,模型规模提升 10 倍,实现广告召回率大幅提升。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
杭州孤男寡女爬山真相大白,同学关系,女子擦伤的地方很清白!

杭州孤男寡女爬山真相大白,同学关系,女子擦伤的地方很清白!

小怪吃美食
2024-04-27 13:56:30
布林肯:推迟制裁,给以色列时间“纠正错误”

布林肯:推迟制裁,给以色列时间“纠正错误”

参考消息
2024-04-27 21:39:45
大乐透第24047期开奖:11 19 21 26 35 - 10 11,派奖第18期!

大乐透第24047期开奖:11 19 21 26 35 - 10 11,派奖第18期!

小宇宙双色球
2024-04-27 23:06:12
媒体人:申花绝杀进球被吹本身没问题,相似情况裁判尺度不一样

媒体人:申花绝杀进球被吹本身没问题,相似情况裁判尺度不一样

直播吧
2024-04-27 22:23:33
曝拼多多公然违反苹果规定,利用灵动岛向用户推送广告,且不留痕迹

曝拼多多公然违反苹果规定,利用灵动岛向用户推送广告,且不留痕迹

西游日记
2024-04-26 11:11:48
坐拥大唐不夜城、大唐芙蓉园等“摇钱树”,A股旅游龙头深夜公告:董事长被留置!

坐拥大唐不夜城、大唐芙蓉园等“摇钱树”,A股旅游龙头深夜公告:董事长被留置!

每日经济新闻
2024-04-27 00:40:14
减持美债1644亿,吃进黄金2800吨,我们给耶伦,送上了一份惊喜

减持美债1644亿,吃进黄金2800吨,我们给耶伦,送上了一份惊喜

户外钓鱼哥阿旱
2024-04-27 21:44:36
越扒越深!干部阻拦春耕,纪云浩上边领导被挖出,曝更大的瓜

越扒越深!干部阻拦春耕,纪云浩上边领导被挖出,曝更大的瓜

180°视角
2024-04-26 15:41:15
几乎长得一模一样的几对女明星!撞脸不可怕,谁不红谁尴尬

几乎长得一模一样的几对女明星!撞脸不可怕,谁不红谁尴尬

娱乐的小灶
2024-04-26 07:50:15
周恩来逝世后谁当总理?毛主席力推一人,此人婉拒:您考虑别人吧

周恩来逝世后谁当总理?毛主席力推一人,此人婉拒:您考虑别人吧

伍伍六六
2024-04-27 03:55:29
A股:震惊大A市场,超级大利好要来了,2亿股民将一起见证历史

A股:震惊大A市场,超级大利好要来了,2亿股民将一起见证历史

彩云的夕阳
2024-04-27 12:49:45
广东三名厅官被“双开”!

广东三名厅官被“双开”!

人民资讯
2024-04-26 16:45:22
有网友看清了长久以来对人才的态度

有网友看清了长久以来对人才的态度

清晖有墨
2024-03-23 12:20:11
伊朗60多名前外交官集体发声,要求与中俄保持距离,不要敌视西方

伊朗60多名前外交官集体发声,要求与中俄保持距离,不要敌视西方

慢聊的历史
2024-04-27 12:11:56
大约在秋季,美国应会让乌以同时打响,大帝和神权向何方?

大约在秋季,美国应会让乌以同时打响,大帝和神权向何方?

邵旭峰域
2024-04-25 14:20:03
篮协重罚!停赛5场+罚款30万,这个CBA“恶汉”下手真狠

篮协重罚!停赛5场+罚款30万,这个CBA“恶汉”下手真狠

刺头体育
2024-04-27 17:49:31
尘埃落定!马宁本轮吹罚国安点球犯规是不是误判,终于有权威结论

尘埃落定!马宁本轮吹罚国安点球犯规是不是误判,终于有权威结论

罗掌柜体育
2024-04-27 18:48:24
你碰到过哪些在某方面天赋极高的人?网友:那个小孩惊呆了众人

你碰到过哪些在某方面天赋极高的人?网友:那个小孩惊呆了众人

小鬼头体育
2024-03-31 23:48:52
“工业母机”5朵金花,喜迎“王炸”利好,或将走出翻倍行情?

“工业母机”5朵金花,喜迎“王炸”利好,或将走出翻倍行情?

农村阿祖
2024-04-27 16:48:59
范伟62岁再夺影帝,凭借电影《朝云暮雨》斩获北影节天坛奖影帝

范伟62岁再夺影帝,凭借电影《朝云暮雨》斩获北影节天坛奖影帝

娱乐寡姐
2024-04-26 22:44:47
2024-04-28 03:20:49
机器之心Pro
机器之心Pro
专业的人工智能媒体
8934文章数 141895关注度
往期回顾 全部

科技要闻

特斯拉这款车型刚上市几天,就上调价格

头条要闻

租车开网约车遭遇车损"套路":有人扣完押金还要倒补

头条要闻

租车开网约车遭遇车损"套路":有人扣完押金还要倒补

体育要闻

ESPN记者:利拉德遭遇跟腱拉伤 在今日球队录像课后已穿上保护靴

娱乐要闻

金靖回应不官宣恋情结婚的原因

财经要闻

北京房价回到2016年

汽车要闻

5月上市/智能化丰富 海狮 07EV正式到店

态度原创

游戏
艺术
旅游
教育
公开课

《剑星》引发众怒了!大量玩家退订PS+会员以示不满

艺术要闻

画廊周北京迎来第八年, “漂留” 主题聚集 30 余家艺术机构与 40 场展览

旅游要闻

散装河北,冀北、冀东、冀中、冀南如何划分?

教育要闻

高三女生扶起摔倒大妈却被反咬一口,拿出监控作证后,大妈破防了

公开课

睡前进食会让你发胖吗?

无障碍浏览 进入关怀版