网易首页 > 网易号 > 正文 申请入驻

大模型正在改变深度机器学习,训练大模型的工程技术挑战在哪里?

0
分享至

界面新闻记者 | 崔鹏

早在2020年,腾讯开始研发支持大模型训练和推理的工程技术底座时,初衷只是为了满足腾讯广告的需求,想通过提升参数量的方式,来提高广告模型推理预测的能力。

在OpenAI将生成式大模型带入主流视野之后,几乎所有头部厂商都在研究和推出自己的大模型业务。今年9月腾讯对外推出自研的通用大模型“混元大模型”,成为国内头部科技企业中最后一个对外发布大模型业务的公司。

推动大模型应用落地是一项颇为复杂的工程,不仅要考虑如何降低训练和精调的成本,还要关注投产时的推理成本。因为当所有的应用场景都用千亿级模型去做训练和推理时,会形成长期的成本消耗,企业需要支撑每次服务调用带来的算力成本。

有些厂商也推出了小尺寸模型,试图在性能、成本和效果之间做均衡:在一些需要高度复杂推理的场景下用大模型能力,在一些不太复杂的场景使用小尺寸模型。

任何一家厂商,如果想推出领先于竞品的大模型服务,不仅要有最好的硬件集群,还要针对新型算力集群提供训练推理框架、软件框架,做软硬适配一体化。

对于这些话题,近日,腾讯的两位混元大模型技术专家与界面新闻等媒体进行了深度沟通,聊到了大模型对传统深度机器学习平台的改变,以及大模型底层技术支撑对头部厂商的挑战。

机器学习平台不再是从0到1

虽然都在人工智能范畴之下,但在各大公司纷纷介入大模型研发后,即便是不久之前的深度机器学习平台,也与大模型优化出来的新型训练推理范式有着本质区别。

从模型的精调、评测再到部署,这些环节就是现在专属模型定制的主要训练过程,与传统机器学习平台的区别也主要集中在这个过程中。

比如说,传统的机器学习平台只提供各种库和算法,训练都是从0到1的过程,不会提供一个带参数的模型。

今天由大厂提供的千亿规模基础模型,则包含了各种尺寸的模型矩阵,以及庞大的数据量。此时研发人员要做的就是精调专属模型,并进行应用构建。

其中,庞大的数据量决定着应用落地的天花板。十几年前的机器学习平台,数据科学家60%-80%的时间在做数据清理,只有20%左右时间在建模。

大模型时代训练用的原始素材动辄以PB(1000TB)级别起步,“你不可能在任何一个环节上用手工做”,腾讯机器学习平台部的专家工程师姚军表示,如果没有智能数据处理,科学家哪怕花费100%的时间都处理不完这些数据。

这种参数规模呈现的是指数量级的增长,“智能不够,数据来凑”。2020年OpenAI的一篇论文中表示,他们从研究上发现整个人工智能从神经网络的深度和宽度上看,数据越多、模型越大,它对知识的归纳总结以及推理泛化能力就越强。

基础模型的参数决定了智能能力的天花板,但否能摸到天花板,很多时候取决于它与业务场景的适配,也就是精调模型的效果。

精调指的是企业基于大厂提供的基础模型,进行专属模型的训练(二次训练、精调训练),针对企业自己的应用场景和特有数据进行优化,让大模型能理解企业的应用指令,并且用特定方式输出它存储的数据。

比如OpenAI不久之前的发布会上,首席执行官Sam Altman演示的创业训练营案例文档,就包含大量的传统OCR和表格转换工作,想要让大模型看懂文档,就需要对针对这个垂直场景进行大量训练。

对于那些参数量成百上千亿的大模型来说,有多少参数在精调过程中可以改动,改动的越多,跟场景的适配越好,但也意味着更高的训练成本。

大模型提供的不同尺寸、不同程度的调参能力,以及降低幻觉的需求,也是与传统机器学习平台完全不同的地方。

数据各家都有,为何训练大模型这么难?

虽然很多公司都有不少数据积累,但不是每家公司都能承担起训练大模型的工作,挑战主要来自四个方面:

1、算力挑战。大模型算力呈现指数级增长,超过了很多硬件加速器的算力。

从早期的Bert模型,到LLamMA,再到GPT3和GPT4,深度模型网络要通过反向和前向计算去得到最好的权重值,每个位置上都要进行计算,因此模型的节点数量、网络层次的规模就决定了模型需要的计算量。

相比之下,今天的主流硬件加速器算力较为有限。以Bert模型为例,如果用一张英伟达V100卡来算,大概需要50天左右,如果用这张卡去计算GPT系列模型,可能要几十上百年时间。

2、显存挑战。目前大模型的规模已经增大到TB级别,远远超过一张卡的显存大小(GB级别),不再能像过去那样用一张卡来跑模型,分布式训练框架等新技术成为必经之路。

3、通信挑战。用多张卡做分布式训练时,由于卡与卡之间存在大量通信损耗,所以简单增加显卡不能得到线性加速结果。也就是说增加一倍的卡量,训练时间并不会减半。

所以,如何解决分布式训练中的通信问题,让实际的加速比尽可能贴近理论的加速比,这也是一个很大的工程问题。

4、故障挑战。所有硬件有一定的故障率,显卡跑的时间太久也会坏,尤其是温度问题,GPU算力使用较高后,会产生散热问题,高温会让机器进入自我保护状态,直接关机。

这些都是当下研究大模型的技术人员所要面临的工程技术难题,腾讯机器学习平台部总监陶阳宇也介绍了腾讯一些此前并未公开的解决方案。

比如通过3D多维并行提高训练的并行度,采用“数据并行+张量并行+流水并行”的方式,配合算子优化技术,提高并行路,降低在分布式训练过程中的网络通信开销,提升整体训练性能。

比如在存储层面,将GPU显存与系统内存统一编址、统一视角管理,扩大可存储模型的容量。显存和主存打通后,技术人员在训练时可以将大量参数先放在系统存储中,当需要的时候再放到显存里。

目前显存大小80G已经算非常大,但系统存储的主流容量已经来到了2T,所以通过显存和系统内存的统一编址,单机存储容量能提升90%,突破显存限制。这样也可以盘活大量低端显卡存货,用低端卡来训练大模型。

在显卡供给受阻的背景下,这一点更加重要。从实践结果来看,腾讯目前已经能基于40G显存低配卡训练出混元千亿大模型、24G低配卡实现模型精调。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
曾被嘲笑的丑车,如今带着帐篷和冰桶杀回来了

曾被嘲笑的丑车,如今带着帐篷和冰桶杀回来了

林间小温柔
2026-06-28 00:06:53
有退休金的人发现一个奇怪的现象:手里有20、30万存款的老人,最后过得好的,几乎都做了同两个让子女意外的决定

有退休金的人发现一个奇怪的现象:手里有20、30万存款的老人,最后过得好的,几乎都做了同两个让子女意外的决定

心理观察局
2026-06-07 06:37:04
中国2.2亿独生子女,正面临无解的困局,后半辈子会越来越难熬?

中国2.2亿独生子女,正面临无解的困局,后半辈子会越来越难熬?

普陀动物世界
2026-06-28 03:00:32
你敢相信吗?乌克兰最狠的武器不是海马斯,而是一群废了的老兵

你敢相信吗?乌克兰最狠的武器不是海马斯,而是一群废了的老兵

菁菁子衿
2026-06-27 10:19:16
第38届大众电影百花奖投票正火热进行

第38届大众电影百花奖投票正火热进行

中国电影报
2026-06-26 12:41:53
再开7店!奥乐齐继续加码江苏市场

再开7店!奥乐齐继续加码江苏市场

互联网圈子那点事
2026-06-27 15:07:55
资治通鉴:别把任何人当神,那些真正爬上顶端的人,都亲手踩碎了你我不敢踩的两种东西

资治通鉴:别把任何人当神,那些真正爬上顶端的人,都亲手踩碎了你我不敢踩的两种东西

心理观察局
2026-06-21 07:13:15
31国军演同步开锣!强援全部到位,中日若爆发冲突,结局只有一个

31国军演同步开锣!强援全部到位,中日若爆发冲突,结局只有一个

近史谈
2026-06-25 01:46:49
妻子出轨,丈夫将15公分蜡烛塞进妻子的阴道内

妻子出轨,丈夫将15公分蜡烛塞进妻子的阴道内

胖胖侃咖
2025-04-13 08:00:08
留洋球员,英格兰队世界杯首发首次有4人来自非英格兰俱乐部

留洋球员,英格兰队世界杯首发首次有4人来自非英格兰俱乐部

懂球帝
2026-06-28 04:24:08
张柏芝早年和粉丝合影,素颜比化了妆还精致,真不愧是骨相大美人

张柏芝早年和粉丝合影,素颜比化了妆还精致,真不愧是骨相大美人

木子爱娱乐大号
2026-06-25 17:39:00
为什么女性会有比男性更高的性快感,从进化论的角度分析?

为什么女性会有比男性更高的性快感,从进化论的角度分析?

宇宙时空
2026-05-29 18:00:14
场均狂胜52分!女篮霸主豪取4连胜晋级:冲击总冠军指日可待了?

场均狂胜52分!女篮霸主豪取4连胜晋级:冲击总冠军指日可待了?

篮球快餐车
2026-06-28 02:18:41
上海历年净流入人口:2025年超10万人涌入上海

上海历年净流入人口:2025年超10万人涌入上海

安安小小姐姐说城市
2026-06-27 20:10:08
历史性突破!美以黎签署三方达成一致,共同打击真主党武装力量

历史性突破!美以黎签署三方达成一致,共同打击真主党武装力量

以色列计划Pro
2026-06-27 20:16:08
中国最美的6个城市,去过3个算合格,去过6个了不起!!

中国最美的6个城市,去过3个算合格,去过6个了不起!!

旅游周刊
2026-06-14 20:45:55
一旦开战,中国3000架飞机根本上不了场?俄专家揭露真相

一旦开战,中国3000架飞机根本上不了场?俄专家揭露真相

青山夜谈
2026-06-16 17:16:03
联合国罕见实锤:以色列被正式定性种族灭绝,中方表态斩钉截铁

联合国罕见实锤:以色列被正式定性种族灭绝,中方表态斩钉截铁

春露秋霜
2026-06-26 23:31:22
一步之遥!比利时5-1新西兰,埃及1-1伊朗,韩国队濒临淘汰!

一步之遥!比利时5-1新西兰,埃及1-1伊朗,韩国队濒临淘汰!

烟浔渺渺
2026-06-27 16:31:35
为什么西医思维管理中医会引发诉讼风波?

为什么西医思维管理中医会引发诉讼风波?

烽火瞭望者
2026-06-27 06:20:30
2026-06-28 04:40:49
界面新闻 incentive-icons
界面新闻
只服务于独立思考的人群
1115845文章数 1336446关注度
往期回顾 全部

科技要闻

GPT-5.6发布,你暂时用不了!Mythos也放行

头条要闻

金价大跌 有商家资产缩水百万:跌掉一辆迈巴赫

头条要闻

金价大跌 有商家资产缩水百万:跌掉一辆迈巴赫

体育要闻

世界杯最火门将,站到了阿根廷和梅西面前

娱乐要闻

四提白玉兰终封后,杨紫:仍觉不真实

财经要闻

OpenAI推迟IPO重创软银!

汽车要闻

搭载华为乾崑ADS 5 全新猛士M817上市售29.99万起

态度原创

房产
教育
健康
时尚
本地

房产要闻

全国高考大放水,300分就能上本科!论上岸率,海南没输过!

教育要闻

教学校长邢金涛做客新京报直播间,分享从639分到692分的真实复读案例

“无糖汤圆”是否隐藏着健康陷阱?

伊姐周六热推:电视剧《昨夜将至》;电影《蝴蝶楼·惊魂》......

本地新闻

世界杯球迷节:比球赛更好玩的派对

无障碍浏览 进入关怀版