网易首页 > 网易号 > 正文 申请入驻

千亿参数的大模型,需要多少算力?

0
分享至

作者 | Owen Zhu

出品 | NPCon(新程序员大会)

与狭义的人工智能相比,通用人工智能通过跨领域、跨学科、跨任务和跨模态的大模型,能够满足更广泛的场景需求、实现更高程度的逻辑理解能力与使用工具能力。2023 年,随着 LLM 大规模语言模型技术的不断突破,大模型为探索更高阶的通用人工智能带来了新的曙光。通用人工智能进入了快速发展期,在中国,大模型已经呈现出百花齐放的态势,各种大模型层出不穷。

要想在「百模争秀」的时代占得先机,AI 开发团队需要着力化解算力、算法、数据层面的巨大挑战,而开发效率和训练速度是保障大模型市场竞争力的核心关键因素,也是未来的核心发力点。

浪潮信息人工智能与高性能应用软件部 AI 架构师 Owen ZHU 参与首届由 CSDN、《新程序员》联合主办的 NPCon:AI 模型技术与应用峰会,分享了面向新一轮 AIGC 产业革命,AI 大模型的算力系统解决之道,并强调算力、算法、数据和系统架构等多个方面的综合优化对大模型训练到了至关重要的作用。

本次分享主要包含三块内容,分别是:

一、「百模争秀」时代的算力瓶颈

二、欲炼大模型,先利其器

三、大模型的天花板,基础设施决定速度

备注:现场视频请查阅「CSDN视频号」

「百模争秀」时代的算力瓶颈

大模型研发的核心技术是由预训练与 Alignment(价值对齐)组成的,第一部分就是预训练,需要用大量的数据使模型收敛速度更快、性能更好。第二部分则是 Alignment(价值对齐),Alignment (价值对齐)不完全等于强化学习,其通过使用多种方式/策略优化模型输出,让 AI 在和人的交流反馈中学会如何沟通表达,这两部分是提升大模型质量的核心要素。

目前来看,模型基础能力取决于数据、模型参数量和算力。模型参数量越大、投入的训练数据越大,模型泛化能力越强。由于资源限制,在两者不可兼得的时候,应该如何进行取舍呢?OpenAI 的研究结论认为,与增加数据量相比,先增大模型参数量受益则会更好,用一千亿的模型训练两千亿的 Token 和两千亿模型训练一千亿的 Token,后者的模型性能会更高。

由此可见,参数量是衡量模型能力的一个重要指标,当模型参数量增长超过一定阈值时,模型能力表现出跃迁式的提升,表现出来语言理解能力、生成能力、逻辑推理能力等能力的显著提升,这也就是我们所说的模型的涌现能力。

模型规模多大能产生涌现能力呢?

现在来看,百亿参数是模型具备涌现能力的门槛,千亿参数的模型具备较好的涌现能力。但这并不意味着模型规模就要上升到万亿规模级别的竞争,因为现有大模型并没有得到充分训练,如 GPT-3 的每个参数基本上只训练了 1-2 个Token,DeepMind 的研究表明,如果把一个大模型训练充分,需要把每个参数量训练 20 个 Token。

所以,当前的很多千亿规模的大模型还需要用多 10 倍的数据进行训练,模型性能才能达到比较好的水平。

无论是提高模型参数量还是提升数据规模,算力依旧是大模型能力提升的核心驱动力:需要用「足够大」的算力,去支撑起「足够精准」模型泛化能力。

当前大模型训练的算力当量还在进一步增大,从 GPT-3 到 GPT-4 算力当量增长了 68 倍。算力当量越大,交叉熵越小,模型能力越强。随着训练的 token 数、模型参数、计算量的增加,语言模型的 loss 在平滑下降,这就意味着大语言模型的精度可以随着计算量、参数规模、token 数扩展进一步提升。

欲炼大模型,先利其器

大模型能力来源于大量工程实践经验,预训练的工程挑战巨大,这表现在如下几个方面:首先,AI 大模型的演化对于集群的并行运算效率、片上存储、带宽、低延时的访存等也都提出了较高的需求,万卡AI平台的规划建设、性能调优、算力调度都是很难解决的难题;其次,大规模训练普遍存在硬件故障、梯度爆炸等小规模训练不会遇到的问题;再次,工程实践方面的缺乏导致企业难以在模型质量上实现快速提升。

作为最早布局大模型的企业之一,浪潮信息在业界率先推出了中文 AI 巨量模型「源 1.0」,参数规模高达 2457 亿。千亿参数规模的大模型创新实践,使得浪潮信息在大模型领域积累了实战技术经验并拥有专业的研发团队,为业界提供AI算力系统参考设计。

在算力效率层面,针对大模型训练中存在计算模式复杂,算力集群性能较低的情况。源 1.0 在大规模分布式训练中采用了张量并行、流水线并行和数据并行的三维并行策略,使用 266 台 8 卡 NVLINK A100 服务器,训练耗时约 15 天,单卡计算效率约 44%。共计训练了 180 billion token,并将模型最后的 loss 值收敛至 1.73,显著低于 GPT-3 等业界其他语言模型。

首次提出面向效率和精度优化的大模型结构协同设计方法,围绕深度学习框架、训练集群 IO、通信开展了深入优化,在仅采用 2x200G 互联的情况下,源 1.0的算力效率达到 45%,算力效率世界领先。在集群高速互联层面,基于原生 RDMA 实现整个集群的全线速组网,并对网络拓扑进行优化,可以有效消除混合计算的计算瓶颈,确保集群在大模型训练时始终处于最佳状态。

大模型的天花板:算力效率决定速度

当前,中国和业界先进水平大模型的算力差距依然较大,从算力当量来看,GPT-4 的算力当量已经达到了 248,842PD,而国内大多数主流的大模型算力大量仅为数千 PD,差距高达近百倍。

同时,中国和业界先进水平大模型在算法、数据方面也存在巨大差距。在算法方面,虽然开源为国内大模型发展带来了弯道超车的良机,但 LLaMA 等开源大模型相比 GPT4 等顶级水平自研模型的性能,开源模型的能力存在「天花板」。

在数据方面,中文数据集和英文数据集相比较,在规模、质量上均存在显著差距,相较于动辄数千亿单词量级的英文数据,中文大模型的数据量级仅为百亿左右,而且开源程度较低,封闭程度较高。

开发大模型、发展通用人工智能是一项非常复杂的系统工程,我们亟需从系统层面为未来大模型的良好生态发展寻找最优解。从实战中走来,通过构建高效稳定的智算系统,加速模型开发效率提升。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
深度长文:原子里面99%以上都是真空?那里比现实世界更热闹!

深度长文:原子里面99%以上都是真空?那里比现实世界更热闹!

宇宙时空
2026-03-11 10:45:11
伊朗女足回国判死刑?伊朗官方:保证她们及其家人安全 欢迎回家

伊朗女足回国判死刑?伊朗官方:保证她们及其家人安全 欢迎回家

念洲
2026-03-11 08:04:14
特朗普一换说法,油价就回归,而他与万斯矛盾显现无遗!

特朗普一换说法,油价就回归,而他与万斯矛盾显现无遗!

新民晚报
2026-03-11 10:31:59
国防部:人工智能军事应用应坚持由人主导、防止失控

国防部:人工智能军事应用应坚持由人主导、防止失控

界面新闻
2026-03-11 15:09:44
最高院:借款人已支付利息超过法定利率上限的,可冲抵借款本金!

最高院:借款人已支付利息超过法定利率上限的,可冲抵借款本金!

周军律师聊案子
2026-03-11 09:21:04
81岁退休大爷日入8000,短剧里演“董事长爹”:闲着不如拍拍戏

81岁退休大爷日入8000,短剧里演“董事长爹”:闲着不如拍拍戏

韩小娱
2026-03-11 12:07:33
你敢相信她是饶舌歌手和演员双修?

你敢相信她是饶舌歌手和演员双修?

贵圈真乱
2026-03-11 10:31:47
像微信一样,X将打造为超级应用!马斯克宣布 X Money 下月开放公测,年化存款利率 6%

像微信一样,X将打造为超级应用!马斯克宣布 X Money 下月开放公测,年化存款利率 6%

新浪财经
2026-03-11 02:28:24
羡慕吗?国外图书馆都能借上3A大作了

羡慕吗?国外图书馆都能借上3A大作了

游民星空
2026-03-10 20:22:09
反转!21岁伊朗出走球员后悔 留澳后又要回伊朗 自愿决定非受威胁

反转!21岁伊朗出走球员后悔 留澳后又要回伊朗 自愿决定非受威胁

念洲
2026-03-11 18:49:17
那个“全世界最美女孩”终于长大要嫁啦,求婚现场甜齁了!

那个“全世界最美女孩”终于长大要嫁啦,求婚现场甜齁了!

新欧洲
2026-03-10 21:05:54
41岁仍拍三级片追求刺激?从亿万富豪再到烂片女王,她在追求什么

41岁仍拍三级片追求刺激?从亿万富豪再到烂片女王,她在追求什么

TVB的四小花
2026-03-11 17:12:38
纳斯达克中国金龙指数跌幅扩大,现跌1.0%,最新报7150.12点

纳斯达克中国金龙指数跌幅扩大,现跌1.0%,最新报7150.12点

每日经济新闻
2026-03-11 23:27:48
突然宣布大裁员!至少5万人将失业

突然宣布大裁员!至少5万人将失业

江南晚报
2026-03-11 08:07:28
知三当三、被婆婆扫地出门?孙怡高调官宣喜讯,彻底打脸董子健

知三当三、被婆婆扫地出门?孙怡高调官宣喜讯,彻底打脸董子健

观察者海风
2026-03-10 13:52:31
为大器晚成者“留门”,多位委员建言打破大龄就业限制

为大器晚成者“留门”,多位委员建言打破大龄就业限制

极目新闻
2026-03-11 13:45:28
3月10日俄乌最新:川普和普京交换利益?

3月10日俄乌最新:川普和普京交换利益?

西楼饮月
2026-03-11 10:03:46
中东变天!伊朗获中方“杀手锏”,美航母被迫后撤,五角大楼慌了

中东变天!伊朗获中方“杀手锏”,美航母被迫后撤,五角大楼慌了

胖福的小木屋
2026-03-10 23:54:43
报应啊!网传保定泼螺蛳粉汤女子是幼师,已被辞退,5年工作泡汤

报应啊!网传保定泼螺蛳粉汤女子是幼师,已被辞退,5年工作泡汤

火山詩话
2026-03-11 06:46:27
以色列已经告诉世界:日本若敢拥有核武器,美国并不会第一个翻脸

以色列已经告诉世界:日本若敢拥有核武器,美国并不会第一个翻脸

八斗小先生
2025-12-26 09:33:27
2026-03-12 01:51:00
CSDN incentive-icons
CSDN
成就一亿技术人
26372文章数 242242关注度
往期回顾 全部

科技要闻

腾讯"养虾"暴涨后,百度急得在门口"装虾"

头条要闻

特朗普称必要时美军护航霍尔木兹海峡 美军:护不了

头条要闻

特朗普称必要时美军护航霍尔木兹海峡 美军:护不了

体育要闻

郭艾伦重伤,CBA下半赛季还能期待些什么

娱乐要闻

蔡少芬晒全家福照,两女儿成最大亮点

财经要闻

唤醒10万亿存量资金 公积金改革大潮来了

汽车要闻

莲花纠偏, 冯擎峰的“收”与“守”

态度原创

手机
本地
时尚
教育
公开课

手机要闻

第一台龙虾手机来了:小米「养虾」,意在何处?

本地新闻

这档韩国玄学综艺,让多少人看得头皮发麻

衣服不用买太多!初春多穿短大衣和针织衫,简单舒适又显高

教育要闻

学校通知:55周岁以下未取得本科文凭的老师,要尽快想办法获得!

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版