网易首页 > 网易号 > 正文 申请入驻

郑纬民:做好系统设计和软件优化,持续提升自主创新AI生态系统

0
分享至

如今,人工智能正进入一个前所未有的新时代,以大模型为代表的人工智能技术,正在各行各业加速落地,各种应用场景层出不穷。但与此同时,人工智能技术的持续进化和深度应用,以及大模型的遍地开花,也激发出对智能算力的强劲要求。

今年9月发布的《中国综合算力指数报告(2024)》显示,中国算力规模位居世界第二;其中,智能算力快速增长,同比增速超过65%。从2003年到2023年,智能算力需求的增长超过百亿倍,构成了算力增长的最主要驱动力。在这一趋势下,如何设计支持大模型训练的计算系统,如何构建自主创新的软件生态,已经成为推动人工智能大模型创新发展的“必答题”。

在日前召开的华为数字中国行2024·安徽新质生产力创新峰会上,中国工程院院士、清华大学计算机科学与技术系教授郑纬民在“支持人工智能大模型的系统软件”的主题演讲中表示,算力是大模型产业的主要开销,在构建支持大模型训练的计算系统过程中,想要持续提升自主创新AI生态系统,就需要做好系统设计和相关软件优化。

其中,设计大模型计算系统需要考虑5个问题,包括多种精度运算性能的平衡、网络平衡设计、内存平衡设计、IO子系统平衡设计、自主创新AI计算系统;而构建自主创新软件生态则需要做好10件事情,包括编程框架、并行加速、通信库、算子库、AI编译器,编程语言,以及调度器、内存分配、容错系统、存储系统等。

进入大模型时代,算力成本居高不下

纵观整个2024年的人工智能领域,“人工智能+”行动持续推进,“百模大战”仍在继续。与此同时,大模型正加速走向落地应用,不仅在垂直领域持续走深,其应用场景也逐步走向多样化。正如郑纬民所说,人工智能已进入大模型时代。

同时,郑纬民也从技术和应用层面对大模型的发展进行了分析:一方面,AI基础大模型正在从单模态向多模态发展。比如,在文本交互方面,ChatGPT实现真正像人类一样来聊天交流;在图像创作方面,Midjourney AIGC画作《太空歌剧院》获得人类艺术比赛冠军;在视频生成方面,I2VGen-XL可以在用户上传1张图后2分钟生成高清视频。

另一方面,各行各业与AI的深度融合,正在加速行业智能化升级,创造更大价值。比如,在金融行业,在过去一年里,华为与领先金融机构深入合作,共同落地了超过100个AI智能场景,正在以大模型重塑金融的应用、终端交互及业务模式;在制造行业,华为工业AI质检解决方案可全面覆盖工业领域行为规范性检测、缺陷检测、定位、测量等场景,识别准确度达到98.5%以上。

不过,大模型的快速发展和深度应用,也给算力带来了新需求和新挑战。对此,郑纬民从大模型生命周期的五个环节入手,即数据获取、数据预处理、模型训练、模型微调和模型推理,进行了具体阐述。

在数据获取阶段,在获取不同类型的原始数据并存储的过程中,海量小文件存储对文件系统提出新需求;在数据预处理阶段,在随机读取训练样本进行预处理大数据过程中,频繁、随机小样本读取会对文件系统提出挑战;在模型训练阶段,大量数据经过模型需要海量算力;在模型微调阶段,精调垂域模型需要可控算力;在模型推理阶段,实时处理用户请求需要稳定可靠算力。

郑纬民表示,算力是大模型产业的主要开销。比如,在模型训练成本中,算力约占70%,数据占20%,人力仅占10%;而在推理阶段,算力成本更是高达95%,人工智能产业算力成本居高不下。

设计大模型计算系统需要考虑5个问题

目前,由于国外对人工智能的限制,自主创新AI系统和基于超级计算机的系统仍需优化,我国要构建支持大模型训练的计算系统仍面临不小的难题。针对这一状况,华为已经基于昇腾打造出面向“端、边、云”的全场景AI基础设施方案,覆盖深度学习领域推理和训练全流程,全方位支持大模型训练。在此基础上,郑纬民表示,要持续提升自主创新AI生态系统,需要做好系统设计和相关软件优化。其中,设计大模型计算系统需要考虑以下5个问题:

第一,多种精度运算性能的平衡。根据科学计算(AI For Science)和大模型训练的发展趋势,变精度平衡设计可以更好地适应科学计算和更广泛的AI算法和应用需求;不过,在设计中不仅要考虑半精度运算性能,还要考虑双精度运算能力,双精度与半精度运算性能之比为1:50~1:100比较合适。

第二,网络平衡设计。网络设计不能针对CNN算法,还需考虑极大规模预训练模型对系统的需求;而大规模预训练模型需要高带宽低延迟网络,并支持数据并行、模型并行和专家并行模式。

第三,内存平衡设计。一方面,访问内存的请求使网络拥塞,降低吞吐量,反映到应用程序上表现为访存性能显著下降,负载不均;另一方面,多个访问内存的请求可能访问同一存控对应的内存空间,负载不均,存控需要顺序处理访存请求。

第四,IO子系统平衡设计。过去,在高性能机器应用时,为了避免训练不被中断,通常采用增加检查点的方法。比如,如果预期系统平均三小时出现一次错误,那么就在2.5小时左右主动停止训练,并保存训练结果。此外,还有一种办法就是增加SSD,系统的本地NVMe SSD仅通过本地文件系统访问限制了其应用范围,可将每台服务器上的本地NVMe整合成应用可见的全局分布式文件系统。

第五,如果采用自主创新AI计算系统,还需要做好10件事:包括编程框架、并行加速、通信库、算子库、AI 编译器、编程语言;以及其它支撑软件,如调度器、内存分配、容错系统、存储系统等。

自主创新软件生态需要做好的10件事

在大模型计算系统中,算力性能的发挥不仅取决于硬件,更依赖于配套的软件生态。软件生态包括操作系统、编程框架、库、工具链等,它们共同构成了AI算力的“软实力”。以华为为例,通过推出异构计算架构CANN、全场景AI框架昇思MindSpore、昇腾应用使能MindX和一站式开发平台ModelArts等,华为不仅构建起日趋完善的昇腾计算软件体系,也在昇腾计算产业生态上取得了全面进展。

在此基础上,郑纬民表示,要改善自主创新软件生态,需要做好以下10件事情。

第一是编程框架,应降低编写人工智能模型的复杂度,利用基本算子快速构建人工智能模型,如PyTorch、昇思MindSpore、TensorFlow。其中,全场景AI框架昇思MindSpore全场景AI框架昇思MindSpore具备一次开发云边端全场景部署、原生支持大模型训练、支持AI+科学计算等关键特性,可加速科研创新和产业应用。

第二是并行加速,为多机多卡环境提供人工智能模型并行训练的能力,支持数据并行、模型并行、流水线并行、张量并行等,如微软的DeepSpeed、昇腾MindSpeed、英伟达Megatron-LM。其中,昇腾MindSpeed是专为昇腾设备设计的大模型加速库,旨在突破大模型训练中的显存资源瓶颈,并加速训练过程。

第三是通信库,要提供跨机跨卡的通信能力,能够支持人工智能模型训练所需各种通信模式,能根据底层网络特点充分利用网络通信带宽,如英伟达的NCCL库、昇腾HCCL库、超算普遍支持的MPI通信库。其中,昇腾HCCL库作为基于昇腾计算的高性能集合通信库,可提供单机多卡以及多机多卡间的集合通信能力,支持大模型的数据并行、模型并行、专家并行、pipeline并行、序列并行等多种加速方案。

第四是算子库,要提供人工智能模型所需基本操作的高性能实现,能够尽可能覆盖典型人工智能模型所需的操作,能充分发挥底层硬件的性能,如英伟达cuDNN、cnBLAS、昇腾ACLNN。

第五是AI编译器,可在异构处理器上对人工智能程序生成高效的目标代码;对算子库不能提供的操作,通过AI编译器自动生成高效目标代码,如XLA、TVM、毕昇编译器。其中,毕昇编译器作为华为提供的一款高性能、高可信及易扩展的编译器工具链,可提供深度优化的编译技术、增强多核并行化、自动矢量化等,大幅提升指令和数据呑吐量。

第六是编程语言,要提供异构处理器上编写并行程序的支持;要覆盖底层硬件功能,发挥硬件性能;能够编写人工智能模型的基本算子(Operator),如英伟达的CUDA、华为的CANN Ascend C、Intel的oneAPI。其中,异构计算架构CANN可向上支持多种AI框架,向下服务AI处理器与编程;并针对多样化应用场景,提供多层次编程接口,支持用户快速构建基于昇腾平台的AI应用和业务。而Ascend C算子开发语言是CANN针对算子开发场景推出的编程语言,原生支持C/C++编程规范,可极大提高算子开发效率,助力AI开发者低成本完成算子开发和模型调优部署。

第七是调度器,需提供在大规模系统上高效调度人工智能任务的能力;同时设计高效调度算法,提高集群资源利用率,如Kubernetes(K8S)、华为ModelArts等。其中,ModelArts是华为云提供的一站式AI开发平台,可提供海量数据预处理及半自动化标注、大规模分布式训练、自动化模型生成及端-边-云模型按需部署能力,帮助用户快速创建和部署模型,管理全周期AI工作流。

第八是内存分配系统,可针对人工智能应用特点提供高效的内存分配策略。

第九是容错系统,用来提供在硬件发生故障后快速恢复模型训练的能力。

第十是存储系统,需支持训练过程中高效的数据读写(检查点、训练数据等)。

不过,自主创新软件生态的建设是一个长期而复杂的过程,需要企业、政府和开发者社区的共同努力。如今,在生态建设上,华为已经取得了长足进展,不仅包括整机硬件伙伴、IHV硬件伙伴、应用软件伙伴、一体机解决方案伙伴以及生态运营伙伴等,还包括服务类伙伴、人才联盟伙伴、投融资运营伙伴等,以及众多高校和开发者。由此,华为也将携手生态伙伴共同推动大模型计算系统的建设,进而加速AI技术的创新和应用。

未来,正如郑纬民所说:“大模型计算系统平衡设计的5点考虑做得好,别人要用1万块卡,我们用9000卡就可以了。把10件事情做好,大模型计算系统就能做得很好。”

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
这下,哈梅内伊真慌了!!!

这下,哈梅内伊真慌了!!!

山河路口
2026-01-26 19:59:27
巩固联盟第一!雷霆13连胜鹈鹕爆冲突 亚历山大29分锡安21+11

巩固联盟第一!雷霆13连胜鹈鹕爆冲突 亚历山大29分锡安21+11

醉卧浮生
2026-01-28 11:29:15
A股:不要动!不要动!千万不要太冲动!周四大盘或许这样走!

A股:不要动!不要动!千万不要太冲动!周四大盘或许这样走!

股市皆大事
2026-01-28 15:46:30
斯普利特:杨瀚森今天攻防两端都有贡献,在场上显得愈发从容

斯普利特:杨瀚森今天攻防两端都有贡献,在场上显得愈发从容

懂球帝
2026-01-28 11:48:19
涉及133亿!深圳水贝一珠宝平台疑卷款跑路,大量投资客欲哭无泪

涉及133亿!深圳水贝一珠宝平台疑卷款跑路,大量投资客欲哭无泪

火山诗话
2026-01-28 14:36:53
第7次大满贯四强!张帅逆转继续前进,7年后再进澳网女双半决赛

第7次大满贯四强!张帅逆转继续前进,7年后再进澳网女双半决赛

全景体育V
2026-01-28 10:30:09
1973年,毛主席问杨振宁:万寿无疆科学吗?杨振宁的回答,让主席笑了

1973年,毛主席问杨振宁:万寿无疆科学吗?杨振宁的回答,让主席笑了

寄史言志
2026-01-24 17:53:13
万科郁亮失联大反转,一切都结束了!

万科郁亮失联大反转,一切都结束了!

财经三分钟pro
2026-01-28 15:21:59
西部排名又变了:快船创NBA奇迹,马刺收大礼,2队排名互换

西部排名又变了:快船创NBA奇迹,马刺收大礼,2队排名互换

篮球大视野
2026-01-28 15:04:07
“继承权”无需再争!2026新规落地:父母房产按“这些规则”处理

“继承权”无需再争!2026新规落地:父母房产按“这些规则”处理

复转这些年
2026-01-27 03:00:03
别想歪!这幅人体油画靠“光”就能让你呼吸放缓?答案藏在薄纱里

别想歪!这幅人体油画靠“光”就能让你呼吸放缓?答案藏在薄纱里

陈洪标写字说画
2026-01-27 22:31:02
5.4米的9系车,是技术革命还是纯纯的尺寸焦虑?

5.4米的9系车,是技术革命还是纯纯的尺寸焦虑?

Autolab
2026-01-26 23:32:16
古代官员退休后,为什么非要告老还乡?留在京城养老不好吗?

古代官员退休后,为什么非要告老还乡?留在京城养老不好吗?

铭记历史呀
2026-01-27 15:04:20
1941 年项英牺牲,其 22 岁妻子遭非议再嫁,育三位优秀子女

1941 年项英牺牲,其 22 岁妻子遭非议再嫁,育三位优秀子女

唠叨说历史
2026-01-27 14:18:45
离春节不到1个月,4位名人翻车,没一个值得同情,原因五花八门

离春节不到1个月,4位名人翻车,没一个值得同情,原因五花八门

叨唠
2026-01-27 05:39:45
塔图姆谈奥运会遭DNP:不能理解,我是NBA一阵里唯一的美国人

塔图姆谈奥运会遭DNP:不能理解,我是NBA一阵里唯一的美国人

懂球帝
2026-01-28 13:44:19
越是大佬的商战博弈,越是像小孩子捣蛋一样!网友:大人都办不上来

越是大佬的商战博弈,越是像小孩子捣蛋一样!网友:大人都办不上来

夜深爱杂谈
2026-01-27 18:34:06
国台办:努力让台湾同胞在衣食住行等各方面共享大陆发展成果

国台办:努力让台湾同胞在衣食住行等各方面共享大陆发展成果

界面新闻
2026-01-28 10:19:24
1月27日,人社部召开新闻发布会,释放3个关于养老金的好消息

1月27日,人社部召开新闻发布会,释放3个关于养老金的好消息

百态人间
2026-01-28 15:42:08
49条航线“熔断”当天!日航再传噩耗:约7000人滞留,外交部说准

49条航线“熔断”当天!日航再传噩耗:约7000人滞留,外交部说准

通鉴史智
2026-01-28 14:49:00
2026-01-28 21:19:00
科技talk
科技talk
科技领域资深新媒体
1311文章数 2249关注度
往期回顾 全部

科技要闻

它是神也是毒!Clawdbot改名卷入千万诈骗

头条要闻

男子新婚夜被妻子抓伤发现其患精神疾病 起诉离婚被驳

头条要闻

男子新婚夜被妻子抓伤发现其患精神疾病 起诉离婚被驳

体育要闻

没天赋的CBA第一小前锋,秘诀只有一个字

娱乐要闻

王祖贤入驻某音:一条7秒视频吸粉55万

财经要闻

从万科退休20天后,郁亮疑似失联

汽车要闻

新手必看!冰雪路面不敢开?记住这4点 关键时刻真能保命

态度原创

本地
旅游
游戏
房产
公开课

本地新闻

云游中国|拨开云雾,巫山每帧都是航拍大片

旅游要闻

江西庐山:雾凇云瀑日晕“三景”齐现

《OPUS:心相吾山》定档 攜手《來自深淵》作曲家打造插入曲

房产要闻

实景兑现在即!绿城,在海棠湾重新定义终极旅居想象!

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版