网易首页 > 网易号 > 正文 申请入驻

信通院郭亮:我国算力产业发展挑战与建议

0
分享至

算力作为数字经济的坚实基础,备受各方关注。从我国东南沿海到西北内陆,从工业生产到百姓生活,算力正为各行各业的数字化注入新动能,成为经济社会高质量发展的重要驱动力。自《新型数据中心发展三年行动计划(2021—2023年)》的发布实施,到生成式人工智能(Artificial Intelligence,AI)大模型掀起AI应用热潮,再到《算力基础设施高质量发展行动计划》的发布,都将进一步推动我国算力产业的高质量发展。研究算力发展实际情况,分析算力发展现存问题,是制定未来算力发展策略的关键举措。本文立足当前我国算力发展现状,客观分析我国算力产业发展现存挑战,为推进我国网络强国新征程提供发展建议。

1 我国算力发展现状

1.1 算力规模增长迅猛

近年来,我国数据中心在用标准机架数量年复合增长率超过30%,截至2023年6月,我国在用数据中心机架总规模超过760万标准机架,算力总规模达到197 EFLOPS,存力总规模达到1 080 EB,年增速达到25%。算力设施内、算力设施间、用户入算等网络创新发展,有力支撑AI、云—边—端协同、“东数西算”等应用场景。

1.2 布局结构日益优化

“东数西算”实施后,我国西部枢纽算力设施建设加快,国家枢纽节点—省内—边缘协同发展的算力梯次布局体系初步形成,算力结构也逐步从早期通用占主体演变为通用—智算—超算协同发展的格局。随着AI应用的快速兴起,智算中心建设步伐加快,截至2023年6月,全国已投运的AI计算中心达到25 个,在建的AI计算中心超过20 个,智能算力规模占整体算力规模的比例已提高到25.4%。

1.3 算力技术创新活跃

我国计算机领域发明申请数量剧增,算力、存力、运力领域创新成果不断涌现。科技公司加速图形处理器(Graphics Processing Unit,GPU)等AI芯片研发,国内相关企业纷纷推出自研产品;“星河”AI网络、先进存储、液冷技术等很好地支撑了当前的智算需求。我国在计算、网络和存储方面都取得了很大进展。

1.4 算力赋能产业发展

随着我国算力规模的持续扩大,互联网、大数据、AI等与实体经济融合发展的新业态、新模式正加速涌现,算力正加速从互联网、电子政务等领域向服务、金融、制造、交通、医疗等行业渗透,成为传统产业智能化改造和数字化转型的重要支点。与此同时,算力应用也逐渐向城市治理、智能零售、智能调度等领域延伸,激发数据要素新活力,助力数字经济高速发展。

2 算力发展面临的挑战

2.1 算力协同仍需稳步推进

“东数西算”工程助力我国算力发展踏上新台阶,但就目前实施效果来看,距离我国东西部算力协同均衡发展仍有差距。首先,我国东西部之间商业模式协调机制仍需持续完善。我国东西部算力协作发展不仅需要依靠自身努力,也需要一定的商业模式来激励,我国西部能源供应价格优势与东部产业西迁成本收益之间的平衡需要一定的协调机制来保障。其次,枢纽节点算力结构需要持续优化。虽然目前我国已在大力推动智算中心建设,但大模型的训练迭代对智能算力需求的拉动远超预期,当前枢纽通用算力与智能算力的供需比例仍有一定差距。最后,同质化竞争带来的市场压力需要调解。由于同质化竞争,部分地区价格战加剧,导致原本的成本定价被转变为市场定价,对数据中心相关企业发展带来一定压力。

2.2 算力生态仍需持续完善

近年来,我国不断巩固算力基础设施,培育算力产业优质企业,推进算力赋能经济发展,健全算力产业生态,但目前发展仍需进一步提升,算力生态建设仍需持续完善。我国部分地区数据中心的实际运行业务效果与算力设计规模构想存在一定差距,以“筑巢引凤”的方式实现“新旧”动能转换的期待尚未实现,亟待推动从企业个体的位置空间聚集到有机融合的产业链条聚集,从而促进算力上、下游产业及应用生态市场协同发展。

算力拉动经济增长的潜力仍有较大挖掘空间。算力产业发展与当地资源禀赋结合不够紧密的现象仍然存在,导致算力产业未能深入赋能当地实体经济发展,算力产业发展带来的技术创新和成果尚未充分转化为当地数字经济的增长动力等问题,仍需持续开展算力应用赋能的举措、深挖算力赋能经济增长的潜力空间,将算力真正融入当地实体产业,充分转化为当地经济发展动能。

2.3 算力创新仍需全面提升

大模型等技术的迅速发展为算力产业发展带来了新挑战,目前我国算力核心技术创新力度不够,技术方面仍存在相对短板。在绿色低碳方面,我国现有先进数据中心电能利用效率最低已达1.05以下,达世界先进水平,但源网荷储一体化供电系统等低碳发展重要技术推广仍然受限,源荷对接存在一定困难。

在算力调度方面,部分省市已上线调度平台;中国算力平台持续完善算力监测、匹配和调度等方面的能力,部署节奏加快,但算力调度的商业模式和技术细节仍需进一步探讨。在高端芯片和软件研发方面,我国自主创新能力仍需加强,对进口产品和技术仍有一定依赖,关键技术的“卡脖子”风险依然存在,难以支撑大模型、元宇宙等高性能场景建设。此外,国产数据库、中间件、操作系统等基础软件适配性、兼容性不足,对主流软件应用环境构建的支撑能力偏弱。

2.4 算力应用仍需深化拓展

当前,我国算力应用行业持续多元化拓展,为产业注入发展新动能,但算力应用深度仍需推进,算力供给与行业应用之间的衔接仍需加强。一方面,我国算力提供商缺少一体化解决方案,技术到落地过程仍存在一定障碍。算力技术与行业场景结合过程中需要较强的行业经验,而目前我国算力企业与人才在细分领域的储备尚不足支撑现有项目的长期深耕和成果应用转化。另一方面,传统企业缺乏对算力增益效用的认知与实践。传统企业的数字化转型日益加速,但现有的算力应用相对较浅,在顶层规划、转型方法、项目落地等思维方式和实践部署方面仍需进一步强化。

2.5 算力安全仍需加强保障

随着算力向生产生活各个领域的渗透逐渐深入,算网融合持续推进,算力作为转换数据价值的生产要素,安全保障至关重要,系统安全影响需重视。随着虚拟化技术的发展,算力应用对各种服务组件的依赖加大,而底层服务组件往往支撑着大量业务,一旦发生故障,诸多产品将受到影响,引发行业震动。

集群安全防护亟需增强。算力产业不断集聚发展,集群部署让算力资源更为集中,攻击目标更为明显,网络供给与威胁升级,影响后果更为严重,在传统设备级、系统级、算力中心级的安全防护基础上,亟需构建集群安全防护体系,增强防护能力。不稳定的水电供应,或者对传输线路和设施的物理破坏都会导致算力集群的宕机。

3 算力互联面临的挑战

3.1 产业需求无场景大模型训练需要大规模的集群算力处理。随着数据并行和模型并行技术的不断完善和提升,分布式训练中可以使用千卡或万卡规模的GPU来缩短整体训练时长。数据显示,GPT-4的参数规模为1.8 万亿个,训练GPT-4约为2.15e25 FLOPS,在大约2.5 万个A100上训练了90~100天,利用率仅在32%~36%之间。

2023年,购入超过2万张GPU卡的国内公司仅腾讯、百度、阿里巴巴和字节跳动4家[5]。为充分发挥算力算效,这些企业均自建了大规模智算集群,为业内提供算力相关的服务。在正常发展情况下,未来大模型需要的计算能力相对于目前只增不减。大规模集群算力处理大模型、小规模算力处理小模型将成为业界常态。

3.2 技术瓶颈难突破

大模型并行计算模式采用分布式计算能力来处理大量的训练任务。由于带宽和时延的限制,并不是把几个小规模的集群远程连起来就能处理大模型。

在完成自身的计算任务后,节点需要将结果快速地同步给其他节点,以便进行下一轮计算;在此之前,计算任务处于等待状态。目前,每块GPU至少会配置100 Gbit/s的网卡,且带宽占用较满;如果带宽不够,会造成网卡间通信时间变长,影响加速比和训练效果。算力中心存在大量东西向流量,思科全球云指数统计,数据中心内部之间的流量占比为71.49%,随着智算的爆发,比例会更高。通常每机架配置百兆带宽,但如果要实现所谓的GPU远程互联,理论上单机架两台GPU服务器就需要1.6 Tbit/s的带宽,换算成智算中心的出口带宽将是天文数字。

在时延方面,智算中心内“一跳可达”的场景下,无限带宽技术和基于以太网的远端直接内存访问技术均能支持应用层的端到端时延微秒级。为了保证性能损失在5%以内,数据库集群系统要求至少40 Gbit/s的吞吐和3 μs的网络往返时延。目前,北京—呼和浩特的端到端时延为12 ms,是集群内应用层端到端时延的1 000 倍。这样的网络时延,对大模型训练、数据库等应用来说是不可接受的。

3.3 安全稳定难保障由于计算量较大,分布式训练任务需要持续数天或数周。在训练期间如果出现故障,轻则任务回退到上一个断点进行重训,重则整个任务将从0开始。分布式AI计算是同步的,并且希望训练任务具有可预测的完成时间。在智算网络中,每千分之一的丢包将导致网络性能下降50%[10]。在正常情况下,互联网的丢包率在0%~1%,“尽力而为”的互联网显然不符合智算网络的稳定性需求。

4 我国算力发展建议

为进一步推动政策措施有效落地,增强算力应用赋能实效,针对我国算力发展现存挑战,结合我国现阶段算力产业发展基础,提出我国算力高质量发展对策建议。

4.1 以市场为导向,政府引导应用发展

加强算力发展的宏观指引,明确产业发展方向。充分发挥市场作用,在北京、上海、深圳等应用需求旺盛的地区及其周边地区适度加大发展力度。强化工程的引领作用,通过创建算网城市、打造算力中心标杆等方式形成示范效应,促进各地算力设施的高质量建设。

4.2 以协同为重点,推动全面一体发展

探索解决我国东西部的资源使用和利益分配问题,充分结合我国东西部自身优势,创新合作模式与机制,鼓励开展“以数换电”商业合作。推动我国西部枢纽紧抓机遇,对算力全产业链进行孵化,构建“算力租赁+AI应用”的生态体系,激活西部算力产业活力。鼓励企业适度超前部署大规模智算算力,提高算力中心自主可控比例。

4.3 以突破为目标,重点攻关核心技术

围绕算力发展需要,增强企业自主创新能力,持续推进GPU等关键产品和技术的研发。推动硬件、基础软件、应用软件等适配协同,进行算力调度技术的应用试验,形成一批具有自主产权的完整解决方案。加强对外技术交流合作,加深算力产业链的沟通协作。

4.4 以应用为牵引,推进算力赋能产业

构建多部门、多行业交叉合作机制,充分发挥算力对工业、农业、交通、能源、金融和教育等行业的赋能价值。在项目引进、企业扶持的过程中,培育算力龙头企业,协同带动算力上下游产业的发展,构建完善的算力产业生态链。通过“华彩杯”算力大赛等形式,挖掘并培育优质算力应用项目,推动优秀项目案例的复制推广。

4.5 以安全为保障,筑牢产业安全防线

统筹建设集群级安全防护能力,适当增加算力企业在安全方面的投入,解决好基础性问题,打造安全可靠的算网能力。鼓励算力中心进行多点热备,实现业务无缝切换。引导行业打造安全运维体系,提高运维人员应对突发事件的应急响应水平。

5 结束语

《算力基础设施高质量发展行动计划》等国家政策文件的发布,以及GB/T 43331-2023《互联网数据中心(IDC)技术和分级要求》等国家标准的实施,都将引领我国算力产业高质量发展。我国产业界应针对算力发展过程中遇到的问题不断加强技术攻关,将算力产业发展走深向实,持续增强我国算力基础力量,助力我国早日实现网络强国目标。

编 辑:章芳

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
芬兰和立陶宛彻底傻眼,俄罗斯宣布不承认与两国的海上边界

芬兰和立陶宛彻底傻眼,俄罗斯宣布不承认与两国的海上边界

体坛片语
2024-05-22 20:46:31
大S的悲苦日子到了!520具俊晔送她了个大惊喜:韩国婆婆接来了!

大S的悲苦日子到了!520具俊晔送她了个大惊喜:韩国婆婆接来了!

开心蕾蕾
2024-05-22 09:38:11
武契奇宣布辞职,塞尔维亚局势出现动荡,欧洲经济将被美国献祭

武契奇宣布辞职,塞尔维亚局势出现动荡,欧洲经济将被美国献祭

延边啊里郎呀
2024-05-21 21:01:56
我们对外部世界的看法是有问题的

我们对外部世界的看法是有问题的

维舟
2024-04-29 21:07:28
一点也不想呆在中国了,出国的人已经排得人山人海到底是什么原因

一点也不想呆在中国了,出国的人已经排得人山人海到底是什么原因

寻梦小真
2024-04-29 22:17:36
余承东:和江淮合作的产品对标迈巴赫、劳斯莱斯

余承东:和江淮合作的产品对标迈巴赫、劳斯莱斯

南方都市报
2024-05-21 14:18:40
路人拍的李小冉,这都白到发光了啊

路人拍的李小冉,这都白到发光了啊

花小猫的美食日常
2024-05-21 16:19:09
90后清华博士,出任深圳一街道办主任

90后清华博士,出任深圳一街道办主任

南方都市报
2024-05-22 12:51:41
意天空:橡树资本明天发新闻稿接管国米,20天时间解散现董事会

意天空:橡树资本明天发新闻稿接管国米,20天时间解散现董事会

直播吧
2024-05-22 06:23:12
解气!日本女星森星抢刘亦菲、舒淇位置,直接被活动主办方除名

解气!日本女星森星抢刘亦菲、舒淇位置,直接被活动主办方除名

萌神木木
2024-05-21 19:37:50
宾馆监控拍下520当天男女私会辣眼睛一幕 更多细节曝光

宾馆监控拍下520当天男女私会辣眼睛一幕 更多细节曝光

阿SIR观察
2024-05-22 10:04:45
360客服回应弹窗广告关不完:暂未提供一键关闭选项

360客服回应弹窗广告关不完:暂未提供一键关闭选项

手机中国
2024-05-22 19:12:11
在新权力面前,失去庇护的富商不堪一击

在新权力面前,失去庇护的富商不堪一击

我是娱有理
2024-05-21 07:19:59
专家:对俄战争已然失败

专家:对俄战争已然失败

俄罗斯卫星通讯社
2024-01-22 15:13:11
裁判尽力局,新疆被横扫!总决赛首秀,奇兵22+6+9,辽宁开启王朝

裁判尽力局,新疆被横扫!总决赛首秀,奇兵22+6+9,辽宁开启王朝

钉钉陌上花开
2024-05-22 21:39:07
卸任后,李显龙抛出一个关于中国的重磅预言,接下来要谨慎了

卸任后,李显龙抛出一个关于中国的重磅预言,接下来要谨慎了

虎哥说航天
2024-05-22 15:40:03
没事千万别穿丝袜

没事千万别穿丝袜

一个岛岛
2024-05-22 23:00:13
又现科技与狠活!古天乐我忍了,陈浩民我忍了,毛宁我忍不住笑了

又现科技与狠活!古天乐我忍了,陈浩民我忍了,毛宁我忍不住笑了

快乐视频s
2024-05-22 06:32:18
云南女子丢下丈夫喝药自杀,头七当天丈夫不顾反对给妻子开棺

云南女子丢下丈夫喝药自杀,头七当天丈夫不顾反对给妻子开棺

青丝人生
2024-05-15 20:50:42
云南鸵鸟肉案张永明被执行死刑,临刑前拒见亲人孤身赴死

云南鸵鸟肉案张永明被执行死刑,临刑前拒见亲人孤身赴死

一度历史观
2024-05-20 13:09:20
2024-05-23 01:36:49
飞象网CCTIME
飞象网CCTIME
通信行业门户网站
9143文章数 6440关注度
往期回顾 全部

科技要闻

微软给用户更多理由回到 Windows

头条要闻

小学生跑200米中途倒地昏迷入院后离世 教育局回应

头条要闻

小学生跑200米中途倒地昏迷入院后离世 教育局回应

体育要闻

官方:橡树资本接管国米 8年苏宁时代结束

娱乐要闻

乔欣助理离职大爆料!涉及明星超10位

财经要闻

理想不再“理想”

汽车要闻

舒适价值拉满 奇瑞风云T9售12.99-16.99万元

态度原创

亲子
艺术
教育
房产
公开课

亲子要闻

姐弟俩一言不合就干架,爸爸看不下去上前劝和,二胎家庭太难了

艺术要闻

穿越时空的艺术:《马可·波罗》AI沉浸影片探索人类文明

教育要闻

允许孩子偶尔有“小情绪”,才是真正的智慧父母

房产要闻

实地测评海口“豪装”安居房:这位置,这价格,把自己劝一下!

公开课

近视只是视力差?小心并发症

无障碍浏览 进入关怀版