网易首页 > 网易号 > 正文 申请入驻

全国已有14个国家超算中心,何为超算互联网建设的关键?

0
分享至

·全局数据互联与长距离高速传输是超算互联网需要攻克的两大关键技术。存力与算力在超算互联建设中同样重要,大批量数据用算力计算一般只需几分钟,但计算前的上载数据要花一个小时,国产超算平台支持复杂计算全流程中数据流转的能力亟待改善。

国家超级计算长沙中心总工程师唐卓。

今年6月,浙江“乌镇之光”超算中心正式纳入国家超算中心序列,成为全国第14个国家超算中心。“我们国家现在正在紧锣密鼓地建设超算互联网。”8月24日,在十九届全国高性能计算学术年会期间(CCF HPC China 2023),国家超级计算长沙中心总工程师、国家高层次人才计划入选者唐卓向澎湃科技(www.thepaper.cn)详解构建超算互联网亟需解决的关键技术、存力建设的重要性,以及传统超算如何融合人工智能计算和大数据计算等。

唐卓长期从事高性能计算和云计算的教学与科研工作。对于当前青年科研人员的内卷,他建议要有明确的研究方向并长期沉淀和坚持,清晰认知自身的学习能力和科研创新能力,在两者兼具的情况下往前冲,很难不成功。

超算互联网两大关键技术:全局数据互联与长距离高速传输

算力是当代生产力,超级计算也被称为高性能计算。为盘活算力资源,单超算中心向超算互联网演进,超算互联网的目的是让用户能够随时随地获取数据资源和算力资源。从物理形态上来讲,它通过高速互联技术将超算中心连接起来,统一对外提供数据和算力服务。

“我们国家现在正在紧锣密鼓地建设超算互联网。”唐卓表示,目前算网调度有两大关键技术要突破,一是数据和任务的跨域调度和跨中心调度,二是长距离数据传输的低时延和高带宽。

对于前者,算力是CPU(中央处理器)、GPU(图形处理器)、FPGA(现场可编程门阵列)等算力设备,实体的算力设备无法调度,所谓的算力调度,就是分配数据和任务到合适的地方进行计算分析。算力调度就像军队指挥官,将一个大任务分解成多个小任务。以“天河”新一代超级计算机为例,其具有一万多块加速器、上千万核心。上千万核心相当于上千万士兵,指挥官要让这上千万士兵步调一致地分工计算并返回结果,形成最终的计算结果。但上千万士兵的能力并不都相同,所以要考虑每个士兵的负载情况,把合适的任务分配给合适的士兵。为了让分散在各地的数据被正确处理,这就需要超算互联网数据基础设施的一体化建设,打破多超算中心的数据孤岛,通过全局数据管理的新技术手段,实现数据全域互联、全域可见、统一调度,任意位置数据即取即用。

对于后者,带宽是单位时间能通过链路的数据量,延迟是在传输介质中传输所用的时间。中国工程院院士、清华大学计算机系教授郑纬民曾提到,在网络正常情况下,从北京的清华大学传输4T数据到江苏的国家超级计算无锡中心太湖之光超级计算机,需要5天。把数据刻成盘寄快递,第二天下午就能到无锡。为了解决这个问题,唐卓表示,目前光传送网(OTN)以及运营商的云专网等适用于长距离、低时延的算力网构建。

存力与算力在超算互联建设中同样重要

国产超算处于国际第一梯队,是我国的一张名片,但仍面临数据治理困难、应用移植成本高等挑战。数据作为超算互联的核心生产要素,其重要性已成为业界共识,高效的数据流动是算力流动的基础。唐卓表示,因此业界在关注算力的同时也需要考虑数据存力,未来超算的建设应围绕科研数据应用的全流程进行构造。

国产超算平台支持复杂计算全流程中数据流转的能力亟待改善。唐卓说,大批量数据用算力计算一般只需几分钟,但计算前的上载数据要花一个小时。在计算过程中,不可避免地要在计算节点之间不停交换数据,搬运这些数据的时间开销也非常大。“我们在判断超算的效率时有一个重要指标:计算通信开销比,我们不希望数据交换占据的时间过长,解决这个问题的方法是,在做密集型计算之前,把数据清洗、数据融合、数据上载等一部分必要计算直接下沉到专业存储上去完成,这也是超算逐渐从计算密集型走向数据密集型的一个映证。”

唐卓表示,以前的存储设备仅仅存储数据,而现在远不止于此,要让存储设备具有一定的近数据计算能力和数据业务处理逻辑,提升整体效率。除此之外,存储还需要按照访问频次预先识别数据的热冷程度,把热数据放到性能较好的存储介质上,把冷数据放到性价比更高的存储介质上,实现数据的分区存放、按需流动。“这些都是存力的作用,通过存力建设让主处理器只负责计算,减少数据搬运开销和数据I/O(输入/输出)开销。”

随着人工智能的发展,传统超算如何适应人工智能计算和大数据计算?唐卓表示,存力不仅要解决数据I/O问题,还要解决多数据中心的数据调度。只有更好地理解数据特征和应用特征,才能在融合计算过程中做出预判,把数据和任务分配到最合适的位置上进行计算,使得节点之间的数据交换量更小。

唐卓表示,一个千亿参数的大模型在一台甚至多台超算上进行训练时,要把模型分成多份并行训练,训练结果实时同步交换,这增加了节点间的通信开销。为了降低通信开销,一个方法是先各自训练,再交换一批次训练结果,但这会导致沟通稀疏、收敛性较差。“目前国内大模型主要在超算和智算上训练,超算用于人工智能计算还有很大提升空间。”唐卓表示,要在传统超算方面加大存力建设、数据调度和任务科学调度的投入,实现算力与存力协同、分工优化,让超算与智算相互渗透融合,同时让智能计算和超算形成算网、数网的互联,互通有无。

明确研究方向并长期沉淀

唐卓目前任职国家超级计算长沙中心总工程师,正在从事省域算力网的模式构建研究和原型系统研究,他也在湖南大学信息科学与工程学院主持工作,深刻认识到当前“超算和AI领域真正需要的是掌握核心底层技术能力的人才”,他希望学生具备对计算架构、存储架构、体系结构以及底层系统研发的能力,而不仅仅是编程能力。

唐卓介绍,湖南大学信息科学与工程学院正在制定、修改、优化本科生和研究生的培养计划和教学大纲,以计算机系统的视角培养人才。计算机科学方向的本科生在入学时抓好处理器设计、指令集、操作系统、编译原理、高级程序语言设计5门核心课程,“让学生毕业时能够充分理解高级程序语言是怎么被编译成机器代码的,机器代码是如何在操作系统层面被调度到处理器核心上工作的,机器代码在处理器核心上执行时是怎么编译,每一条指令在 CPU上是怎么执行并变成一个电路级行为的,这就到了最底层的芯片的设计,最终让学生非常清晰地理解整个计算机体系结构。”研究生阶段实行并行计算、高性能计算培养,在开发板上设计处理器架构、操作系统、编译系统,通过学生个人账号登录超级计算机,深入学习和理解超算程序的编写,编译和调度。

唐卓也看到,“当前青年科研人员处于内卷状态,科研院所和头部企业更加突出。”他建议要有明确的研究方向并长期沉淀和坚持,“很多博士毕业后到了高校,今年做这个方向明年又换另一个方向,跟着潮流变换,这不是一个好现象。”在超算转向智算过程中要根据数据特征和应用特征对数据再分配和调度整合,唐卓表示,这在十多年前已被发现,“我们一直在做这个事情,一直没变,所以才能够慢慢积累起来。当你觉得最辛苦、最沮丧、最困难的时候,如果你坚持下来了,你的突破点、转折点就快到了。”

其次,青年科研人员要清晰认知自身的学习能力和科研创新能力。如果具备了明确研究方向和清晰认知,“那就冲吧,我觉得这很难不成功。”

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
医生1分钟复位收100元被举报,卫健委回怼:应收110,你还少给了!家长拒缴溜走!

医生1分钟复位收100元被举报,卫健委回怼:应收110,你还少给了!家长拒缴溜走!

医客
2026-04-23 12:09:21
伊朗议会要员:外长访巴不涉核谈事宜

伊朗议会要员:外长访巴不涉核谈事宜

财联社
2026-04-25 07:18:11
真的惨!纯电车再迎新一轮降价潮:最大让利48%,国产车占一半!

真的惨!纯电车再迎新一轮降价潮:最大让利48%,国产车占一半!

华庭讲美食
2026-04-24 18:06:05
广东19岁少女被囚禁!一下飞机被带走,重金难赎回,真相细思极恐

广东19岁少女被囚禁!一下飞机被带走,重金难赎回,真相细思极恐

青橘罐头
2026-04-24 07:43:19
Deepseek v4发布吓崩“光”!国产算力崛起,华虹半导体爆拉

Deepseek v4发布吓崩“光”!国产算力崛起,华虹半导体爆拉

看财经show
2026-04-24 17:10:44
余承东话含金量还在上升!日产3月在华新车销量增长23% 靠华为拉爆丰田本田

余承东话含金量还在上升!日产3月在华新车销量增长23% 靠华为拉爆丰田本田

快科技
2026-04-23 11:56:29
饶毅:中国产出的科学垃圾,绝对数量和比例都世界第一

饶毅:中国产出的科学垃圾,绝对数量和比例都世界第一

生物学霸
2026-03-29 17:09:59
8.6万亿蛋糕,广州切走最大一块!

8.6万亿蛋糕,广州切走最大一块!

广州PLUS
2026-04-24 18:29:11
假空姐大闹亚航后续:账号被扒出,曾穿地勤制服,十级美颜认不出

假空姐大闹亚航后续:账号被扒出,曾穿地勤制服,十级美颜认不出

离离言几许
2026-04-24 21:38:49
风水轮流转,卖友上位,两面三刀的他,终付出代价,赵丽颖说对了

风水轮流转,卖友上位,两面三刀的他,终付出代价,赵丽颖说对了

妙知
2026-04-25 06:40:46
无视中美俄伊,49国作出决定:霍尔木兹海峡以后归我们管

无视中美俄伊,49国作出决定:霍尔木兹海峡以后归我们管

午夜搭车a
2026-04-25 05:54:10
25岁南开大学研究生李一帆确诊癌症,身高1米8长得帅,体重仅70斤

25岁南开大学研究生李一帆确诊癌症,身高1米8长得帅,体重仅70斤

180视角
2026-04-24 11:40:25
迪丽热巴上学时无人追求,看到她早期照片,网友:这谁敢追啊

迪丽热巴上学时无人追求,看到她早期照片,网友:这谁敢追啊

乔话
2026-04-22 20:36:30
最新民调出炉!蒋万安夺冠,郑丽文垫底,国民党又要变天了?

最新民调出炉!蒋万安夺冠,郑丽文垫底,国民党又要变天了?

起喜电影
2026-04-23 18:51:03
演员陈丽君,晋升副主任

演员陈丽君,晋升副主任

上观新闻
2026-04-24 18:21:16
实测DeepSeekV4:天下武功,唯快不破

实测DeepSeekV4:天下武功,唯快不破

字母榜
2026-04-24 15:17:13
34岁女神裁判波娃抽烟照曝光!大量中国男球迷脱粉,滤镜碎了

34岁女神裁判波娃抽烟照曝光!大量中国男球迷脱粉,滤镜碎了

喜欢历史的阿繁
2026-04-24 18:13:27
张萌穿成这样去海边还让不让人玩了?

张萌穿成这样去海边还让不让人玩了?

时间巡查
2026-04-23 15:30:25
美司法部撤销对美联储及其主席鲍威尔的刑事调查

美司法部撤销对美联储及其主席鲍威尔的刑事调查

每日经济新闻
2026-04-25 00:14:11
一个Python终端游戏,把网络安全学习变成闯关

一个Python终端游戏,把网络安全学习变成闯关

报错免疫体
2026-04-24 05:11:48
2026-04-25 07:44:49
澎湃新闻 incentive-icons
澎湃新闻
专注时政与思想的新闻平台。
891905文章数 5090370关注度
往期回顾 全部

科技要闻

DeepSeek V4牵手华为,价格依然"屠夫级"

头条要闻

两届奥运冠军、中国羽协主席张军"失联" 知情人士发声

头条要闻

两届奥运冠军、中国羽协主席张军"失联" 知情人士发声

体育要闻

上海男篮23连胜+主场全胜 姚明之后最强一季

娱乐要闻

停工16个月!赵露思证实接拍新剧

财经要闻

LG财阀内斗:百亿美元商业帝国争夺战

汽车要闻

零跑Lafa5 Ultra北京车展上市:11.88-12.48万

态度原创

家居
旅游
健康
公开课
军事航空

家居要闻

自然肌理 温润美学

旅游要闻

朔州崇福寺:金代遗构,塞北千年佛殿

干细胞如何让烧烫伤皮肤"再生"?

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

美防长:战事不会“没完没了”

无障碍浏览 进入关怀版