网易首页 > 网易号 > 正文 申请入驻

上海交大国内高校最强AI计算平台如何炼成?超强DGX-2加速AI+科研

0
分享至

随着AI发展如火如荼,高校作为基础研究的主阵地,正扛起推进AI研发和应用的大旗,如何构建AI所需的超高算力并加速科研成果转化早已提上日程。

就在去年11月,国内高校最强AI计算平台正式开放,峰值算力达16PFLOPS,面向上海交通大学各院系和科研机构提供高效的算力支撑。

这一AI计算平台由上海交通大学网络信息中心计算部(以下简称“计算部”)打造,目前已支持20多位研究团队开展AI和典型HPC等科研创新应用工作。

近日,与上海交通大学网络信息中心工程师程盛淦进行深入交流,试图国内高校最强AI计算平台背后的故事。

▲上海交通大学网络信息中心机房

一、国内高校最早AI计算平台,全队列使用率接近100%

上海交大网络信息中心的前身是上海交通大学计算中心,始建于1973年,是我国高校建立最早、规模最大的计算中心之一。

早在2013年,该中心就搭建了超级计算机π1.0,这是一台异构HPC系统,峰值性能达262TFLOPS,在2013年6月全球TOP500超算排行榜中位列第158名,是当时的国内高校第一、上海市地区第一。

当AI研发风潮席卷学术圈,院系希望借助AI加速推进自己的研发成果,有限的算力资源和繁复的硬件部署流程成为挡在他们面前的主要阻碍。

此时,一个稳定成熟且拥有强大算力基础的资源调度平台成为刚需,它可以按需进行AI算力供给和分配,同时有专门的技术和运维团队予以支持。

这将使研究团队在满足AI计算需求的同时,无需自行购买硬件设备,也不必在环境配置和应用部署耗费时间,而是更加专注于自己的科研项目本身。

作为是国内最早涉足AI领域的高校之一,上海交通大学有着丰富的AI计算需求。

恰逢超级计算机迭代之际,上海交通大学AI计算平台即依托从2018年开始立项的π2.0来建设,它也是国内最早搭建的高校统一AI计算平台之一。

上海交大AI计算平台面向全校提供稳定强大的GPU资源调度,同时也支持校外用户来申请计算资源,峰值算力达16PFLOPS。

▲上海交通大学网络信息中心服务器

π2.0集群从2019年4年正式启动设备的安装部署,程盛淦也是在此期间开始参与这一新项目的推进。经过机房改造、扩容制冷设备、安装调试等一系列流程,π2.0自2019年11月起正式向校内开放。

程盛淦透露说,2019年12月上海交大AI计算平台整个队列的使用率接近100%,GPU利用率达到70%,AI相关负载达到75%,其余25%是一些高性能计算负载。

二、搭建AI计算平台,上海交大的三个优势

在高校科研环境中,搭建AI计算平台并非易事,至少面临三方面的挑战。

其一,海量数据和巨大计算需求。AI和HPC都需要海量数据,要求AI计算平台具备较高数据处理能力、存储能力和网络能力。

其二,环境配置。AI和HPC应用的框架、库、驱动程序等复杂组件更新迭代速度很快,需消耗大量人力来维护和编写整个平台的软件栈。

其三,资源调度。AI计算平台需具备完善的资源调度系统和强健的集群管理工具,能够灵活调度集群算力资源,避免不同负载间相互干扰,提升应用运行效率。

不过,这对于拥有多年集群部署经验的交大计算部来说并非难事。程盛淦表示,在打造AI计算平台方面,其团队有三个核心优势:

首先,在搭建第一代超级计算机π 1.0时,网络信息中心已经积累了丰厚的用户基础、强大的运维团队和成熟的集群管理经验,能够确保集群系统的稳定运行。

其次,上海交大是最早开始提供GPU计算服务的高校之一。

GPU擅长处理大规模深度学习训练以及部分典型HPC任务,而上海交大在采用GPU做基础科学研究方面有多年的积累,对先进GPU设备和校内计算需求都有较好的理解。

此外,计算部还提出一个创新的“交大型”服务模式。

计算部借助超级计算机π向高水平科研用户提供丰富的技术支持,和多学科研究进行紧密融合,支撑和催化学校的科研发展。

三、高算力集群背后:DGX-2带来性能爆发

聚焦到AI计算平台本身,这么高的算力如何实现呢?在部署底层基础设施的过程中,上海交大计算部又曾站在哪些选择的交叉口上?

从和程盛淦的交流中,我们提炼了其中较为重要的三点。

1、硬件选型:8台DGX-2,打造超强AI算力集群

由于GPU在深度学习训练性能和完整的生态上,相比其他计算设备优势更明显,交大计算部选择使用8台NVIA DGX-2服务器来提供底层算力支撑。

▲NVIA DGX-2机柜

这一选择主要有两方面考量。一是GPU在深度学习训练性能和完整的生态上本身具备优势,二是上海交大在使用GPU计算设备和搭建计算机集群上有长期经验。

而DGX-2又是NVIA GPU超高计算和存储能力的集大成者,NVIA通过采用多种互联技术,有效提升GPU间以及集群间的互联带宽。

每台DGX-2内置16张NVIA Tesla V100 GPU,程盛淦特别提到,DGX-2搭载了NVIA NVSwitch创新互联技术,最多可支持16块GPU互联,并将GPU间的总双路带宽提升到2.4TB/s。

DGX-2还采用了可扩展架构,使得模型的复杂性和应用的规模不受传统架构局限性的限制,8台DGX-2就使得深度学习张量计算能力达到16PFLOPS,本地NVMe存储达到300TB,从而可以应对众多复杂的AI和HPC的挑战。

DGX-2的硬件性能优势,使其可以支持此前GPU服务器难以支持的大规模AI和HPC应用。

比如,上海交大生命科学学院的一个团队在做针对单颗粒冷冻电镜图片处理的软件框架Relion,用到的数据集量级高达1TB。这对普通GPU服务器来说过于庞大,但在上海交大AI计算平台的帮助下,该团队通过使用DGX-2全机6节点8卡的配置,顺利完成了计算任务。

2、软件优化:协同硬件,提升GPU有效利用率

有了高性能的硬件基础设施,还要思考如何能更好保障GPU有效利用率。对此,程盛淦所在的团队重点做了三方面的工作。

(1)搭建了DGX-2和π 2.0集群共享的并行文件系统,这个文件系统加上DGX-2本地NVMe存储,保证数据传输速率能承担大规模数据量处理任务。

(2)根据AI计算平台的实际情况,采用SLURM作业调度系统和Singularity容器技术相结合的方式, 保证用户作业相对独立,有效实现资源隔离,以最高的效率为用户提供最佳性能的应用支持。

(3)通过NGC为用户提供经过特别优化处理的容器镜像,进一步优化软件部署流程。

在DGX-2上直接运行应用可能面临编译流程复杂、应用优化需与最新硬件适配、AI领域实验复现和环境管理难等问题,因此用户需要一个性能优异、开箱即用的应用部署方案,而NGC是一个很好的选择。

NGC 是NVIA针对GPU优化的AI和HPC软件堆栈的容器平台,提供超过50种相关应用和框架的镜像,简化了软件部署流程和软硬件协同调优流程。

例如,使用PyTorch在ImageNet数据集上训练ResNet50,NGC的容器镜像上速度上明显优于开源版本。

3、体验升级:与超算平台统一入口

由于AI计算平台是依托π2.0集群搭建的,是为AI计算平台打造一个独立入口,还是让它和超算系统使用统一的入口,计算部特意做了测试。

经测试用户反馈,统一入口在管理效率和用户体验感方面都更胜一筹。

对于超算老用户来说,超级计算机π 1.0的用户无需学习新知识,即可快速掌握AI计算平台的使用方法。

对于校内新用户来说,统一入口也能降低他们在使用超算平台和AI计算平台上的学习成本。

四、最高提升1.8万倍!超强AI平台助推多项科学研究效率大幅提升

AI计算平台的开放,将做AI处理任务的门槛进一步降低,有助于帮助科学研究人员借助AI计算实现更高效地进行科研工作。

此前,π1.0作为校级高性能计算公共服务平台,曾支持理、工、生、医的多篇研究发表于《Science》、《Nature》等高水平期刊上。如今AI计算平台支持的多项科研项目,论文也已经投往各大学术会议和期刊。

截至本月,上海交大AI计算平台已经帮助上海交大人工智能研究院、Bio-X研究院、密西根联合学院等多院系的研究团队去优化计算AI及HPC应用,最高将科研效率提升1.8万倍。

程盛淦向我们介绍了其中的四个典型应用。

1、AI应用:二值化神经网络

该研究电子信息和电气工程学院的一个团队所做。他们利用Tensor Core混合精度进行加速并优化了数据读取,使用1台DGX-2达到每秒6826张图的训练速度,比早先在有4张NVIA 1080Ti的服务器上跑,速度(103张/秒)提升66.3倍。

2、AI应用:用强化学习加速类AlphaGo训练

做这一研究的团队同样电子信息和电气工程学院,通过采用8台DGX-2、使用NVIA MPS技术并调整了负载均衡。

原来用2张NVIA Tesla v100卡训练50万局自我对弈需要35天,现在仅用34.8小时就能完成训练。

3、AI应用:基于深度学习的空气污染预报

该研究团队环境科学与工程学院。他们使用Conv-LSTM模型结合编解码结构,学习全国范围内排放、气象分布到污染物分布情况的映射关系。

使用DGX-2单机后,系统训练迭代速度比之前使用1张NVIA P100快31.6倍。

4、HPC应用:求解声子玻尔兹曼方程

除了为AI训练提供算力,AI计算平台还能支持HPC应用。比如密西根联合学院就利用该平台来求解声子玻尔兹曼方程。

原先用CPU做这一计算需要2周,使用8台DGX-2后,计算时间压缩到2分钟,比此前速度足足提升1.8万倍。

结语:AI计算平台将催化科研创新

上海交通大学网络信息中心计算部主任林新华表示:“AI for Science作为科研第四手段已经成为一种国际趋势,而世界著名高校、科研单位在新建计算平台时对数值计算和AI计算都予以了充分考虑。像NVIA DGX-2和NGC容器平台这样的先进的硬件配置和软件堆栈方案,解决了在高校科研环境下搭建AI计算平台面临的诸多挑战,加速了学科进步,推动了学科融合。”

林新华认为,AI计算平台不仅是一个面向全校的计算服务平台,更是一个学科交叉以及科研创新平台,可以在此基础上深入开展典型高性能计算应用、AI、大数据等应用科研创新工作。

接下来,上海交通大学网络信息中心计算部希望借助AI计算平台与用户深度合作,展开研究领域的深层次合作,解决科学计算难题,进一步助力提高交大科研水平。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
骑士总比分1-0!哈登22+10轻取猛龙 米切尔32分斯特鲁斯24分

骑士总比分1-0!哈登22+10轻取猛龙 米切尔32分斯特鲁斯24分

罗说NBA
2026-04-19 05:36:20
打不得!日本战舰闯入台海峡,我军为什么不直接击沉它?

打不得!日本战舰闯入台海峡,我军为什么不直接击沉它?

趣文说娱
2026-04-18 19:34:03
多次遭特朗普大骂“纸老虎”“毫无用处”,北约“罕见”大动作:30国驻北约大使集体访日!日本已囤积44.4吨核材料,足够造5500枚核弹头

多次遭特朗普大骂“纸老虎”“毫无用处”,北约“罕见”大动作:30国驻北约大使集体访日!日本已囤积44.4吨核材料,足够造5500枚核弹头

扬子晚报
2026-04-19 07:55:51
中国智慧!张雪机车一脚压线把名次压赚了 车手:犯规但拿到13分

中国智慧!张雪机车一脚压线把名次压赚了 车手:犯规但拿到13分

念洲
2026-04-19 07:39:14
很意外,苏林坐了12小时中国高铁,越南人急了

很意外,苏林坐了12小时中国高铁,越南人急了

新浪财经
2026-04-19 02:38:50
上海中环拥堵愈演愈烈!南北高架段通行骤降,职住失衡成核心诱因

上海中环拥堵愈演愈烈!南北高架段通行骤降,职住失衡成核心诱因

媛来这样
2026-04-19 00:01:46
张天爱评论区沦陷!被曝卷入小三风波,华宵一晒出跟丈夫合照反击

张天爱评论区沦陷!被曝卷入小三风波,华宵一晒出跟丈夫合照反击

萌神木木
2026-04-18 23:16:40
为何不肯承诺留本菲卡?穆帅:除非记者您能保证一直不换工作

为何不肯承诺留本菲卡?穆帅:除非记者您能保证一直不换工作

懂球帝
2026-04-19 09:11:03
许家印被捕细节公开保交楼会议设伏抓捕反抗激烈被摘皮带戴手铐

许家印被捕细节公开保交楼会议设伏抓捕反抗激烈被摘皮带戴手铐

深度报
2026-04-18 23:28:19
张朝阳:我一不谈恋爱、二不喜欢应酬,我有得是钱,没必要结婚!

张朝阳:我一不谈恋爱、二不喜欢应酬,我有得是钱,没必要结婚!

说点事
2026-04-17 16:40:09
泰国泼水节死亡人数为何居高不下?交通事故频发,6年来平均每年200多人遇难,被称为“危险七日”

泰国泼水节死亡人数为何居高不下?交通事故频发,6年来平均每年200多人遇难,被称为“危险七日”

极目新闻
2026-04-19 10:56:08
德国战败后,古德里安为什么能无罪释放?他是一个有底线的军人

德国战败后,古德里安为什么能无罪释放?他是一个有底线的军人

小莜读史
2026-04-18 14:46:46
国际油价爆了

国际油价爆了

最江阴
2026-04-19 09:01:06
拼多多抗法细节曝光:执法人员手指被夹断

拼多多抗法细节曝光:执法人员手指被夹断

大厂观察
2026-04-19 08:51:09
何润东“西楚霸王项羽”造型亮相没骑马引热议,本人回应

何润东“西楚霸王项羽”造型亮相没骑马引热议,本人回应

韩小娱
2026-04-19 08:56:44
摊主好心借手机被逼下跪后续:家长真容曝光,孩子被处分全校社死

摊主好心借手机被逼下跪后续:家长真容曝光,孩子被处分全校社死

奇思妙想草叶君
2026-04-19 00:15:57
赵心童没让众星彻底叹服!希金斯:他可能达到小特高度但无法更高

赵心童没让众星彻底叹服!希金斯:他可能达到小特高度但无法更高

杨华评论
2026-04-18 18:39:32
事发浦东机场!女子称两次拒绝帮陌生人带行李,多名网友:我也遇到过!

事发浦东机场!女子称两次拒绝帮陌生人带行李,多名网友:我也遇到过!

上观新闻
2026-04-18 20:28:04
美军称已“完全切断”伊朗通过海路进出的经济贸易

美军称已“完全切断”伊朗通过海路进出的经济贸易

界面新闻
2026-04-19 07:23:45
警告三次不如动真格一次!中方勒令即刻停运,西方媒体都看懵了

警告三次不如动真格一次!中方勒令即刻停运,西方媒体都看懵了

书纪文谭
2026-04-18 16:10:54
2026-04-19 11:52:49
李少娱乐室
李少娱乐室
我是娱乐小侦探
3039文章数 3540关注度
往期回顾 全部

科技要闻

50分26秒破人类纪录!300台机器人狂飙半马

头条要闻

牛弹琴:伊朗遭到特朗普"羞辱"被激怒 结果印度遭了殃

头条要闻

牛弹琴:伊朗遭到特朗普"羞辱"被激怒 结果印度遭了殃

体育要闻

掘金擒狼开门红:五花肉与小辣椒

娱乐要闻

张天爱评论区沦陷!被曝卷入小三风波

财经要闻

华谊兄弟,8年亏光85亿

汽车要闻

29分钟大定破万 极氪8X为什么这么多人买?

态度原创

时尚
本地
数码
艺术
亲子

选对发型,真的能少走很多变美弯路

本地新闻

12吨巧克力有难,全网化身超级侦探添乱

数码要闻

联想ThinkPlus 190W移动电源开售,售价349元

艺术要闻

郑丽文大陆之行引发热议,孙中山赠对联成焦点!

亲子要闻

孩子总揉眼睛眨眼睛,不是困了!

无障碍浏览 进入关怀版