网易首页 > 网易号 > 正文 申请入驻

Meta揭幕全球最快AI超算:目标一天之内训练万亿参数大模型

0
分享至

机器之心报道

编辑:蛋酱、泽南

全是英伟达 DGX A100。到今年年中,它将成为全球速度最快的 AI 超级计算机。

最近一段时间,超级计算机是科技公司比拼的重点。昨天商汤科技的 AIDC 刚刚启用,今天又传来了脸书超算的消息。

当地时间 1 月 24 日,Meta(原 Facebook)揭幕了其研究团队的全新人工智能超级计算机,预计在 2022 年中全部完成后,它将成为世界最快的计算机。

在报道文章中,Meta 表示新超算 AI Research SuperCluster(RSC)将帮助该公司构建更好的 AI 模型,这些模型可以从数万亿个示例中学习,构建跨数百种语言的模型,并同时分析文本内容、图像和视频,确定内容是否有害。当然,RSC 超算也可以用来开发新一代增强现实工具。

Meta 表示,该平台不仅有助于确保人们今天使用 Facebook 服务的安全性,而且在公司为元宇宙构建的将来也会发挥作用。

社交媒体起家的脸书在去年 10 月更名为 Meta,以反映其对元宇宙的关注,它认为元宇宙将成为移动互联网的继承者。

近几个月,元宇宙当之无愧是科技圈最热的词汇之一,这个概念指的是人们可以通过不同的设备访问共享的虚拟环境,在该环境里人们可以工作、娱乐和社交。「构建元宇宙需要巨大的计算能力(quintillion 级,10 的 18 次方),」Meta 首席执行官马克 · 扎克伯格(Mark Zuckerberg)在 Facebook 上说道: 「AI 和 RSC 将使新的人工智能模型成为可能,它们可以从数以万亿计的例子中学习,理解数百种语言甚至更多。」

Meta 表示,它相信 RSC 是目前运行速度最快的人工智能超级计算机之一。Meta 的一位发言人说,该公司已经与英伟达、Pure Storage 和 Penguin Computing 的团队合作,共同构建这台超级计算机。

高性能计算基础设施是用于训练大规模预训练模型的必要条件。Meta 表示,其 AI 研究团队一直在构建高性能系统,自研的第一代算力设施设计于 2017 年,在单个集群中拥有 2.2 万个英伟达 V100 Tensor Core GPU,每天可执行 3.5 万个训练任务。到目前为止,该基础设施在性能、可靠性和生产力方面为 Meta 研究人员确立了基准。

2020 年初,Facebook 认定加速算力增长的最佳方式是从头开始设计全新计算基础架构,以利用新的 GPU 和网络结构技术。该公司希望新 AI 超算能够在 1 EB 字节大的数据集上训练具有超过一万亿个参数的模型——仅从规模上看,这相当于 36000 年时长的高清晰度视频。

如此规模的超算肯定不能仅用于科研,Meta 表示,RSC 可以训练来自 Meta 生产系统的真实示例,确保新研究能有效地转化为实践。其推动的新模型可识别社交网络平台上的有害内容,并推动多模态人工智能,以帮助改善用户体验。Meta 认为,这是第一次有人以如此规模同时解决性能、可靠性、安全性和隐私问题。

RSC 的秘密

AI 超算主要用于人工智能模型的训练,是通过将多个 GPU 组合成计算节点来构建的,其通过高性能网络结构连接这些节点,以实现 GPU 之间的快速通信。

RSC 有 760 个 NVIDIA DGX A100 系统作为其计算节点,总共有 6080 块 GPU,每块 A100 GPU 都比 Meta 之前系统中使用的 V100 更强大。每个 DGX 通过没有超负荷的 NVIDIA Quantum 1600 Gb/s InfiniBand 两级 Clos 结构进行通信。RSC 的存储层具有 175 PB 的 Pure Storage FlashArray、46 PB 的 Penguin Computing Altus 系统中的缓存存储和 10 PB 的 Pure Storage FlashBlade。

与 Meta 的传统生产和研究基础设施相比,RSC 的早期基准测试表明,它运行计算机视觉工作流程的速度是之前的 20 倍,运行英伟达多卡通信框架 (NCCL) 的速度快了 9 倍,训练大规模 NLP 模型快了 3 倍。这意味着一个拥有数百亿参数的模型可以在 3 周内完成训练,而之前这一数字是 9 周。

作为参考,在最新一次 MLPerf 神经网络训练基准中测试的最大生产就绪(production-ready)系统是英伟达部署的 4320-GPU 系统,该系统可以在不到一分钟的时间内训练 BERT 。然而,BERT「只有」1.1 亿个参数,与 Meta 想要使用的数万亿个参数也无法相比。

RSC 的推出还伴随着 Meta 使用数据进行研究的方式的变化:

与我们之前仅利用开源和其他公开可用数据集的 AI 研究基础设施不同,RSC 允许我们在模型训练中包含来自 Meta 生产系统的真实示例,确保研究有效地转化为实践。

研究人员还写道,RSC 将采取额外的预防措施来加密和匿名这些数据,以防止泄漏。这些步骤包括将 RSC 与更大的互联网隔离既没有入站连接也没有出站连接,RSC 的流量只能从 Meta 的生产数据中心流入。此外,存储和 GPU 之间的数据路径是端到端加密的,数据是匿名的,并经过审查过程以确认匿名。

拓展计划

AI 超算 RSC 已经于昨天正式启用,但它的开发仍在进行中。Meta 表示,一旦完成构建 RSC 的第二阶段,它将可能成为全球最快的 AI 超级计算机,其混合精度计算性能接近 5 exaflops(10 的 18 次方)。

在 2022 年,Meta 正计划将 GPU 的数量从 6080 个增加到 16000 个,这将使 AI 训练性能提高 2.5 倍以上。InfiniBand 互联结构将扩展为支持 16000 个端口,采用两层拓扑结构。该系统的存储系统将具有 16 TB/s 的目标交付带宽和 EB 级容量,以满足不断增长的需求。

https://ai.facebook.com/blog/ai-rsc

https://spectrum.ieee.org/meta-ai-supercomputer

https://www.reuters.com/technology/meta-introduces-fastest-ai-supercomputer-2022-01-24/

https://blogs.nvidia.com/blog/2022/01/24/meta-ai-supercomputer-dgx/

https://www.wsj.com/articles/meta-unveils-new-ai-supercomputer-11643043601

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
成功到达月球!为啥嫦娥六号登月要53天,美国阿波罗飞船仅要8天

成功到达月球!为啥嫦娥六号登月要53天,美国阿波罗飞船仅要8天

搞笑的阿票
2024-05-12 08:26:09
时隔5年,华为手机销量暴增70%,市场份额17%,重新拿下第一

时隔5年,华为手机销量暴增70%,市场份额17%,重新拿下第一

万大叔来了
2024-05-04 10:35:18
王朔:那些王八蛋要我们不要这样不要那样,可他们既这样又那样!

王朔:那些王八蛋要我们不要这样不要那样,可他们既这样又那样!

世态言凉
2024-05-07 17:44:56
当红好莱坞男星跟亚裔老公结婚十年了!

当红好莱坞男星跟亚裔老公结婚十年了!

下水道男孩
2024-05-11 23:56:54
吧友最热评论:“曼联投降式首发”那这替补...

吧友最热评论:“曼联投降式首发”那这替补...

直播吧
2024-05-12 22:50:19
广东兵败离队第一人诞生,赛后与辽篮队员热情拥抱,不满杜锋许久

广东兵败离队第一人诞生,赛后与辽篮队员热情拥抱,不满杜锋许久

小豆豆赛事
2024-05-12 18:48:58
县公安局局长儿子调戏新上任女县长,一个月后,全县领导被双开

县公安局局长儿子调戏新上任女县长,一个月后,全县领导被双开

神奇的锤子
2024-04-29 01:56:35
上海市文旅局执法总队接受澎湃新闻专访:未发现五月天上海演唱会存在“代替现场演唱、演奏”

上海市文旅局执法总队接受澎湃新闻专访:未发现五月天上海演唱会存在“代替现场演唱、演奏”

澎湃新闻
2024-05-11 23:28:26
从退耕还林到退林还耕,从严禁超生到鼓励三胎,到底是谁错了?

从退耕还林到退林还耕,从严禁超生到鼓励三胎,到底是谁错了?

蜉蝣说
2024-05-07 22:22:48
内塔尼亚胡否认中国在二战时救过犹太人,一切都是上帝的安排!

内塔尼亚胡否认中国在二战时救过犹太人,一切都是上帝的安排!

芯怡飞
2024-05-08 08:33:31
NASA为什么着急?美国12人登月没有中国一辆月球车的科学价值大

NASA为什么着急?美国12人登月没有中国一辆月球车的科学价值大

三农老历
2024-05-12 23:07:38
港媒文章:强势美元给亚洲多国带来痛苦

港媒文章:强势美元给亚洲多国带来痛苦

参考消息
2024-05-12 16:38:06
广州的雨还要下,未来十天将迎三轮降水过程!伴有雷电冰雹等

广州的雨还要下,未来十天将迎三轮降水过程!伴有雷电冰雹等

南方都市报
2024-05-12 11:29:14
7000万欧元的替代者已经就位,奥纳纳的曼联生涯要结束了!

7000万欧元的替代者已经就位,奥纳纳的曼联生涯要结束了!

夜白侃球
2024-05-12 20:55:54
《歌手2024》救场歌手曝光!看完名单我断言:内娱好像真要完了

《歌手2024》救场歌手曝光!看完名单我断言:内娱好像真要完了

毒舌说历史1
2024-05-11 11:06:34
杀人诛心!辽宁台记者问杜锋:辽宁新疆谁夺冠?杜导尬笑:我预测不了

杀人诛心!辽宁台记者问杜锋:辽宁新疆谁夺冠?杜导尬笑:我预测不了

818体育
2024-05-12 17:00:17
董宇辉香港之行被吐槽:这老六,霍启刚说普通话,他居然说英语

董宇辉香港之行被吐槽:这老六,霍启刚说普通话,他居然说英语

剑齿猫de动物志
2024-05-12 12:04:01
很多人宁愿房子空着,也不愿意出租?房产经纪:这种做法很精明

很多人宁愿房子空着,也不愿意出租?房产经纪:这种做法很精明

科学发掘
2024-05-10 16:33:05
法媒的眼光果然犀利!他们敏锐察觉到,中国已在关键领域开始崛起

法媒的眼光果然犀利!他们敏锐察觉到,中国已在关键领域开始崛起

搞笑的阿票
2024-05-12 13:58:39
迈阿密3-2逆转!5连胜+27分领跑东部,梅西0球0助,苏亚雷斯破门

迈阿密3-2逆转!5连胜+27分领跑东部,梅西0球0助,苏亚雷斯破门

侃球熊弟
2024-05-12 09:36:49
2024-05-13 06:02:44
机器之心Pro
机器之心Pro
专业的人工智能媒体
8976文章数 141903关注度
往期回顾 全部

科技要闻

苹果高管体验ChatGPT后恐惧,砍掉汽车项目

头条要闻

普京提名原副总理别洛乌索夫担任俄国防部长

头条要闻

普京提名原副总理别洛乌索夫担任俄国防部长

体育要闻

不再“啃老”的辽宁队,绝处逢生

娱乐要闻

《歌手2024》首播排名出了,那英第三

财经要闻

周鸿祎的放贷生意:为金融机构兜底催债

汽车要闻

配备纯视觉高阶智驾 极越07信息发布/即将量产

态度原创

房产
家居
亲子
手机
军事航空

房产要闻

一二手双双回落,四月暴雨冲淡了广州楼市

家居要闻

极致肌理 线条质感打造轻奢空间

亲子要闻

幼儿园专访,来看孩子眼中的“天使”妈妈

手机要闻

三星多款手机和平板已推送One UI 6.1 全部更新还需数月

军事要闻

欧盟27国就对乌克兰安全承诺草案达成共识

无障碍浏览 进入关怀版