网易首页 > 网易号 > 正文 申请入驻

GMI Cloud King Cui:AI企业如何补齐算力短板,保障GPU集群稳定性?|WISE 2024 商业之王

0
分享至

环境持续变化,时代总在迭变,“商业之王”们紧随时代浪潮,坚持创造,谋求新动能。立足中国经济大转型的当下,WISE2024 商业之王大会,一同发现真正有韧性的“商业之王”,探寻中国商业浪潮里“正确的事”。

11月28-29日,为期两日的36氪WISE2024 商业之王大会于北京隆重落地,作为中国商业领域的全明星盛典,WISE大会今年已经是第十二届,在不断变化的时代里见证着中国商业的韧性与潜力。

2024,是有些模糊且变化多于稳定的一年。相比过去十年,大家的脚步正放缓,发展更加理性。2024,也是寻求新的经济动力的一年,新的产业变化对每个主体的适应性提出了更高的要求。今年WISE大会以Hard But Right Thing(正确的事)为主题,在2024,什么是正确的事,成为我们更想交流的话题。

算力,作为AI技术的核心驱动力,直接关系到AI应用的性能与效率。在全球化运营中,如何确保算力的充足与高效,如何应对AI 算力短缺、AI Infra稳定性不足等问题都是AI企业目前在全球化运营过程中亟需解决的问题。

那关于这些问题的解决方案,GMI Cloud亚太区总裁King Cui 在大会现场分享了他的思考与见解。

King Cui 演讲现场

| 以下为King Cui演讲全文,略有删减:

朋友们大家下午好!我是来自GMI Cloud的King,今天分享一下全球布局情况下,AI企业如何在海外补齐短板,并且保证稳定性。

我做云计算已经十几年了,我将云计算的发展历程分为三个阶段——随着OpenAI的诞生和崛起,整个Cloud已经进入3.0时代,这个时候完全跟以前的云计算或者经典云计算时代是不一样的,企业计算需求更多是从CPU转向GPU,存储速度比以前高了很多倍,所以我们要做全新的形态。在这个背景下,我们成立了GMI Cloud,截至目前为止,刚刚创立了两年时间,总部在美国硅谷,目前主要是服务全球的AI企业和平台机构,我们在去年获得了英伟达认证的合作伙伴。

我们为什么能够在亚太区获得GPU分配权,我们除了跟英伟达合作之外,我们还跟GPU厂商保持比较好的合作,甚至他们也是我们的合作伙伴,我们的优势就是可以第一时间拿到最新版本的GPU,在亚太区拿到最新的服务器。比如说当下的H200,我们在今年8月份就开始对外提供云服务了,包括未来我们在明年的Q1会拿到GB200,也将会是亚太区第一个对外提供GB200云服务的NCP。我们目标是构建AI Cloud平台,我们是做GPU云服务生意,我们希望为AI企业提供稳定的AI基础设施。

目前我们在全球有10个数据中心,芯片主要以H100和H200为主。在今年十月份,我们刚刚宣布完成了新一轮融资,8200万美金,主要用于数据中心的建设,以及开拓新的H200 GPU的云服务。

我们的愿景是希望在AI云原生时代,能够成为“台积电”这样的企业,保持初心帮助合作伙伴提供比较稳定的AI Cloud,我们不会做大模型、应用,只专注地把我们的AI Cloud做好。

大家对GMI Cloud有了一个基础了解之后,下面我们就正式来聊一聊AI的出海,因为今天大家都在讲出海,但是也没有人讲为什么要出海,大家也觉得AI时代到来了,它相比以前的时代有什么区别?

从技术发展来讲,我们这代人非常幸运,我们经历了互联网时代、移动互联网时代、人工智能时代,从互联网到移动互联网,这两个时代基本上目前已经到了普惠点,如果中国还在做移动互联网创业的话大概率没有太大机会了,所以AI时代崛起比前两个时代更加迅猛,对社会和生产发展的影响更加巨大。这个时代的机会是非常明确的,所以我也是这样的时代驱使下离开了大厂,进入创业公司。

截止到今年8月份,全球有1700多个APP都是AI相关,其中中国有280个,出海相关比例高达30%,大概有92个APP。在PPT上,大家可以看到,我们列了排行榜前30的MAU,从今年1-9月份前十MAU增速已经环比超过了120%。

所有AI应用出海必然离不开的东西就是算力,AI三驾马车,数据、算法、算力,算力是基石,国内与海内的区别还是挺大的,海外供应商有很多不确定性,同时GPU时代的挑战性比传统CPU时代高很多,毕竟没有人做过超大规模的或者说十万卡以上GPU运维,但是CPU时代做过这样的事情,所以海外AI Infra的稳定性对于AI 出海企业来说,挑战是巨大的。

举一个例子,META前段时间发布了一个报告,他们用10000多张的H100,训练他们的Llama 405B大模型,总共54天的时间,出现了466次中断故障,其中有419次是预期外的,其中跟GPU相关得高达58%(280多次),CPU相关故障只有2次,这个数据对比可以看出,GPU跟CPU的稳定性挑战不是一个量级的。

整个的GPU稳定性其实就关系到我们研发的效率、时间成本、金钱,那下面就给大家汇报一下,整个GMI Cloud如何实现GPU集群高稳定性的。

首先从我们集群的架构层面来讲,我们完全是由自己自主研发的,我们从底层的GPU硬件,包括高速的GPU服务器、存储、网络,在PaaS层往上我们可以跟合作伙伴一起共建,比如说大模型,客户可以基于自己的大模型做研发,同时我们为广大的企业和个人开发者提供了开源大模型,一键部署到Cloud集群上面,并且我们有调优的服务。

GMI Cloud

(以下)这是我们整个的产品,我们产品可以帮助所有企业,GPU集群做自动化管控,我们可以把存储服务、网络服务,都通过作业方式进行调度,降低企业使用GPU集群的门槛。

GMI Cloud

(以下)这里讲的我们整个网络的设备,首先最左边的图是IB的万卡集群,我们提供IB高速网络,其实不是所有的企业都有过IB万卡集群的运维管理经验,我们公司是为数不多的,少有的具备万卡集群管理经验的。我们也提供了VBC服务,GPU集群里面不同的用户可以使用不同的VPC,相互资源不会出现争抢,做到完美隔离。

GMI Cloud

在存储层面,我们为不同的业务场景提供了不同的存储介质,比如说数据备份场景,其实你不需要那么高的IOPS,如果做大模型训练的checkpoint存储或者做自动驾驶的数据读取,就需要很高的IOPS,所以可以根据业务场景需求,根据经济模型选择最适合你的存储类型。

而对于一个GPU集群来讲,如果想规模越大,稳定性越高,这个时候你需要非常强大的主动监控平台,于是我们研发了集群管理的监控体系,我们能够实现端到端检测,在整个平台上我们可以清晰化的看到在哪个节点出现网络的中断,快速定位到最根本的问题,让我们的伙伴去现场做一些实施,同时我们也支持在历史数据查询、追溯、报警监控和处理。

同时,在交付之前,为了保证集群交付质量,稳定性、可靠性,GMI Cloud还要经过两道工序,第一道工序就是英伟达NCP验证体系,因为我们是英伟达合作伙伴,我们要把设计方案先经过英伟达确认,然后实施,进行相应测试确保集群可用性,包括性能测试、压力测试。同时我们在交付客户之前工程师会做所有硬件、软件存储网络测试,并且会跑一些最基本的开源大模型,确保训练任务能够完好运行在我们的GPU上。可以说,通过英伟达质量认证体系,以及GMI自身交付验收体系,双重标准来确保交付集群是高稳定性集群。

另外值得一提的是,故障预演,出了问题之后如何快速定位、响应、解决问题,这个是很关键的。所以我们有两个方面——GMI Cloud跟IDC是深度合作伙伴,我们跟全球每个国家的IDC都有当地伙伴做本地化实施。同时我们跟GPU ODM厂商保持3-5%的备机备件,出现硬件故障,我们第一时间可以联系现场人员进行更换。GMI Cloud的保障体系能够做到快速发现、定位问题,快速恢复集群,确保对外的交付SLA是很高的SLA,目前全球范围内能够提供GPU集群SLA超过99%的不到,GMI Cloud算是其中之一。

讲完稳定性问题与解决方案,我们还是从AI infra选型的角度我们怎么选择云基础的合作伙伴。大家出海会根据业务进行选择,短期业务还是长期业务,也会根据场景进行选择。所以GMI Cloud会根据不同的客户需求,提供两种方式,如果你是一个长期租用的方式,我们推荐集群归你独享,长期使用。如果做“短期”的,就可以GMI Cloud端到端的解决方案,从底层定制化集群。关于GPU集群的配置,我们都会根据客户需求进行配置,你需要在哪个国家配置,我们就可以去哪个国家帮你进行配置和选择。

在软件层,GMI Cloud有自己的Cluster Engine,稳定性像CPU时代一样高的同时,付费方式更加灵活,用一两张卡,可以选择一两天,也可以选择连续用3年。同时,GMI Cloud还提供AI顾问服务,我们公司70%人员都是研发人员,其中一半是来自谷歌,他们以前做深度学习和HPC相关的事情,对整个AI算法和HPC高可用,拥有非常多的经验,这些经验GMI Cloud都可以跟企业客户进行共享。

在本次演讲的最后,给大家介绍两个案例,第一个案例是,一家大型互联网招聘企业在海外去构建私有GPU集群的过程中,GMI Cloud帮助他们从底层的IDC到GPU,全面进行构建,“开箱即用”、“拎包入住”,他们只需要聚焦在业务层面,而不需要关注底层运维和管理。

第二个案例是一个知名的直播平台,如大家所知,目前整个端到端大模型非常火,主播跟观众做连麦的时候,双方中英文对话需要能够实时做翻译,而这个过程中不需要先通过ASR再通过TTS,企业会直接使用跑在GMI Cloud上的端到端大模型。

以上是两种不同的案例,也我们两种不同的产品服务方式。

以上就是我今天的分享,从GMI Cloud的架构设计到整个体系,再到供应链保障维度做了分享,谢谢大家!更多信息请关注“GMI Cloud”公众号。

GMI Cloud

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
C罗肘击染红,葡萄牙0-2爆冷!无缘提前直通世界杯,仍排小组第一

C罗肘击染红,葡萄牙0-2爆冷!无缘提前直通世界杯,仍排小组第一

侃球熊弟
2025-11-14 04:42:31
浙江大三甲出现一级甲等事故!

浙江大三甲出现一级甲等事故!

医脉圈
2025-11-14 12:20:54
二手房“抛售”愈演愈烈,业内人士:我们正在创造一个人类奇迹!

二手房“抛售”愈演愈烈,业内人士:我们正在创造一个人类奇迹!

猫叔东山再起
2025-11-13 13:00:03
高市一刻也等不了了!一架专机飞抵中国,这次派的高官,很有讲究

高市一刻也等不了了!一架专机飞抵中国,这次派的高官,很有讲究

寻墨阁
2025-11-12 21:14:07
英媒采访陈志合伙人和举报人:陈志曾亲口透露其净资产近人民币4300亿元

英媒采访陈志合伙人和举报人:陈志曾亲口透露其净资产近人民币4300亿元

霹雳炮
2025-11-13 22:34:10
社评:对高市早苗错误言行的关注不应失焦

社评:对高市早苗错误言行的关注不应失焦

环球时报国际
2025-11-14 00:21:19
重磅!中国航天首次“换船返回”展现硬实力,神二十飞船情况披露

重磅!中国航天首次“换船返回”展现硬实力,神二十飞船情况披露

派大星纪录片
2025-11-14 16:20:01
603843,复牌!此前21天涨停,被上交所重点监控

603843,复牌!此前21天涨停,被上交所重点监控

每日经济新闻
2025-11-11 22:05:05
狗咬邻居被摔死后主人上门打砸遭反杀,该案一审未当庭宣判,检方认为被告人系防卫过当

狗咬邻居被摔死后主人上门打砸遭反杀,该案一审未当庭宣判,检方认为被告人系防卫过当

扬子晚报
2025-11-13 22:32:07
干涉中国统一大业,必遭迎头痛击

干涉中国统一大业,必遭迎头痛击

环球网资讯
2025-11-14 12:47:31
江苏快递员送错件被杀后续:30岁小伙当场没了,更多细节曝光

江苏快递员送错件被杀后续:30岁小伙当场没了,更多细节曝光

奇思妙想草叶君
2025-11-13 22:05:49
六国外援候命,高市早苗通知全球,对华开第二枪,我军上硬菜

六国外援候命,高市早苗通知全球,对华开第二枪,我军上硬菜

玉涵简书
2025-11-14 14:53:12
亚朵大战全季,传统五星级酒店输麻了

亚朵大战全季,传统五星级酒店输麻了

IC实验室
2025-11-13 15:50:52
这里正在发生真正的种族灭绝,他们却开启了休假模式

这里正在发生真正的种族灭绝,他们却开启了休假模式

以色列计划Pro
2025-11-13 21:42:59
心理学上有个词叫:土拨鼠之日效应(千万不要在家待太久,否则你会变傻)

心理学上有个词叫:土拨鼠之日效应(千万不要在家待太久,否则你会变傻)

德鲁克博雅管理
2025-11-13 17:10:14
大反转!狗主人上门打砸遭反杀续:重要证据出现,谁杀了谁不好说

大反转!狗主人上门打砸遭反杀续:重要证据出现,谁杀了谁不好说

吭哧有力
2025-11-14 10:22:35
反转来了!被告人律师称,狗主人郭某或是被自己的猪队友误伤致命

反转来了!被告人律师称,狗主人郭某或是被自己的猪队友误伤致命

火山诗话
2025-11-14 07:08:14
戾气越来越重了!

戾气越来越重了!

深度报
2025-11-13 23:06:32
400万亿什么时候来?等待我们的是什么?

400万亿什么时候来?等待我们的是什么?

混知房产
2025-11-13 20:41:06
全运会乒乓球男团:上海3-0战胜江苏,许昕两战全胜

全运会乒乓球男团:上海3-0战胜江苏,许昕两战全胜

懂球帝
2025-11-14 12:16:38
2025-11-14 17:04:49
36氪 incentive-icons
36氪
让一部分人先看到未来
149832文章数 2847289关注度
往期回顾 全部

科技要闻

京东“失去的五年”后,找到新增长了吗?

头条要闻

29岁程序员疑被骗至东南亚 出租屋内留下一张神秘纸条

头条要闻

29岁程序员疑被骗至东南亚 出租屋内留下一张神秘纸条

体育要闻

40岁C罗肘击染红 离场时怒骂对手主帅

娱乐要闻

《国色天香》编剧发长文质疑古二?

财经要闻

统计局:前10月房地产开发投资下降14.7%

汽车要闻

小鹏X9超级增程动态评测全网首发 高速实测车内65分贝

态度原创

健康
亲子
时尚
手机
公开课

金振口服液助力科学应对呼吸道疾病

亲子要闻

奶粉广告被指数据引用不当,客服:效果因人而异

秋天穿衣真的一点都不难!从这些穿搭中收获灵感,舒适又耐看

手机要闻

天玑霸榜!安兔兔10月安卓次旗舰手机性能榜出炉

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版