网易首页 > 网易号 > 正文 申请入驻

GMI Cloud King Cui:AI企业如何补齐算力短板,保障GPU集群稳定性?|WISE 2024 商业之王

0
分享至

环境持续变化,时代总在迭变,“商业之王”们紧随时代浪潮,坚持创造,谋求新动能。立足中国经济大转型的当下,WISE2024 商业之王大会,一同发现真正有韧性的“商业之王”,探寻中国商业浪潮里“正确的事”。

11月28-29日,为期两日的36氪WISE2024 商业之王大会于北京隆重落地,作为中国商业领域的全明星盛典,WISE大会今年已经是第十二届,在不断变化的时代里见证着中国商业的韧性与潜力。

2024,是有些模糊且变化多于稳定的一年。相比过去十年,大家的脚步正放缓,发展更加理性。2024,也是寻求新的经济动力的一年,新的产业变化对每个主体的适应性提出了更高的要求。今年WISE大会以Hard But Right Thing(正确的事)为主题,在2024,什么是正确的事,成为我们更想交流的话题。

算力,作为AI技术的核心驱动力,直接关系到AI应用的性能与效率。在全球化运营中,如何确保算力的充足与高效,如何应对AI 算力短缺、AI Infra稳定性不足等问题都是AI企业目前在全球化运营过程中亟需解决的问题。

那关于这些问题的解决方案,GMI Cloud亚太区总裁King Cui 在大会现场分享了他的思考与见解。

King Cui 演讲现场

| 以下为King Cui演讲全文,略有删减:

朋友们大家下午好!我是来自GMI Cloud的King,今天分享一下全球布局情况下,AI企业如何在海外补齐短板,并且保证稳定性。

我做云计算已经十几年了,我将云计算的发展历程分为三个阶段——随着OpenAI的诞生和崛起,整个Cloud已经进入3.0时代,这个时候完全跟以前的云计算或者经典云计算时代是不一样的,企业计算需求更多是从CPU转向GPU,存储速度比以前高了很多倍,所以我们要做全新的形态。在这个背景下,我们成立了GMI Cloud,截至目前为止,刚刚创立了两年时间,总部在美国硅谷,目前主要是服务全球的AI企业和平台机构,我们在去年获得了英伟达认证的合作伙伴。

我们为什么能够在亚太区获得GPU分配权,我们除了跟英伟达合作之外,我们还跟GPU厂商保持比较好的合作,甚至他们也是我们的合作伙伴,我们的优势就是可以第一时间拿到最新版本的GPU,在亚太区拿到最新的服务器。比如说当下的H200,我们在今年8月份就开始对外提供云服务了,包括未来我们在明年的Q1会拿到GB200,也将会是亚太区第一个对外提供GB200云服务的NCP。我们目标是构建AI Cloud平台,我们是做GPU云服务生意,我们希望为AI企业提供稳定的AI基础设施。

目前我们在全球有10个数据中心,芯片主要以H100和H200为主。在今年十月份,我们刚刚宣布完成了新一轮融资,8200万美金,主要用于数据中心的建设,以及开拓新的H200 GPU的云服务。

我们的愿景是希望在AI云原生时代,能够成为“台积电”这样的企业,保持初心帮助合作伙伴提供比较稳定的AI Cloud,我们不会做大模型、应用,只专注地把我们的AI Cloud做好。

大家对GMI Cloud有了一个基础了解之后,下面我们就正式来聊一聊AI的出海,因为今天大家都在讲出海,但是也没有人讲为什么要出海,大家也觉得AI时代到来了,它相比以前的时代有什么区别?

从技术发展来讲,我们这代人非常幸运,我们经历了互联网时代、移动互联网时代、人工智能时代,从互联网到移动互联网,这两个时代基本上目前已经到了普惠点,如果中国还在做移动互联网创业的话大概率没有太大机会了,所以AI时代崛起比前两个时代更加迅猛,对社会和生产发展的影响更加巨大。这个时代的机会是非常明确的,所以我也是这样的时代驱使下离开了大厂,进入创业公司。

截止到今年8月份,全球有1700多个APP都是AI相关,其中中国有280个,出海相关比例高达30%,大概有92个APP。在PPT上,大家可以看到,我们列了排行榜前30的MAU,从今年1-9月份前十MAU增速已经环比超过了120%。

所有AI应用出海必然离不开的东西就是算力,AI三驾马车,数据、算法、算力,算力是基石,国内与海内的区别还是挺大的,海外供应商有很多不确定性,同时GPU时代的挑战性比传统CPU时代高很多,毕竟没有人做过超大规模的或者说十万卡以上GPU运维,但是CPU时代做过这样的事情,所以海外AI Infra的稳定性对于AI 出海企业来说,挑战是巨大的。

举一个例子,META前段时间发布了一个报告,他们用10000多张的H100,训练他们的Llama 405B大模型,总共54天的时间,出现了466次中断故障,其中有419次是预期外的,其中跟GPU相关得高达58%(280多次),CPU相关故障只有2次,这个数据对比可以看出,GPU跟CPU的稳定性挑战不是一个量级的。

整个的GPU稳定性其实就关系到我们研发的效率、时间成本、金钱,那下面就给大家汇报一下,整个GMI Cloud如何实现GPU集群高稳定性的。

首先从我们集群的架构层面来讲,我们完全是由自己自主研发的,我们从底层的GPU硬件,包括高速的GPU服务器、存储、网络,在PaaS层往上我们可以跟合作伙伴一起共建,比如说大模型,客户可以基于自己的大模型做研发,同时我们为广大的企业和个人开发者提供了开源大模型,一键部署到Cloud集群上面,并且我们有调优的服务。

GMI Cloud

(以下)这是我们整个的产品,我们产品可以帮助所有企业,GPU集群做自动化管控,我们可以把存储服务、网络服务,都通过作业方式进行调度,降低企业使用GPU集群的门槛。

GMI Cloud

(以下)这里讲的我们整个网络的设备,首先最左边的图是IB的万卡集群,我们提供IB高速网络,其实不是所有的企业都有过IB万卡集群的运维管理经验,我们公司是为数不多的,少有的具备万卡集群管理经验的。我们也提供了VBC服务,GPU集群里面不同的用户可以使用不同的VPC,相互资源不会出现争抢,做到完美隔离。

GMI Cloud

在存储层面,我们为不同的业务场景提供了不同的存储介质,比如说数据备份场景,其实你不需要那么高的IOPS,如果做大模型训练的checkpoint存储或者做自动驾驶的数据读取,就需要很高的IOPS,所以可以根据业务场景需求,根据经济模型选择最适合你的存储类型。

而对于一个GPU集群来讲,如果想规模越大,稳定性越高,这个时候你需要非常强大的主动监控平台,于是我们研发了集群管理的监控体系,我们能够实现端到端检测,在整个平台上我们可以清晰化的看到在哪个节点出现网络的中断,快速定位到最根本的问题,让我们的伙伴去现场做一些实施,同时我们也支持在历史数据查询、追溯、报警监控和处理。

同时,在交付之前,为了保证集群交付质量,稳定性、可靠性,GMI Cloud还要经过两道工序,第一道工序就是英伟达NCP验证体系,因为我们是英伟达合作伙伴,我们要把设计方案先经过英伟达确认,然后实施,进行相应测试确保集群可用性,包括性能测试、压力测试。同时我们在交付客户之前工程师会做所有硬件、软件存储网络测试,并且会跑一些最基本的开源大模型,确保训练任务能够完好运行在我们的GPU上。可以说,通过英伟达质量认证体系,以及GMI自身交付验收体系,双重标准来确保交付集群是高稳定性集群。

另外值得一提的是,故障预演,出了问题之后如何快速定位、响应、解决问题,这个是很关键的。所以我们有两个方面——GMI Cloud跟IDC是深度合作伙伴,我们跟全球每个国家的IDC都有当地伙伴做本地化实施。同时我们跟GPU ODM厂商保持3-5%的备机备件,出现硬件故障,我们第一时间可以联系现场人员进行更换。GMI Cloud的保障体系能够做到快速发现、定位问题,快速恢复集群,确保对外的交付SLA是很高的SLA,目前全球范围内能够提供GPU集群SLA超过99%的不到,GMI Cloud算是其中之一。

讲完稳定性问题与解决方案,我们还是从AI infra选型的角度我们怎么选择云基础的合作伙伴。大家出海会根据业务进行选择,短期业务还是长期业务,也会根据场景进行选择。所以GMI Cloud会根据不同的客户需求,提供两种方式,如果你是一个长期租用的方式,我们推荐集群归你独享,长期使用。如果做“短期”的,就可以GMI Cloud端到端的解决方案,从底层定制化集群。关于GPU集群的配置,我们都会根据客户需求进行配置,你需要在哪个国家配置,我们就可以去哪个国家帮你进行配置和选择。

在软件层,GMI Cloud有自己的Cluster Engine,稳定性像CPU时代一样高的同时,付费方式更加灵活,用一两张卡,可以选择一两天,也可以选择连续用3年。同时,GMI Cloud还提供AI顾问服务,我们公司70%人员都是研发人员,其中一半是来自谷歌,他们以前做深度学习和HPC相关的事情,对整个AI算法和HPC高可用,拥有非常多的经验,这些经验GMI Cloud都可以跟企业客户进行共享。

在本次演讲的最后,给大家介绍两个案例,第一个案例是,一家大型互联网招聘企业在海外去构建私有GPU集群的过程中,GMI Cloud帮助他们从底层的IDC到GPU,全面进行构建,“开箱即用”、“拎包入住”,他们只需要聚焦在业务层面,而不需要关注底层运维和管理。

第二个案例是一个知名的直播平台,如大家所知,目前整个端到端大模型非常火,主播跟观众做连麦的时候,双方中英文对话需要能够实时做翻译,而这个过程中不需要先通过ASR再通过TTS,企业会直接使用跑在GMI Cloud上的端到端大模型。

以上是两种不同的案例,也我们两种不同的产品服务方式。

以上就是我今天的分享,从GMI Cloud的架构设计到整个体系,再到供应链保障维度做了分享,谢谢大家!更多信息请关注“GMI Cloud”公众号。

GMI Cloud

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
梁小龙生前去美国找过黄元申,遗憾对方拒绝见他,如今天人永隔了

梁小龙生前去美国找过黄元申,遗憾对方拒绝见他,如今天人永隔了

达文西看世界
2026-01-19 15:49:32
中途岛海战的几十年谎言:日本航母被炸时,飞行甲板其实是空的

中途岛海战的几十年谎言:日本航母被炸时,飞行甲板其实是空的

史之铭
2026-01-18 17:31:05
詹姆斯你太狠了,创造79年NBA独一无二纪录,太难超越了

詹姆斯你太狠了,创造79年NBA独一无二纪录,太难超越了

大西体育
2026-01-19 18:23:07
原来嘴哥也是唇腭裂患者,4年3次报名参军,这次为微笑投资太赞了

原来嘴哥也是唇腭裂患者,4年3次报名参军,这次为微笑投资太赞了

削桐作琴
2026-01-20 00:56:41
45岁仍拍三级片,败光两任亿万家产,62岁坦言后悔嫁给钟镇涛

45岁仍拍三级片,败光两任亿万家产,62岁坦言后悔嫁给钟镇涛

无人倾听无人倾听
2026-01-17 15:17:25
河南一学生教室内用板凳攻击同学后脑,学校称没视频上严重,警方:只是看着动作比较大

河南一学生教室内用板凳攻击同学后脑,学校称没视频上严重,警方:只是看着动作比较大

扬子晚报
2026-01-19 14:16:20
梅德韦杰夫发文讽刺:让美国再次伟大等于让丹麦再次变小,等于让欧洲再次贫穷;此前梅德韦杰夫讽刺美国“再不抓紧,格陵兰就要入俄了”

梅德韦杰夫发文讽刺:让美国再次伟大等于让丹麦再次变小,等于让欧洲再次贫穷;此前梅德韦杰夫讽刺美国“再不抓紧,格陵兰就要入俄了”

大象新闻
2026-01-19 16:49:04
7岁女孩独自照顾住院父亲,“挂号、交钱、买药都是一个人”,隔壁病房叔叔发红包鼓励:“我自己都一地鸡毛,但是看不得人间疾苦”

7岁女孩独自照顾住院父亲,“挂号、交钱、买药都是一个人”,隔壁病房叔叔发红包鼓励:“我自己都一地鸡毛,但是看不得人间疾苦”

扬子晚报
2026-01-19 09:47:10
人民日报披露广州农商行原行长易雪飞腐败花样翻新

人民日报披露广州农商行原行长易雪飞腐败花样翻新

科技金融在线
2026-01-19 14:43:25
口碑反转!王菲没想到,负债累累的李亚鹏,如今却让自己“难堪”

口碑反转!王菲没想到,负债累累的李亚鹏,如今却让自己“难堪”

白面书誏
2026-01-19 17:22:22
巨额年终奖!64万元/人!

巨额年终奖!64万元/人!

中国基金报
2026-01-19 17:38:24
神仙姐姐的野生图,太美了。

神仙姐姐的野生图,太美了。

微微热评
2026-01-09 12:20:53
计划有变!U23亚洲杯酝酿剧本:中韩会师决赛 欧洲球探愿报价李昊

计划有变!U23亚洲杯酝酿剧本:中韩会师决赛 欧洲球探愿报价李昊

侃球熊弟
2026-01-19 00:20:31
李亚鹏房东助理回应嫣然医院“翻倍涨租金” :“我们就像东郭先生”

李亚鹏房东助理回应嫣然医院“翻倍涨租金” :“我们就像东郭先生”

极目新闻
2026-01-17 08:47:37
贾国龙发怒后西贝员工仍被网友调侃:微波炉加热师是挺难找工作

贾国龙发怒后西贝员工仍被网友调侃:微波炉加热师是挺难找工作

映射生活的身影
2026-01-17 23:09:13
吴磊大瓜牵扯多位明星!白珊珊控诉吴磊,赵露思、何猷君无辜躺枪

吴磊大瓜牵扯多位明星!白珊珊控诉吴磊,赵露思、何猷君无辜躺枪

全球风情大揭秘
2026-01-19 10:45:26
西贝的问题,已经不是预制菜和贵不贵了

西贝的问题,已经不是预制菜和贵不贵了

钛媒体APP
2026-01-19 08:44:13
震惊!网传相亲市场有女子债务非常严重,十几个app征信洗不白了

震惊!网传相亲市场有女子债务非常严重,十几个app征信洗不白了

火山诗话
2026-01-18 13:13:45
谁也没想到,芯片三巨头集体撤离,中国厂商:泼天的富贵必须抓住

谁也没想到,芯片三巨头集体撤离,中国厂商:泼天的富贵必须抓住

牛锅巴小钒
2026-01-20 00:46:08
好看的打扮不管在哪,都很吸引人

好看的打扮不管在哪,都很吸引人

美女穿搭分享
2026-01-01 11:01:35
2026-01-20 01:59:00
36氪 incentive-icons
36氪
让一部分人先看到未来
150460文章数 2847815关注度
往期回顾 全部

科技要闻

这一仗必须赢!马斯克死磕芯片"9个月一更"

头条要闻

除吴孟达、梁小龙外 十多位周星驰电影中的配角已离世

头条要闻

除吴孟达、梁小龙外 十多位周星驰电影中的配角已离世

体育要闻

错失英超冠军奖牌,他却在德甲成为传奇

娱乐要闻

吴磊起诉白珊珊诽谤,白珊珊称被盗号

财经要闻

公章争夺 家族反目 双星为何从顶端跌落?

汽车要闻

徐军:冲击百万销量,零跑一直很清醒

态度原创

健康
数码
亲子
房产
公开课

血常规3项异常,是身体警报!

数码要闻

荣耀手表GS 5发布:行业独家防猝筛查、23天蓝牙续航,699元

亲子要闻

宝妈必学,孩子不懂对侵犯说不,任何人都有可能是坏人!

房产要闻

中旅・三亚蓝湾发布会揭秘自贸港好房子高阶形态

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版