网易首页 > 网易号 > 正文 申请入驻

如果没有AI算力,大模型这场战役我们可能胜不了

0
分享至

明敏 萧箫 发自 凹非寺
量子位 | 公众号 QbitAI

没想到,在ChatGPT爆火后的一年里,竟然出现了一个隐藏“Boss”——

量子位获悉,百度、360等互联网大厂均已开始基于昇腾部署AI模型;而知乎新浪美图这样全速推进AI业务的公司,背后同样出现了华为云昇腾AI云服务的身影。

明面上,大模型带动了N卡炙手可热;但另一面,国产算力提供者中的头部企业华为也浮出水面。

有意思的是,上述提到的玩家,目前展现的共性也非常明显:无一例外都是有场景的互联网玩家

简单解释,就是这些公司在大模型变革之前,基本都在各自的行业中有稳定的业务生态,也有核心的商用场景。

毫无疑问,他们需要更快更高效让大模型引擎转动,可以更快产生最直接的价值,云算力是最合适的选择。

国内算力市场,悄然生变

解题就得从大背景展开,国内算力市场的供给需求,正在产生方向性变化。

首先是资源的供给,也就是提供算力的市场,出现了变化。

从去年开始,国内市场就出现了“N卡难求”的情况。为此英伟达轮番推出特供版GPU,在算力和功率上一再缩水,但还是受到限制。最近才有风声的HGX H20和两款新的GPU,也被曝可能推迟到明年2月或3月才能发布。

一系列算力供给缩水动作,使得国内市场上已有的英伟达系列显卡进一步稀缺,算力一个月内涨价50%甚至100%已是常态。

据《经济参考报》介绍,由于算力资源持续紧张,国内算力服务公司如汇纳科技,已经在11月中旬拟将所受托运营的内嵌英伟达A100的高性能算力服务器算力服务收费同步上调100%。

与此同时,国内互联网厂商因大模型急速增长的算力需求,又加剧了这种紧张的局面。

先是国内大模型数量激增,10月份统计数据显示,国内已发布了238个大模型。

每一个大模型背后都意味着海量算力的投入,综述《A Survey of Large Language Models》显示,650亿参数大模型LLaMA,在2048块80G A100上训练了21天;而700亿大模型LLaMA 2,同样用了2000块80G A100训练。

然而,AI算力需求还会持续上涨。

据OpenAI测算,自2012年以来,人工智能模型训练算力需求每3~4个月就翻一番,每年训练AI模型所需算力增长幅度高达10倍。

△图源OpenAI

显然,随着AI成为全球产业的增速引擎,算力作为背后的驱动力自然关注不小,甚至出现了“谁能争抢到算力,谁就更有先发权”这样的说法。

一方面,如果算力跟不上,无法搭上AI这班快车,直接面临的结果就是在竞争中落于下风,甚至可能被行业抛弃。

360公司创始人周鸿祎曾经谈到,公司如果没有搭上ChatGPT这班车,很有可能会被淘汰。

与之相反,如果及时跟进潮流,公司就能凭借已有场景,快速在行业竞争中获得优势。像是一度裁员12%的美版头条BuzzFeed,在宣布和OpenAI合作使用ChatGPT帮助创作内容后,股价一度暴涨119%。

另一方面,算力的充足与否,又直接决定了拥有AI技术和产品的公司,能否提供长期稳定的服务,从而在这场竞争中拥有先发权。

即使是在这场潮流中占据主导话语权的OpenAI,也面临算力紧张而无法满足用户需求、被迫将用户“拱手相让”的问题。

例如前不久,ChatGPT出现了几次流量过大、服务器承载不下导致应用响应崩溃的情况,导致国外用户争相涌向谷歌Bard和Anthropic的Claude 2;付费订阅产品GPT-4,同样因为服务器流量爆炸而出现“暂停订阅”的情况。

但当下算力受限的情况,导致传统互联网企业要想快速跟上AI大模型相关的业务,无法再单单依靠“买卡”这一条路。

毕竟光是等待算力龙头如英伟达发卡的时间,很可能就已经错过了这一波风口。

相比之下,有场景的互联网玩家,一旦有合适的算力,就能更快接入AI大模型相关的业务,从而在这场竞争中获得先发话语权。

在这样的需求下,像华为云这样的国产算力玩家,再度成为国内互联网厂商们关注的对象。

作为有算力、能提供云服务、最早适应大模型打法的云厂商之一,华为云究竟为何能在一众算力供给者中脱颖而出,为有场景的玩家们所看好?

为什么是华为云?

在行业调研中,行业玩家们对大模型时代的云服务,有4大普遍性诉求:

  • 算力可持续
  • 高效长稳
  • 简单易用
  • 开放兼容

而之所以选择华为云,从其“对症下药”的技术细节就能管窥一二。

其架构由下至上,包括AI算力、异构计算架构、AI框架、AI平台、大模型、工具链几个层级,由此构成一个算力充沛、高效稳定、低门槛广生态的云底座。

1、算力可持续

可持续的算力能从最根本上缓解行业玩家们的算力焦虑,同时也是大模型快速炼成、应用落地的基本保障。

在这方面,华为云打造了贵安、乌兰察布、芜湖3大AI云算力中心,提供3大主节点及30+分节点,支持AI算力即开即用

昇腾AI集群也在今年全面升级,集群扩展至16000卡,成为业界首个万卡集群。它可支持万亿参数大模型分布式训练

此外在保障算力资源合理分配方面,华为云支持资源弹性伸缩,可根据业务需求实际情况,自动增加或缩减服务器实例或带宽资源,可在保障业务能力的同时节约成本。

2、稳定高效

先来看稳定性。

由于大模型训练过程比传统分布式训练更复杂,导致训练所需计算集群规模空前增加、涉及器件数量往往在百万/千万级别。如果单器件发生故障,就可能导致集群训练中断,且故障原因定位定界复杂。

这就使得当前大模型训练更容易出现故障,训练时间被拉长。

以Meta的OPT-17B训练为例,理论上在1000个80G A100上训练3000亿个单词,需要33天。实际训练却使用了90天,期间出现了112次故障。其中主要问题是硬件故障,导致手动重启35次,自动重启约70次。

△OPT-175B意外中断情况

在这方面,华为云昇腾AI云服务支持裸金属集群进行大模型训练,无虚拟化损失,并行训练效率提升100%。从处理器、算子、框架、平台全链路垂直协同优化,主力场景性能是业界平台的1.5倍以上。

以盘古大模型(2000亿参数)在2048卡上的训练为例,实现了30天训练不中断,长稳率达到90%,断点恢复时长控制在10分钟以内。

此外华为云还实现了千卡预训练故障自动诊断恢复,增强智能运维工具能力,实现分钟级信息获取、2小时定界、24小时提供解决方案。

△华为常务董事、华为云CEO张平安

再来看高效性,这是场景玩家们的迫切需求。

但是千亿参数大模型在训练中需要大量的梯度、参数等进行同步,集群很难实现线性加速比。即,增加了一倍的计算集群规模,但是计算量无法同比增加。比如:

  • 1024卡集群:计算和通讯比例为7:3
  • 2048卡集群:计算和通讯比例为4:6

华为云昇腾AI云服务通过模型+集群的混合并行策略,让模型切分更加平衡,从而实现集群接近线性加速比。

  • 1024卡集群:计算和通讯比例为85:15
  • 2048卡集群:计算和通讯比例为80:20
  • 4096卡集群:计算和通讯比例为70:30

以及在训练成本方面,华为云昇腾AI云服务使用CAME优化器,相较于业内常用方案可节约50%内存用量。

要知道,大模型的海量参数会导致训练时内存消耗空前增加,进一步导致训练成本升高。CAME优化器专为大模型训练而来,获得了2023年ACL杰出论文奖。

3、简单易用降低开发门槛

如今ChatGPT引爆的大模型趋势已经全面铺开,来自千行百业的玩家们都迫切想要快速将大模型接入自己的业务中。

但是大模型开发又是一个复杂的系统工程,从头开始自己摸索会影响落地速度。

所以云服务厂家们纷纷推出了简单易用的开发工具。比如华为云提供了全链路工具链,云化免配置、开箱即用,可实现5倍速开发大模型

它包括大模型开发工具套件,可自动化、半自动化数据工程,效率提升3倍,5分钟快速构建应用开发。

调试调优部分包含1400+算子沉淀,30+可视化调优部署工具;提供丰富的API能力,可调用盘古大模型100+能力集。

还能将典型模型迁移效率提升到2周内搞定,实现主流场景自主迁移。

4、构建开放兼容生态

最后,并非所有场景玩家都需要从头构建大模型。选择在已有基础大模型上进行微调或者直接使用,是更加降本增效的方案。

那么对于开发者、行业玩家而言,有更多选择就很重要了。

基于这一点业内需求,华为云上线了百模千态社区,企业和开发者能直接使用业界主流的开源大模型,如Llama、GLM等。同时聚合数据集、模型、实践等10万+AI资产。

为了满足开发者的不同偏好,昇腾AI云服务已兼容TensorFlow、PyTorch、RAY、Caffe等AI框架。

进入昇腾AI云服务百模千态专区,仅需3步即可开发自己的大模型

基于如上云服务能力,华为云已经给业内诸多玩家提供了大模型使能服务。

比如美图仅用30天就将70个模型迁移到了昇腾,同时华为云和美图团队一起进行了30多个算子的优化以及流程的并行加速,AI性能较原有方案提升了30%。

昆仑万维和华为云签署战略合作,双方将在华为云昇腾算力领域展开全面深入合作,致力于打造企业专属模型,支持企业级AI应用,持续赋能千行万业应用创新与场景落地。

△华为云CTO张宇昕

在当前算力稀缺、资源不足的情况下,这些场景玩家选择与华为云这样的云厂商联手,来快速增强自身“AI硬实力”。

而这种大背景之下,也涌动着当前的产业趋势:

技术创新的曲线开始趋于平缓,商业创新的曲线开始发力。

其中,增速最快的,自然是有场景、有业务的玩家。

场景玩家如何把握AI落地机遇

ChatGPT发布一年以来,AIGC已行至下半场。

上半场,国内外掀起一股基础大模型技术争锋浪潮,“百模大战”态势之下,涌现出一批AI初创公司。

这些公司或掌握底层AI架构基础、或有搭建上层AI工具的经验,依靠技术发布了不少有创意且吸睛的产品,融资更是拿到手软。

然而,随着相关技术逐渐从开疆拓域走向稳定成熟,AIGC产业也出现了新的变化。

下半场,AI技术公司开始追求产业落地,不少初创公司更是在寻求扩大生态圈的方式。

相比之下,有场景的互联网公司,通过观察AIGC技术优势,依托生态优势、加上算力基础,就能快速扩大影响力,进而在公司中取得话语权。

在这种情况下,技术和场景玩家的身位也在悄然发生变化——

技术玩家,需要“拿锤找钉”,面临进一步扩张技术生态和产品场景的难题。

虽说这些玩家已经具备了成熟的基础大模型或工具链技术,但技术仍旧需要找到场景,才能进一步稳定出圈。

相比之下,场景玩家成为了“拿钉找锤”的一方。

依托已有场景需求和稳定用户生态,这些玩家只需将AIGC技术融入业务,就能进一步实现降本增效。

然而,即便是AIGC技术趋于成熟的当下,想要快速跟进也并非易事,除了底层的算力搭建以外,大模型所需的训练和加速等技术也并非就能“一蹴而就”。

在这样的下半场态势中,像华为云这样底层算力、AI相关技术和平台、生态三者齐备的国内云厂商,在场景玩家的发展中进一步起到了催化剂的作用。

底层算力上,华为云依托自研的昇腾处理器打造的超大规模AI集群,已经由4000卡升级到16000卡集群,能支持万亿级模型训练,不仅速度更快,训练周期也更稳定;

AI相关技术和平台上,除了AI算力之外,华为云还为开发者提供了完善的工具和资源,解决了AI大模型部署从训练、加速到不同框架适配这些难题,进而基于已有的研发经验,给厂商提供运营所需的技术服务;

AI生态上,华为云已经与150多家伙伴、200多家客户,共同构筑了20多个行业大模型以及400多个AI应用场景,加速行业智能化升级。

所以,在当前国际大环境下,有场景的玩家,只需要借助像华为云这样的云厂商提供的技术服务,就能快速将下半场大模型机遇变成红利,而华为云也能给国内的互联网企业提供更多选择。

现有的趋势,也能说明这一点。

美图首个懂美学的AI视觉大模型发布当天,股价单日上涨21.28%,随后更是受到国内图像编辑工具行业的广泛关注;

拓维信息发布的交通CV大模型,如今已在高速公路稽核等行业场景得到应用,这1年一来股价上涨了129.44%……

显然,这些玩家基于自身已有的业务,再依托云厂商提供的大模型和算力,就能快速将场景势能发挥到最大优势。

但无论选择什么类型的云厂商、做出怎样的判断,国内互联网企业都依旧需要回到当前的大环境下,结合客观形势做出判断。

在国外算力购买愈发困难的当下,面临新一轮AI竞争趋势,如何让算力像水电一样即取即用,是所有国内企业都应当要思考的问题。

事实上,如今中国的算力水平实际上已经位居世界第二,占全球市场比重达25%,从2017年到2022年的复合增长率达到48.8%。

当更多的企业愿意投资算力、交易算力,就能推动算力产业进一步降本增效,加快算力向现实生产力转化。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
儿子问我将来上大学念什么专业,我沉默了

儿子问我将来上大学念什么专业,我沉默了

二胎妈妈圈
2026-03-21 21:41:07
仁爱礁破船近况,太阳能活动板房配套齐全,10年内不会解体

仁爱礁破船近况,太阳能活动板房配套齐全,10年内不会解体

杰丝聊古今
2026-03-21 03:27:24
火箭老了,塔猜亚状态爆棚,玉山夺冠将抢走肖国栋巡回锦标赛门票

火箭老了,塔猜亚状态爆棚,玉山夺冠将抢走肖国栋巡回锦标赛门票

老高说体育
2026-03-22 11:50:27
内塔当不了总理了!以色列爆发混乱,万人走上街头,多地被围

内塔当不了总理了!以色列爆发混乱,万人走上街头,多地被围

共工之锚
2026-03-22 12:36:18
伊朗:若美国轰炸伊朗发电站,伊朗将攻击美以的能源、淡水化设施

伊朗:若美国轰炸伊朗发电站,伊朗将攻击美以的能源、淡水化设施

AI商业论
2026-03-22 12:12:13
女网红爆料:交1万住少林3天,凌晨争进方丈房间,释永信这次栽了

女网红爆料:交1万住少林3天,凌晨争进方丈房间,释永信这次栽了

未曾青梅
2026-03-21 23:04:09
差点大打出手!又有国手乱开地图炮,引发赛后冲突,恐遭CBA重罚

差点大打出手!又有国手乱开地图炮,引发赛后冲突,恐遭CBA重罚

后仰大风车
2026-03-22 07:10:09
深度分析:谁在恶意保护长春恶意别车路虎车主?

深度分析:谁在恶意保护长春恶意别车路虎车主?

社会日日鲜
2026-03-21 11:44:19
依旧稳健,39岁前热刺门将洛里成美职联首位开局前5场零封的门将

依旧稳健,39岁前热刺门将洛里成美职联首位开局前5场零封的门将

懂球帝
2026-03-22 12:37:08
停工10年、耗资百亿、12项世界纪录!天津117大厦满血复活,北方第二城亮剑

停工10年、耗资百亿、12项世界纪录!天津117大厦满血复活,北方第二城亮剑

宝哥精彩赛事
2026-03-22 06:36:00
1斤100元!厦门3男子凌晨海上追5小时,钓到1条560斤的

1斤100元!厦门3男子凌晨海上追5小时,钓到1条560斤的

万象硬核本尊
2026-03-20 19:29:11
罗塞尼尔:我才带队打了10场英超,处境没那么糟糕

罗塞尼尔:我才带队打了10场英超,处境没那么糟糕

体坛周报
2026-03-22 12:02:20
鹿晗关晓彤再爆猛料,热搜都炸了

鹿晗关晓彤再爆猛料,热搜都炸了

美芽
2026-03-21 18:02:41
“原价30元,现价1600元”,退市近两年的头孢遭疯抢,是谁在炒作?

“原价30元,现价1600元”,退市近两年的头孢遭疯抢,是谁在炒作?

闪电新闻
2026-03-22 10:53:40
伊朗又断网!或拟永久切断互联网!日均经济损失1850万美元

伊朗又断网!或拟永久切断互联网!日均经济损失1850万美元

深度报
2026-03-21 22:26:24
女教师卖自拍淫秽视频获利24万,将自己裸体视频与和他人的性爱视频通过发送链接,出售给他人观看

女教师卖自拍淫秽视频获利24万,将自己裸体视频与和他人的性爱视频通过发送链接,出售给他人观看

观威海
2026-03-22 07:59:02
拉斯维加斯扩军模拟选秀!布朗尼+希罗+库明加

拉斯维加斯扩军模拟选秀!布朗尼+希罗+库明加

篮球大图
2026-03-21 22:15:27
重磅会议,就在今天!

重磅会议,就在今天!

中国基金报
2026-03-22 10:13:48
小猫葫芦娃?7只病猫集体挂水,老父亲挨个点名:葫芦咪~

小猫葫芦娃?7只病猫集体挂水,老父亲挨个点名:葫芦咪~

拜见喵主子
2026-03-21 12:23:45
李平康:山东新助教要为惨败承担大部分责任,可能就是个混子

李平康:山东新助教要为惨败承担大部分责任,可能就是个混子

懂球帝
2026-03-22 11:13:37
2026-03-22 13:08:49
量子位 incentive-icons
量子位
追踪人工智能动态
12320文章数 176418关注度
往期回顾 全部

科技要闻

OpenAI开启“人海战术” 冲刺8000人规模

头条要闻

70后靳磊出任深圳市委书记 曾在河南工作多年

头条要闻

70后靳磊出任深圳市委书记 曾在河南工作多年

体育要闻

郑钦文两盘横扫前美网冠军 迎迈阿密站开门红

娱乐要闻

《澎湖海战》重启宣传 上映时间确定了

财经要闻

睡梦中欠债1.2万?这只“虾”杀疯了

汽车要闻

14.28万元起 吉利银河星耀8远航家开启预售

态度原创

本地
时尚
游戏
亲子
旅游

本地新闻

春色满城关不住|绍兴春日顶流,这片樱花海藏不住了

这些才是适合普通人借鉴的穿搭!衣服叠穿、多穿衬衫,好耐看

《黑神话》官方上新春季新品!3月23日正式开售

亲子要闻

看看谁运气好

旅游要闻

49.9元/人!“鲸鱼湾—云海花田—磊楼”直通车开通

无障碍浏览 进入关怀版