网易首页 > 网易号 > 正文 申请入驻

分布式训练有望解决人工智能的能耗难题

0
分享至


人工智能正面临着巨大的能源消耗挑战。这种持续增长的能源需求体现在支撑AI繁荣的数据中心产生的巨大碳足迹,以及前沿AI模型训练所产生的碳排放量随时间稳步增加。

难怪大型科技公司开始青睐核能,设想一个由可靠、无碳能源支撑的未来。但是,虽然核动力数据中心可能还需要数年时间才能实现,研究和工业领域的一些人正在立即采取行动来抑制AI不断增长的能源需求。他们正在解决训练这一模型生命周期中最耗能的阶段之一,重点关注去中心化。

利用分布式网络重新定义AI训练

去中心化将模型训练分配到独立节点网络中,而不是依赖单一平台或提供商。它让计算能力可以去到能源所在的地方——无论是坐落在研究实验室中的闲置服务器,还是太阳能供电家庭中的计算机。去中心化不是建造更多需要电网扩大基础设施和容量的数据中心,而是利用现有来源的能源,避免增加更多电力消耗。

训练AI模型是一项巨大的数据中心运动,需要在紧密连接的GPU集群间同步进行。但随着硬件改进难以跟上大语言模型规模的快速增长,即使是大规模的单一数据中心也不再够用。

科技公司正转向多个数据中心的集合力量——无论其位置如何。例如,英伟达推出了Spectrum-XGS以太网用于跨规模网络,它"可以为跨地理分离数据中心的大规模单一作业AI训练和推理提供所需的性能"。同样,思科推出了其8223路由器,旨在"连接地理分散的AI集群"。

其他公司正在挖掘服务器中的闲置计算资源,催生了GPU即服务业务模式的兴起。以Akash网络为例,这是一个点对点云计算市场,自称为"数据中心的Airbnb"。那些在办公室和较小数据中心拥有未使用或使用不足GPU的人注册为提供商,而那些需要计算能力的人被视为租户,可以在提供商中选择并租用他们的GPU。

Akash联合创始人兼首席执行官Greg Osuri表示:"如果你看看今天的AI训练,它非常依赖最新最好的GPU。幸运的是,世界正在转型,从仅依赖大型高密度GPU转向现在考虑较小的GPU。"

算法创新支撑分布式学习

除了协调硬件外,去中心化AI训练还需要在软件方面进行算法更改。这就是联邦学习——一种分布式机器学习形式——发挥作用的地方。

它从驻留在可信实体(如中央服务器)中的全局AI模型的初始版本开始。麻省理工学院计算机科学与人工智能实验室(CSAIL)首席研究科学家、去中心化信息小组负责人Lalana Kagal解释说,服务器将模型分发给参与组织,这些组织在本地数据上训练模型,并仅与可信实体共享模型权重。然后,可信实体聚合权重(通常通过平均),将它们集成到全局模型中,并将更新的模型发送回参与者。这种协作训练循环重复进行,直到模型被认为完全训练完成。

但分布数据和计算也有缺点。例如,模型权重的持续来回交换导致高通信成本。容错是另一个问题。

Osuri说:"AI的一个重大问题是每个训练步骤都不具备容错性。这意味着如果一个节点宕机,你必须重新恢复整个批次。"

为了克服这些障碍,谷歌DeepMind的研究人员开发了DiLoCo,一种分布式低通信优化算法。DiLoCo形成了谷歌DeepMind研究科学家Arthur Douillard所称的"计算岛",每个岛由一组芯片组成。每个岛持有不同的芯片类型,但岛内的芯片必须是同一类型。岛之间彼此解耦,它们之间的知识同步偶尔发生。这种解耦意味着岛可以独立执行训练步骤而不需要经常通信,芯片可以故障而不必中断剩余的健康芯片。然而,团队的实验发现在八个岛之后性能递减。

一个改进版本称为Streaming DiLoCo,通过"以流式方式跨几个步骤同步知识而无需停止通信"进一步减少了带宽需求,Douillard说。这种机制类似于在视频尚未完全下载时就能观看视频。"在Streaming DiLoCo中,当你进行计算工作时,知识在后台逐渐同步,"他补充道。

AI开发平台Prime Intellect实施了DiLoCo算法的一个变体,作为其跨五个国家三大洲训练的100亿参数INTELLECT-1模型的重要组成部分。更进一步,去中心化AI操作系统制造商0G Labs调整了DiLoCo来在带宽有限的分离集群网络下训练1070亿参数基础模型。与此同时,流行的开源深度学习框架PyTorch将DiLoCo包含在其容错技术存储库中。

Douillard说:"社区做了大量工程工作来采用我们的DiLoCo论文并将其集成到通过消费级互联网学习的系统中。看到我的研究如此有用,我感到非常兴奋。"

开启可持续AI发展新路径

随着硬件和软件增强到位,去中心化AI训练准备好帮助解决AI的能源问题。麻省理工学院CSAIL的Kagal说,这种方法提供了"以更便宜、更资源高效、更节能的方式"训练模型的选择。

虽然Douillard承认"像DiLoCo这样的训练方法可以说更复杂,但它们提供了系统效率的有趣权衡"。例如,你现在可以使用相距很远的数据中心,而无需在它们之间建立超高速带宽。Douillard补充说,容错是内置的,因为"芯片故障的爆炸半径仅限于其计算岛"。

更好的是,公司可以利用现有的未充分利用的处理能力,而不是持续建造新的耗能数据中心。Akash大力押注这样的机会,创建了其Starcluster程序。该程序的目标之一涉及利用太阳能供电的家庭,并使用其中的台式机和笔记本电脑来训练AI模型。Osuri说:"我们想把你的家转换成一个功能齐全的数据中心。"

Osuri承认参与Starcluster并非易事。除了太阳能板和配备消费级GPU的设备外,参与者还需要投资电池作为备用电源和冗余互联网以防止停机。Starcluster程序正在寻找将所有这些方面打包在一起并让房主更容易参与的方法,包括与行业合作伙伴合作补贴电池成本。

后端工作已经在进行,以使家庭能够作为Akash网络的提供商参与,团队希望在2027年达到目标。Starcluster程序还设想扩展到其他太阳能供电的地点,如学校和当地社区场所。

去中心化AI训练很有希望引导AI走向更环保可持续的未来。对Osuri来说,这种潜力在于将AI"移到能源所在的地方,而不是将能源移到AI所在的地方"。

Q&A

Q1:什么是去中心化AI训练?

A:去中心化AI训练是将模型训练分配到独立节点网络中,而不是依赖单一平台或提供商。它让计算能力可以去到能源所在的地方,比如研究实验室的闲置服务器或太阳能供电家庭的计算机,从而避免建造更多耗能数据中心。

Q2:DiLoCo算法是如何工作的?

A:DiLoCo是谷歌DeepMind开发的分布式低通信优化算法。它形成"计算岛",每个岛由同类型芯片组成,岛之间解耦运行,偶尔同步知识。这样岛可以独立训练而不需要频繁通信,芯片故障也不会影响其他健康芯片。

Q3:Akash网络的Starcluster程序是什么?

A:Starcluster是Akash网络推出的程序,旨在将太阳能供电的家庭转换为功能齐全的数据中心。参与者需要太阳能板、配备消费级GPU的设备、备用电池和冗余互联网。该程序计划到2027年实现目标,还将扩展到学校等其他太阳能供电场所。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
放弃争夺数百亿遗产,带着女儿远遁美国,如今才明白她有多清醒

放弃争夺数百亿遗产,带着女儿远遁美国,如今才明白她有多清醒

笑饮孤鸿非
2026-05-07 21:08:14
湖人惨败!里夫斯31+2+6赛后小里去找裁判交流,老詹一旁连连点头

湖人惨败!里夫斯31+2+6赛后小里去找裁判交流,老詹一旁连连点头

担酒
2026-05-08 12:33:43
立夏后,少吃豆腐白菜,多吃4种“冠军菜”,应季好吃还便宜

立夏后,少吃豆腐白菜,多吃4种“冠军菜”,应季好吃还便宜

阿龙美食记
2026-05-06 10:50:21
老人财产转给独生子女:3个最佳时间,早知道少走弯路

老人财产转给独生子女:3个最佳时间,早知道少走弯路

小鹿姐姐情感说
2026-05-05 10:43:52
嗜赌成性只是冰山一角,婚内出轨、睡有妇之夫,体坛丑闻毁三观

嗜赌成性只是冰山一角,婚内出轨、睡有妇之夫,体坛丑闻毁三观

阿讯说天下
2026-04-25 11:15:04
先访华再访日?美方故技重施,中方斩钉截铁,特朗普能否来华?

先访华再访日?美方故技重施,中方斩钉截铁,特朗普能否来华?

基斯默默
2026-05-08 11:19:06
川普下场、孙哥上桌,今年最赚钱的生意要来了?

川普下场、孙哥上桌,今年最赚钱的生意要来了?

差评XPIN
2026-05-08 00:11:24
整整一周未发声,伊朗最高领袖突然与总统会面,美伊谈判进入终局推演?

整整一周未发声,伊朗最高领袖突然与总统会面,美伊谈判进入终局推演?

国是直通车
2026-05-07 22:41:03
一觉醒来,美伊又打起来了!霍尔木兹海峡对峙升级,伊称打击3艘美军舰,美对伊军事设施定点打击,美官员:打击不意味战争重启

一觉醒来,美伊又打起来了!霍尔木兹海峡对峙升级,伊称打击3艘美军舰,美对伊军事设施定点打击,美官员:打击不意味战争重启

都市快报橙柿互动
2026-05-08 07:47:10
调整!央视5直播世乒赛时间有变,国乒男团战韩国,法国PK巴西

调整!央视5直播世乒赛时间有变,国乒男团战韩国,法国PK巴西

帛河体育
2026-05-08 11:21:06
让孩子穿着先辈的军装去海参崴阅兵!这到底是谁出的馊主意?

让孩子穿着先辈的军装去海参崴阅兵!这到底是谁出的馊主意?

阿龙聊军事
2026-05-07 15:42:42
北京的很多房子不好出租了

北京的很多房子不好出租了

微微热评
2026-05-07 21:05:19
再见了CBA?徐昕已被美国球队高薪挖墙脚:年薪有望超过2000万?

再见了CBA?徐昕已被美国球队高薪挖墙脚:年薪有望超过2000万?

篮球快餐车
2026-05-08 00:46:53
母亲为女儿带娃6个月后,母亲腹部隆起,得知真相后女儿直接崩溃

母亲为女儿带娃6个月后,母亲腹部隆起,得知真相后女儿直接崩溃

涛哥讲堂
2024-09-19 11:27:55
“有这种妈,抑郁症就好不了!”一段母子俩出游视频,令人窒息

“有这种妈,抑郁症就好不了!”一段母子俩出游视频,令人窒息

妍妍教育日记
2026-05-07 10:30:13
江苏一家瑞幸咖啡店开到村里面,网友评论区玩梗停不下来

江苏一家瑞幸咖啡店开到村里面,网友评论区玩梗停不下来

马蹄烫嘴说美食
2026-05-08 11:18:49
一种谋划叫马伊琍,离婚七年隐婚曝光,文章只是一个过客

一种谋划叫马伊琍,离婚七年隐婚曝光,文章只是一个过客

一盅情怀
2026-05-07 12:57:40
为什么很多离异的30-40岁女性很难再婚?网友:思想不够不开放!

为什么很多离异的30-40岁女性很难再婚?网友:思想不够不开放!

夜深爱杂谈
2026-04-19 09:48:34
上海重大突破!影响900万正咬牙坚守的家庭!“不让任何一个掉队...”

上海重大突破!影响900万正咬牙坚守的家庭!“不让任何一个掉队...”

今日养生之道
2026-05-08 11:34:54
巴基斯坦战略专家:这三场战争已表明,中国才是世界最强超级大国

巴基斯坦战略专家:这三场战争已表明,中国才是世界最强超级大国

农夫史记
2026-05-05 20:42:36
2026-05-08 13:35:00
至顶AI实验室 incentive-icons
至顶AI实验室
一个专注于探索生成式AI前沿技术及其应用的实验室。
3467文章数 171关注度
往期回顾 全部

科技要闻

追赶星舰:中国商业火箭离SpaceX有多远?

头条要闻

女子网购发现所在街道被"拉黑" 商家:"白嫖"的人太多

头条要闻

女子网购发现所在街道被"拉黑" 商家:"白嫖"的人太多

体育要闻

巴黎再进欧冠决赛,最尴尬的情况还是发生了

娱乐要闻

黄子佼获缓刑4年,无需入狱服刑

财经要闻

一觉醒来,美伊又打起来了

汽车要闻

雷克萨斯全新纯电三排SUV 全新TZ全球首发

态度原创

本地
时尚
手机
旅游
公开课

本地新闻

用苏绣的方式,打开江西婺源

今年母亲节,和妈妈一起变漂亮

手机要闻

三星Galaxy S26 FE手机曝光:Exynos 2500芯片,有望9月登场

旅游要闻

河南自然博物馆关于免费预约参观的声明

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版