网易首页 > 网易号 > 正文 申请入驻

AI大模型的另一个“隐空间”:碳排放是如何被压缩抽象的

0
分享至

给大模型训练算一笔碳账,似乎已经越来越不合时宜。毕竟,随着推理模型与智能体的爆发,市场的目光早已转向推理侧的成本,认为“训练成本”已是旧时代的故事;尽管,推理的环境外部性,更是一笔糊涂账。

而且有点诡异,美国那里还有人研究和披露,但白宫已经不在乎了;中国这里政策很重视,但研究和披露大模型碳足迹的却不多。

唱反调的是美国艾伦AI研究所(Ai2)。作为当前开源模型西方阵营的领军者之一,它用一篇数据翔实的论文,给大家上了一课:模型训练的“碳足迹”不仅没有过时,而且,过去以“预训练”为核心、以“最终训练运行”为主要统计对象的碳核算方法,已经落后于模型训练范式的变化。


确实如此。Anthropic创始人阿莫迪(Dario Amodei)近期曾粗略地推算,目前,业界训练与推理的计算支出,各占一半。这不难理解。大模型的前沿竞争如此惨烈,如果推理支出过多,会阻碍未来的研发进展;如果训练支出过多,则无法产生足够的收入。

试想,谷歌几个月来连续签下几个天然气发电订单;微软考虑放弃“按小时匹配清洁能源”的目标;Anthropic接手了xAI燃气发电的Colossus 1集群。这些巨头花了一半的碳排放在模型训练上。这意味着,一旦它们公开些许模型训练细节,人们就能顺藤摸瓜地反推出其AI业务碳足迹的大致区间。

而且,“模型训练”这个概念本身,也越来越模糊。过去,大模型厂商讨论旗下模型“碳足迹”时,往往只聚焦于预训练阶段最后一次完整成功的训练,即“最终训练运行”(final training runs)。它既不包含故障中断的部分,也不包含大量早期实验性探索。还有部分模型,最终甚至被扼杀在发布之前,从未为市场知晓。

事实上,就连这种“有限度的披露”,上一次还要追溯到两年前Meta发布Llama 3。彼时,AI仍处于“指令模型”时代,训练流程依然以预训练为主,微调为辅。直到半年后,以慢思考著称的o1才正式发布,后者确立了强化学习的扩展定律新范式,也彻底改变了训练的成本结构。

当前的SOTA模型训练,除了典型的预训练,还要花费大量的算力在精选数据上的中间训练、长上下文扩展、大规模合成数据生成、有监督微调(SFT)、偏好优化(如DPO)以及强化学习(RL)上。预训练的算力占比正在降低。而且,每一个训练环节,都涉及各自的“最终运行”(论文中的final runs)及其早期探索开发(论文中的development)。这也让大部分模型训练的环境外部性隐入迷雾。

去年年底,艾伦研究所开源了Olmo 3家族。它们包括70亿和320亿参数两款,均分为指令跟随(Instruct)和推理(Think)变体。它们基于H100集群训练,总共花费了834万GPU时;合成数据部分则额外基于AMD芯片生成。


其中,仅有18%的GPU时,用在所谓“最终运行”上。而且,这个比例无论放在过去还是未来,都呈现下降趋势。

这大致可以与EpochAI今年3月的研究相印证。该机构估算,OpenAI、Minimax与智谱的“最终训练运行”的成本,占总研发支出的比例,基本上在10%-20%之间;其中,OpenAI仅为9.6%,为三家中最低。这从侧面说明,真正昂贵的,往往不是最后一次成功训练,而是此前漫长且高失败率的原创探索。

更值得注意的是,推理模型后训练的能耗,已经远高于传统指令模型。

论文显示,推理模型后训练的能耗约为指令模型的17倍,主要消耗在强化学习中的“生成轨迹”(rollouts)环节。某种程度上,这一过程本身就相当于一次大规模推理部署。也就是说,后训练正在“推理化”,而推理本身也开始越来越像训练的一部分。

艾伦研究所用于训练Olmo 3家族的数据中心,GPU自身能耗占整个IT基础设施的比例为57.5%,数据中心的能效(PUE)为1.2,当地电网的碳排放强度(CI)为0.332。经计算,这组模型的“最终运行”环节碳排放为647吨碳当量(tCO₂eq);早期探索开发环节为2757吨。此外,独立于模型“训练”之外的数据合成环节,碳排放为675吨;构建这个集群的硬件制造环节,经摊销后的隐含排放为172吨。


换言之,仅仅训练这一组百亿参数模型,总计就排放了4251吨碳当量。

作为对比,当初Llama-3-8B与Llama-3-70B,Meta自估仅分别为390吨与1900吨。此外,谷歌去年环境报告披露,2024年基于目标(Ambition-based)的碳排放总量(范围1、2、3合计)为1150万吨。不过,考虑到如今前沿模型动辄以万亿参数规模计,且迭代频率越来越高,模型训练的环境成本,依然不可小觑。

此外,论文还单独分析了数据中心的水资源消耗问题。该论文的统计口径,包括了用电侧的冷却(在该模型训练中,采用了闭路循环冷却,实际消耗约等于0;但对于使用蒸发冷却塔的数据中心,这部分占比相当高),也包括了发电侧蒸发或消耗的水。论文称,这组模型完整的训练过程,共消耗15887吨(即15887千升)水,约等于一个美国普通个人140年的用水量。

推理模型已如此,而为智能体优化训练的模型,在后训练中还会引入更多动作、观察与推理步骤生成,其消耗甚至可能高出几个数量级。若未来进一步出现大模型递归迭代训练与自动化优化框架,这种趋势还会被进一步放大。这意味着,“训练”与“推理”的边界正在逐渐消失,模型训练未来会越来越像一个持续运行的工业系统。

因此,论文呼吁行业在披露模型训练成本时,不仅报告预训练成本,也应同步披露后训练成本;不仅报告“最终运行”,也至少额外给出早期探索开发阶段的“乘数”。

也许,中国模型厂商也不妨听听这一呼吁。

毕竟,美国从政府到科技企业,似乎都已经逐渐放弃认真履行各自的碳中和承诺。中国一方面拥有比美国更多仍在进行预训练竞争的模型厂商,另一方面,其芯片与算力基础设施的整体能效又低于美国。此外,中国尽管电力充沛,但绿电资源在时空上的分布并不均衡。

中国依然坚持走向碳中和,AI碳账单就始终存在。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
抗美援朝时邓华帮助过韦杰,后来邓华陷入低谷,韦杰怎么报答的?

抗美援朝时邓华帮助过韦杰,后来邓华陷入低谷,韦杰怎么报答的?

史之铭
2026-05-09 00:42:50
暂停使用!已陪伴广州人22年!街坊:不舍

暂停使用!已陪伴广州人22年!街坊:不舍

广州生活美食圈
2026-05-08 11:47:10
国家免费电视已开通!不用缴费,动手调好就能看

国家免费电视已开通!不用缴费,动手调好就能看

小柱解说游戏
2026-05-08 16:59:21
得熬夜!国乒男团VS法国,比赛时间公布,林诗栋遇苦主,王皓有招

得熬夜!国乒男团VS法国,比赛时间公布,林诗栋遇苦主,王皓有招

体育大学僧
2026-05-09 10:24:38
37死1失联!浏阳烟花厂爆炸事故升级,网友:都明白这1个意味什么

37死1失联!浏阳烟花厂爆炸事故升级,网友:都明白这1个意味什么

火山詩话
2026-05-08 21:25:49
斯诺克最新战报!八强全部诞生,奥沙利文4-1开门红,宾汉姆爆冷出局,吴宜泽出战巨星邀请赛

斯诺克最新战报!八强全部诞生,奥沙利文4-1开门红,宾汉姆爆冷出局,吴宜泽出战巨星邀请赛

体坛最前线66
2026-05-09 06:26:20
国内媒体:FIFA曾就两届世界杯转播权向大陆打包报价约8亿美元

国内媒体:FIFA曾就两届世界杯转播权向大陆打包报价约8亿美元

懂球帝
2026-05-09 09:50:08
体检报告中,若3个指标都正常,基本可以排除很多疾病

体检报告中,若3个指标都正常,基本可以排除很多疾病

芹姐说生活
2026-05-08 19:06:29
国际足联终于慌了!新方案紧急出炉,世界杯版权迎来重大转机

国际足联终于慌了!新方案紧急出炉,世界杯版权迎来重大转机

社会日日鲜
2026-05-08 04:12:52
深圳25岁小伙周末“撸铁”时突发剧烈头痛,脑子像被炸开!医生:平时很难发现

深圳25岁小伙周末“撸铁”时突发剧烈头痛,脑子像被炸开!医生:平时很难发现

深圳晚报
2026-05-09 08:24:21
又是一波倒闭潮!深圳一写字楼商铺集体倒闭,店铺锁门、桌椅未搬

又是一波倒闭潮!深圳一写字楼商铺集体倒闭,店铺锁门、桌椅未搬

谭谈社会
2026-05-09 00:25:47
中国差点变印度?黄巢让中国躲过千年灾难,毛主席的评价一针见血

中国差点变印度?黄巢让中国躲过千年灾难,毛主席的评价一针见血

掠影后有感
2026-05-08 10:20:21
震惊!桂林《印象·刘三姐》演员被质疑擦边低俗,此前曾全裸出境

震惊!桂林《印象·刘三姐》演员被质疑擦边低俗,此前曾全裸出境

火山詩话
2026-05-09 07:37:50
南宋为洗靖康之耻有多狠?700万金人仅剩10万,辱金后还留一画作

南宋为洗靖康之耻有多狠?700万金人仅剩10万,辱金后还留一画作

掠影后有感
2026-05-07 10:01:40
女子火车上怒怼吸烟区,喊话全列禁烟却被网友嘲讽 ,12306回应

女子火车上怒怼吸烟区,喊话全列禁烟却被网友嘲讽 ,12306回应

寒士之言本尊
2026-05-08 23:19:49
20岁女足球员性侵14岁美国男孩!多次强奸虐待发裸照 对方还戴牙套

20岁女足球员性侵14岁美国男孩!多次强奸虐待发裸照 对方还戴牙套

科学发掘
2026-05-08 16:36:59
日本航空拿下宇树科技,轰动全球!

日本航空拿下宇树科技,轰动全球!

新零售参考Pro
2026-05-07 17:31:09
“混不下去才回国”?央媒发声:海归人才不该被污名化

“混不下去才回国”?央媒发声:海归人才不该被污名化

21世纪经济报道
2026-05-06 17:14:16
独家丨谁的智度?被控在美性侵的资本大佬资本失联,代持协议能否影响控制权争夺

独家丨谁的智度?被控在美性侵的资本大佬资本失联,代持协议能否影响控制权争夺

澎湃新闻
2026-05-09 09:58:30
英国BBC常驻心理治疗师:最消耗孩子的一种负能量, 它排第一

英国BBC常驻心理治疗师:最消耗孩子的一种负能量, 它排第一

阅读第一
2026-05-07 08:36:17
2026-05-09 12:00:49
未尽研究 incentive-icons
未尽研究
新能源、人工智能、合成生物、地缘X
373文章数 63关注度
往期回顾 全部

科技要闻

美国政府强力下场 苹果英特尔达成代工协议

头条要闻

年轻女子190元买榴莲仅退款被拘留 代收点离家3公里

头条要闻

年轻女子190元买榴莲仅退款被拘留 代收点离家3公里

体育要闻

成立128年后,这支升班马首夺顶级联赛冠军

娱乐要闻

张艺谋《印象刘三姐》全裸镜头引争议

财经要闻

Meta疯狂拥抱人工智能:员工苦不堪言

汽车要闻

全系智能泊车 铂智3X年款升级限时权益价9.48万起

态度原创

亲子
本地
时尚
游戏
公开课

亲子要闻

3岁娃头缠纱布守母,百万人点赞,我却倍感心寒

本地新闻

用苏绣的方式,打开江西婺源

卢昱晓真的要被审判到这种程度吗?

吃相难看!三大主机集体坐地涨价 玩家吐槽毫无底线

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版