网易首页 > 网易号 > 正文 申请入驻

AI大模型的另一个“隐空间”:碳排放是如何被压缩抽象的

0
分享至

来源:未尽研究

给大模型训练算一笔碳账,似乎已经越来越不合时宜。毕竟,随着推理模型与智能体的爆发,市场的目光早已转向推理侧的成本,认为“训练成本”已是旧时代的故事;尽管,推理的环境外部性,更是一笔糊涂账。

而且有点诡异,美国那里还有人研究和披露,但白宫已经不在乎了;中国这里政策很重视,但研究和披露大模型碳足迹的却不多。

唱反调的是美国艾伦AI研究所(Ai2)。作为当前开源模型西方阵营的领军者之一,它用一篇数据翔实的论文,给大家上了一课:模型训练的“碳足迹”不仅没有过时,而且,过去以“预训练”为核心、以“最终训练运行”为主要统计对象的碳核算方法,已经落后于模型训练范式的变化。


确实如此。Anthropic创始人阿莫迪(Dario Amodei)近期曾粗略地推算,目前,业界训练与推理的计算支出,各占一半。这不难理解。大模型的前沿竞争如此惨烈,如果推理支出过多,会阻碍未来的研发进展;如果训练支出过多,则无法产生足够的收入。

试想,谷歌几个月来连续签下几个天然气发电订单;微软考虑放弃“按小时匹配清洁能源”的目标;Anthropic接手了xAI燃气发电的Colossus 1集群。这些巨头花了一半的碳排放在模型训练上。这意味着,一旦它们公开些许模型训练细节,人们就能顺藤摸瓜地反推出其AI业务碳足迹的大致区间。

而且,“模型训练”这个概念本身,也越来越模糊。过去,大模型厂商讨论旗下模型“碳足迹”时,往往只聚焦于预训练阶段最后一次完整成功的训练,即“最终训练运行”(final training runs)。它既不包含故障中断的部分,也不包含大量早期实验性探索。还有部分模型,最终甚至被扼杀在发布之前,从未为市场知晓。

事实上,就连这种“有限度的披露”,上一次还要追溯到两年前Meta发布Llama 3。彼时,AI仍处于“指令模型”时代,训练流程依然以预训练为主,微调为辅。直到半年后,以慢思考著称的o1才正式发布,后者确立了强化学习的扩展定律新范式,也彻底改变了训练的成本结构。

当前的SOTA模型训练,除了典型的预训练,还要花费大量的算力在精选数据上的中间训练、长上下文扩展、大规模合成数据生成、有监督微调(SFT)、偏好优化(如DPO)以及强化学习(RL)上。预训练的算力占比正在降低。而且,每一个训练环节,都涉及各自的“最终运行”(论文中的final runs)及其早期探索开发(论文中的development)。这也让大部分模型训练的环境外部性隐入迷雾。

去年年底,艾伦研究所开源了Olmo 3家族。它们包括70亿和320亿参数两款,均分为指令跟随(Instruct)和推理(Think)变体。它们基于H100集群训练,总共花费了834万GPU时;合成数据部分则额外基于AMD芯片生成。


其中,仅有18%的GPU时,用在所谓“最终运行”上。而且,这个比例无论放在过去还是未来,都呈现下降趋势。

这大致可以与EpochAI今年3月的研究相印证。该机构估算,OpenAI、Minimax与智谱的“最终训练运行”的成本,占总研发支出的比例,基本上在10%-20%之间;其中,OpenAI仅为9.6%,为三家中最低。这从侧面说明,真正昂贵的,往往不是最后一次成功训练,而是此前漫长且高失败率的原创探索。

更值得注意的是,推理模型后训练的能耗,已经远高于传统指令模型。

论文显示,推理模型后训练的能耗约为指令模型的17倍,主要消耗在强化学习中的“生成轨迹”(rollouts)环节。某种程度上,这一过程本身就相当于一次大规模推理部署。也就是说,后训练正在“推理化”,而推理本身也开始越来越像训练的一部分。

艾伦研究所用于训练Olmo 3家族的数据中心,GPU自身能耗占整个IT基础设施的比例为57.5%,数据中心的能效(PUE)为1.2,当地电网的碳排放强度(CI)为0.332。经计算,这组模型的“最终运行”环节碳排放为647吨碳当量(tCO₂eq);早期探索开发环节为2757吨。此外,独立于模型“训练”之外的数据合成环节,碳排放为675吨;构建这个集群的硬件制造环节,经摊销后的隐含排放为172吨。


换言之,仅仅训练这一组百亿参数模型,总计就排放了4251吨碳当量。

作为对比,当初Llama-3-8B与Llama-3-70B,Meta自估仅分别为390吨与1900吨。此外,谷歌去年环境报告披露,2024年基于目标(Ambition-based)的碳排放总量(范围1、2、3合计)为1150万吨。不过,考虑到如今前沿模型动辄以万亿参数规模计,且迭代频率越来越高,模型训练的环境成本,依然不可小觑。

此外,论文还单独分析了数据中心的水资源消耗问题。该论文的统计口径,包括了用电侧的冷却(在该模型训练中,采用了闭路循环冷却,实际消耗约等于0;但对于使用蒸发冷却塔的数据中心,这部分占比相当高),也包括了发电侧蒸发或消耗的水。论文称,这组模型完整的训练过程,共消耗15887吨(即15887千升)水,约等于一个美国普通个人140年的用水量。

推理模型已如此,而为智能体优化训练的模型,在后训练中还会引入更多动作、观察与推理步骤生成,其消耗甚至可能高出几个数量级。若未来进一步出现大模型递归迭代训练与自动化优化框架,这种趋势还会被进一步放大。这意味着,“训练”与“推理”的边界正在逐渐消失,模型训练未来会越来越像一个持续运行的工业系统。

因此,论文呼吁行业在披露模型训练成本时,不仅报告预训练成本,也应同步披露后训练成本;不仅报告“最终运行”,也至少额外给出早期探索开发阶段的“乘数”。

也许,中国模型厂商也不妨听听这一呼吁。

毕竟,美国从政府到科技企业,似乎都已经逐渐放弃认真履行各自的碳中和承诺。中国一方面拥有比美国更多仍在进行预训练竞争的模型厂商,另一方面,其芯片与算力基础设施的整体能效又低于美国。此外,中国尽管电力充沛,但绿电资源在时空上的分布并不均衡。

中国依然坚持走向碳中和,AI碳账单就始终存在。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
走红抛弃恩人另结新欢,前妻事业逆袭爆红,负心男淡出大众视野

走红抛弃恩人另结新欢,前妻事业逆袭爆红,负心男淡出大众视野

借你一生
2026-05-09 12:11:08
81岁李家鼎自曝不获TVB续约,哭求长子自力更生,长子仍拒找工作

81岁李家鼎自曝不获TVB续约,哭求长子自力更生,长子仍拒找工作

情感大头说说
2026-05-08 13:46:27
耿飚探望徐向前,徐向前:听说你把杨得志和罗瑞卿都弄到沟里了?

耿飚探望徐向前,徐向前:听说你把杨得志和罗瑞卿都弄到沟里了?

凉州辞
2026-05-09 13:45:03
军政委被总政主任看中,对其进行1年的考察,余秋里有哪些担心?

军政委被总政主任看中,对其进行1年的考察,余秋里有哪些担心?

春秋砚
2026-05-09 13:45:07
出差回来,陪嫁房被大姑姐霸占:我弟弟说房子归我了,快离开我家

出差回来,陪嫁房被大姑姐霸占:我弟弟说房子归我了,快离开我家

广西秦胖胖
2026-05-08 11:37:20
你们都是什么时候对男女之事开窍的?网友:果然还是拦不住有心人

你们都是什么时候对男女之事开窍的?网友:果然还是拦不住有心人

夜深爱杂谈
2026-02-21 21:37:02
98年刘平平成为植物人,王光美哭成泪人,刘源将姐姐接到家里照顾

98年刘平平成为植物人,王光美哭成泪人,刘源将姐姐接到家里照顾

雍亲王府
2026-04-24 10:15:06
日本布下反华包围圈后,越南做出明确表态,东南亚风向彻底变了

日本布下反华包围圈后,越南做出明确表态,东南亚风向彻底变了

霁寒飘雪
2026-05-06 14:38:27
7死24伤,以军发起“斩首行动”?美战斗机升空,特朗普态度转变

7死24伤,以军发起“斩首行动”?美战斗机升空,特朗普态度转变

史行途
2026-05-09 13:15:03
39岁何洁官宣即将二婚,对象是仨孩子生父刁磊,日子定在5月20日

39岁何洁官宣即将二婚,对象是仨孩子生父刁磊,日子定在5月20日

白面书誏
2026-05-08 16:13:29
美国公布大量UFO照片

美国公布大量UFO照片

第一财经资讯
2026-05-09 10:52:07
邮轮暴发汉坦病毒,中国乘客发声:在阳性乘客登船前一天下船,离开已37天,没出现任何身体不适;专家称此次毒株可人传人

邮轮暴发汉坦病毒,中国乘客发声:在阳性乘客登船前一天下船,离开已37天,没出现任何身体不适;专家称此次毒株可人传人

大风新闻
2026-05-08 11:17:05
iOS 26.5下周正式推送,一口气上线五大新功能

iOS 26.5下周正式推送,一口气上线五大新功能

环球网资讯
2026-05-08 10:49:06
有出息的孩子,童年都有信号:出现这3种表现说明父母养对了

有出息的孩子,童年都有信号:出现这3种表现说明父母养对了

木言观
2026-05-04 07:08:52
重庆的风向变了!我敢打赌:十年后重庆这些片区,要发达了!

重庆的风向变了!我敢打赌:十年后重庆这些片区,要发达了!

西莫的艺术宫殿
2026-05-08 11:17:58
1991年苏联解体后,当年叛逃苏联的开国少将马尔果夫通过外交致信恳请归国,我国如何处理的

1991年苏联解体后,当年叛逃苏联的开国少将马尔果夫通过外交致信恳请归国,我国如何处理的

花开无田
2026-05-05 10:44:31
山西农妇惨死田间,邻居不吃不喝躲藏6天,被抓后笑谈行凶过程

山西农妇惨死田间,邻居不吃不喝躲藏6天,被抓后笑谈行凶过程

莫地方
2026-04-28 01:10:03
全国首家,石英股份,掐住AI命脉!

全国首家,石英股份,掐住AI命脉!

飞鲸投研
2026-05-08 20:31:57
一个62岁,一个27岁,真想不明白他凭什么能征服一代女神。

一个62岁,一个27岁,真想不明白他凭什么能征服一代女神。

乡野小珥
2026-05-09 01:16:33
从明年开始,超过60岁以上的糖尿病患者,一定要做好这2个准备

从明年开始,超过60岁以上的糖尿病患者,一定要做好这2个准备

任医生聊健康
2026-05-09 11:55:11
2026-05-09 14:24:49
新浪财经 incentive-icons
新浪财经
新浪财经是一家创建于1999年8月的财经平台
3156339文章数 7263关注度
往期回顾 全部

科技要闻

美国政府强力下场 苹果英特尔达成代工协议

头条要闻

牛弹琴:全世界十分意外 俄乌战场突然传来两个好消息

头条要闻

牛弹琴:全世界十分意外 俄乌战场突然传来两个好消息

体育要闻

成立128年后,这支升班马首夺顶级联赛冠军

娱乐要闻

张艺谋《印象刘三姐》全裸镜头引争议

财经要闻

Meta疯狂拥抱人工智能:员工苦不堪言

汽车要闻

轴距加长/智驾拉满 阿维塔07L定位大五座SUV

态度原创

旅游
数码
手机
艺术
家居

旅游要闻

5月15日至10月15日,东、西佘山园延长开放时间→

数码要闻

国产电视称霸中国市场!三星、索尼等外资品牌合并份额不足3%

手机要闻

1299元!REDMI Pad 2 SE 4G版明日开售:双卡双待 随时上网/通话

艺术要闻

齐白石 紫藤蜜蜂

家居要闻

菁英人居 全能豪宅

无障碍浏览 进入关怀版