来源:未尽研究
给大模型训练算一笔碳账,似乎已经越来越不合时宜。毕竟,随着推理模型与智能体的爆发,市场的目光早已转向推理侧的成本,认为“训练成本”已是旧时代的故事;尽管,推理的环境外部性,更是一笔糊涂账。
而且有点诡异,美国那里还有人研究和披露,但白宫已经不在乎了;中国这里政策很重视,但研究和披露大模型碳足迹的却不多。
唱反调的是美国艾伦AI研究所(Ai2)。作为当前开源模型西方阵营的领军者之一,它用一篇数据翔实的论文,给大家上了一课:模型训练的“碳足迹”不仅没有过时,而且,过去以“预训练”为核心、以“最终训练运行”为主要统计对象的碳核算方法,已经落后于模型训练范式的变化。
![]()
确实如此。Anthropic创始人阿莫迪(Dario Amodei)近期曾粗略地推算,目前,业界训练与推理的计算支出,各占一半。这不难理解。大模型的前沿竞争如此惨烈,如果推理支出过多,会阻碍未来的研发进展;如果训练支出过多,则无法产生足够的收入。
试想,谷歌几个月来连续签下几个天然气发电订单;微软考虑放弃“按小时匹配清洁能源”的目标;Anthropic接手了xAI燃气发电的Colossus 1集群。这些巨头花了一半的碳排放在模型训练上。这意味着,一旦它们公开些许模型训练细节,人们就能顺藤摸瓜地反推出其AI业务碳足迹的大致区间。
而且,“模型训练”这个概念本身,也越来越模糊。过去,大模型厂商讨论旗下模型“碳足迹”时,往往只聚焦于预训练阶段最后一次完整成功的训练,即“最终训练运行”(final training runs)。它既不包含故障中断的部分,也不包含大量早期实验性探索。还有部分模型,最终甚至被扼杀在发布之前,从未为市场知晓。
事实上,就连这种“有限度的披露”,上一次还要追溯到两年前Meta发布Llama 3。彼时,AI仍处于“指令模型”时代,训练流程依然以预训练为主,微调为辅。直到半年后,以慢思考著称的o1才正式发布,后者确立了强化学习的扩展定律新范式,也彻底改变了训练的成本结构。
当前的SOTA模型训练,除了典型的预训练,还要花费大量的算力在精选数据上的中间训练、长上下文扩展、大规模合成数据生成、有监督微调(SFT)、偏好优化(如DPO)以及强化学习(RL)上。预训练的算力占比正在降低。而且,每一个训练环节,都涉及各自的“最终运行”(论文中的final runs)及其早期探索开发(论文中的development)。这也让大部分模型训练的环境外部性隐入迷雾。
去年年底,艾伦研究所开源了Olmo 3家族。它们包括70亿和320亿参数两款,均分为指令跟随(Instruct)和推理(Think)变体。它们基于H100集群训练,总共花费了834万GPU时;合成数据部分则额外基于AMD芯片生成。
![]()
其中,仅有18%的GPU时,用在所谓“最终运行”上。而且,这个比例无论放在过去还是未来,都呈现下降趋势。
这大致可以与EpochAI今年3月的研究相印证。该机构估算,OpenAI、Minimax与智谱的“最终训练运行”的成本,占总研发支出的比例,基本上在10%-20%之间;其中,OpenAI仅为9.6%,为三家中最低。这从侧面说明,真正昂贵的,往往不是最后一次成功训练,而是此前漫长且高失败率的原创探索。
更值得注意的是,推理模型后训练的能耗,已经远高于传统指令模型。
论文显示,推理模型后训练的能耗约为指令模型的17倍,主要消耗在强化学习中的“生成轨迹”(rollouts)环节。某种程度上,这一过程本身就相当于一次大规模推理部署。也就是说,后训练正在“推理化”,而推理本身也开始越来越像训练的一部分。
艾伦研究所用于训练Olmo 3家族的数据中心,GPU自身能耗占整个IT基础设施的比例为57.5%,数据中心的能效(PUE)为1.2,当地电网的碳排放强度(CI)为0.332。经计算,这组模型的“最终运行”环节碳排放为647吨碳当量(tCO₂eq);早期探索开发环节为2757吨。此外,独立于模型“训练”之外的数据合成环节,碳排放为675吨;构建这个集群的硬件制造环节,经摊销后的隐含排放为172吨。
![]()
换言之,仅仅训练这一组百亿参数模型,总计就排放了4251吨碳当量。
作为对比,当初Llama-3-8B与Llama-3-70B,Meta自估仅分别为390吨与1900吨。此外,谷歌去年环境报告披露,2024年基于目标(Ambition-based)的碳排放总量(范围1、2、3合计)为1150万吨。不过,考虑到如今前沿模型动辄以万亿参数规模计,且迭代频率越来越高,模型训练的环境成本,依然不可小觑。
此外,论文还单独分析了数据中心的水资源消耗问题。该论文的统计口径,包括了用电侧的冷却(在该模型训练中,采用了闭路循环冷却,实际消耗约等于0;但对于使用蒸发冷却塔的数据中心,这部分占比相当高),也包括了发电侧蒸发或消耗的水。论文称,这组模型完整的训练过程,共消耗15887吨(即15887千升)水,约等于一个美国普通个人140年的用水量。
推理模型已如此,而为智能体优化训练的模型,在后训练中还会引入更多动作、观察与推理步骤生成,其消耗甚至可能高出几个数量级。若未来进一步出现大模型递归迭代训练与自动化优化框架,这种趋势还会被进一步放大。这意味着,“训练”与“推理”的边界正在逐渐消失,模型训练未来会越来越像一个持续运行的工业系统。
因此,论文呼吁行业在披露模型训练成本时,不仅报告预训练成本,也应同步披露后训练成本;不仅报告“最终运行”,也至少额外给出早期探索开发阶段的“乘数”。
也许,中国模型厂商也不妨听听这一呼吁。
毕竟,美国从政府到科技企业,似乎都已经逐渐放弃认真履行各自的碳中和承诺。中国一方面拥有比美国更多仍在进行预训练竞争的模型厂商,另一方面,其芯片与算力基础设施的整体能效又低于美国。此外,中国尽管电力充沛,但绿电资源在时空上的分布并不均衡。
中国依然坚持走向碳中和,AI碳账单就始终存在。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.