AI大模型的另一个“隐空间”：碳排放是如何被压缩抽象的|推理|预训练

AI大模型的另一个“隐空间”：碳排放是如何被压缩抽象的

2026-05-08 22:56:33　来源: 新浪财经

北京举报

分享至

来源：未尽研究

给大模型训练算一笔碳账，似乎已经越来越不合时宜。毕竟，随着推理模型与智能体的爆发，市场的目光早已转向推理侧的成本，认为“训练成本”已是旧时代的故事；尽管，推理的环境外部性，更是一笔糊涂账。

而且有点诡异，美国那里还有人研究和披露，但白宫已经不在乎了；中国这里政策很重视，但研究和披露大模型碳足迹的却不多。

唱反调的是美国艾伦AI研究所（Ai2）。作为当前开源模型西方阵营的领军者之一，它用一篇数据翔实的论文，给大家上了一课：模型训练的“碳足迹”不仅没有过时，而且，过去以“预训练”为核心、以“最终训练运行”为主要统计对象的碳核算方法，已经落后于模型训练范式的变化。

确实如此。Anthropic创始人阿莫迪（Dario Amodei）近期曾粗略地推算，目前，业界训练与推理的计算支出，各占一半。这不难理解。大模型的前沿竞争如此惨烈，如果推理支出过多，会阻碍未来的研发进展；如果训练支出过多，则无法产生足够的收入。

试想，谷歌几个月来连续签下几个天然气发电订单；微软考虑放弃“按小时匹配清洁能源”的目标；Anthropic接手了xAI燃气发电的Colossus 1集群。这些巨头花了一半的碳排放在模型训练上。这意味着，一旦它们公开些许模型训练细节，人们就能顺藤摸瓜地反推出其AI业务碳足迹的大致区间。

而且，“模型训练”这个概念本身，也越来越模糊。过去，大模型厂商讨论旗下模型“碳足迹”时，往往只聚焦于预训练阶段最后一次完整成功的训练，即“最终训练运行”（final training runs）。它既不包含故障中断的部分，也不包含大量早期实验性探索。还有部分模型，最终甚至被扼杀在发布之前，从未为市场知晓。

事实上，就连这种“有限度的披露”，上一次还要追溯到两年前Meta发布Llama 3。彼时，AI仍处于“指令模型”时代，训练流程依然以预训练为主，微调为辅。直到半年后，以慢思考著称的o1才正式发布，后者确立了强化学习的扩展定律新范式，也彻底改变了训练的成本结构。

当前的SOTA模型训练，除了典型的预训练，还要花费大量的算力在精选数据上的中间训练、长上下文扩展、大规模合成数据生成、有监督微调（SFT）、偏好优化（如DPO）以及强化学习（RL）上。预训练的算力占比正在降低。而且，每一个训练环节，都涉及各自的“最终运行”(论文中的final runs)及其早期探索开发（论文中的development）。这也让大部分模型训练的环境外部性隐入迷雾。

去年年底，艾伦研究所开源了Olmo 3家族。它们包括70亿和320亿参数两款，均分为指令跟随（Instruct）和推理（Think）变体。它们基于H100集群训练，总共花费了834万GPU时；合成数据部分则额外基于AMD芯片生成。

其中，仅有18%的GPU时，用在所谓“最终运行”上。而且，这个比例无论放在过去还是未来，都呈现下降趋势。

这大致可以与EpochAI今年3月的研究相印证。该机构估算，OpenAI、Minimax与智谱的“最终训练运行”的成本，占总研发支出的比例，基本上在10%-20%之间；其中，OpenAI仅为9.6%，为三家中最低。这从侧面说明，真正昂贵的，往往不是最后一次成功训练，而是此前漫长且高失败率的原创探索。

更值得注意的是，推理模型后训练的能耗，已经远高于传统指令模型。

论文显示，推理模型后训练的能耗约为指令模型的17倍，主要消耗在强化学习中的“生成轨迹”（rollouts）环节。某种程度上，这一过程本身就相当于一次大规模推理部署。也就是说，后训练正在“推理化”，而推理本身也开始越来越像训练的一部分。

艾伦研究所用于训练Olmo 3家族的数据中心，GPU自身能耗占整个IT基础设施的比例为57.5%，数据中心的能效（PUE）为1.2，当地电网的碳排放强度（CI）为0.332。经计算，这组模型的“最终运行”环节碳排放为647吨碳当量（tCO₂eq）；早期探索开发环节为2757吨。此外，独立于模型“训练”之外的数据合成环节，碳排放为675吨；构建这个集群的硬件制造环节，经摊销后的隐含排放为172吨。

换言之，仅仅训练这一组百亿参数模型，总计就排放了4251吨碳当量。

作为对比，当初Llama-3-8B与Llama-3-70B，Meta自估仅分别为390吨与1900吨。此外，谷歌去年环境报告披露，2024年基于目标（Ambition-based）的碳排放总量（范围1、2、3合计）为1150万吨。不过，考虑到如今前沿模型动辄以万亿参数规模计，且迭代频率越来越高，模型训练的环境成本，依然不可小觑。

此外，论文还单独分析了数据中心的水资源消耗问题。该论文的统计口径，包括了用电侧的冷却（在该模型训练中，采用了闭路循环冷却，实际消耗约等于0；但对于使用蒸发冷却塔的数据中心，这部分占比相当高），也包括了发电侧蒸发或消耗的水。论文称，这组模型完整的训练过程，共消耗15887吨（即15887千升）水，约等于一个美国普通个人140年的用水量。

推理模型已如此，而为智能体优化训练的模型，在后训练中还会引入更多动作、观察与推理步骤生成，其消耗甚至可能高出几个数量级。若未来进一步出现大模型递归迭代训练与自动化优化框架，这种趋势还会被进一步放大。这意味着，“训练”与“推理”的边界正在逐渐消失，模型训练未来会越来越像一个持续运行的工业系统。

因此，论文呼吁行业在披露模型训练成本时，不仅报告预训练成本，也应同步披露后训练成本；不仅报告“最终运行”，也至少额外给出早期探索开发阶段的“乘数”。

也许，中国模型厂商也不妨听听这一呼吁。

毕竟，美国从政府到科技企业，似乎都已经逐渐放弃认真履行各自的碳中和承诺。中国一方面拥有比美国更多仍在进行预训练竞争的模型厂商，另一方面，其芯片与算力基础设施的整体能效又低于美国。此外，中国尽管电力充沛，但绿电资源在时空上的分布并不均衡。

中国依然坚持走向碳中和，AI碳账单就始终存在。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.