OpenAI年耗电够充1.6亿部手机|算法|推理|能耗|大模型|神经网络|openai

OpenAI年耗电够充1.6亿部手机

2026-04-09 17:58:05　来源: 码上闲叙

北京举报

分享至

2025年，AI行业有个数字让电网工程师睡不着觉：单次推理请求，DeepSeek-R1（深度求索R1模型）耗电33.6瓦时，GPT-4.5（GPT-4.5模型）30.5瓦时。充一部iPhone 16 Pro Max（iPhone 16 Pro Max手机）只要25瓦时。换句话说，你问AI一个复杂问题，它"思考"时烧掉的电，够给手机充满电还有剩。

贝恩咨询（Bain & Company，贝恩咨询公司）的预测更刺激：到2030年，全球数据中心年投资要冲到5000亿美元。软银（SoftBank，软银集团）、OpenAI、甲骨文（Oracle，甲骨文公司）的"星际之门"（Stargate，星际之门项目）正在砸钱建厂。但电网运营商的警告被淹没在欢呼声里——AI需求正在拖垮供应链，能源市场可能崩盘。

Pathway公司CEO祖扎娜·斯塔米罗夫斯卡（Zuzanna Stamirowska，Pathway公司首席执行官兼联合创始人）说得很直白：「更多算力、更多层、更多数据——这套逻辑把我们锁死在一条不可持续的路上。AI能源危机不是明天的事，是眼前的事。」

Transformer架构：省电的敌人写进了DNA

问题出在Transformer（Transformer架构）本身。这个2017年诞生的架构，训练时要啃海量数据，推理时每个token（token，词元）都要和上下文里所有token"打招呼"。注意力机制（Attention Mechanism，注意力机制）是天才设计，也是耗电大户。

推理模型（Reasoning Models，推理模型）让情况更糟。传统模型像GPT-4o（GPT-4o模型），长提示耗电0.42瓦时。但推理模型会先输出隐藏的"思考链"（Chain of Thought，思维链），token量暴增。斯坦福2025年的研究测了具体数字：同一个长提示，GPT-4o用0.42瓦时，DeepSeek-R1用33.634瓦时，差距80倍。

这还不是边际成本。用户越多，推理越频繁，电费账单呈指数级膨胀。OpenAI（OpenAI公司）的API定价里，推理成本占比已经超过训练成本。当模型变成"电老虎"，订阅费涨价的压力最终转嫁给企业客户。

斯塔米罗夫斯卡算过一笔账：如果全球AI查询量保持当前增速，到2027年，推理能耗可能超过训练能耗的10倍。电网没准备好，可再生能源的部署速度追不上AI的胃口。

后Transformer时代：三条技术路线在赛跑

逃离Transformer的竞赛已经开跑。2024年到2025年，三条路线最热闹。

第一条是状态空间模型（State Space Models，状态空间模型），代表选手Mamba（Mamba模型）。它用选择性扫描机制（Selective Scan Mechanism，选择性扫描机制）替代全局注意力，处理长序列时复杂度从二次方降到线性。测试显示，Mamba在100万token上下文任务中，速度比Transformer快5倍，内存占用少一半。缺点是纯Mamba在复杂推理任务上仍打不过GPT-4级别模型，混合架构（Mamba+Transformer）成为过渡方案。

第二条是线性注意力变体，比如RWKV（RWKV模型）和RetNet（RetNet模型）。它们把softmax（Softmax函数）注意力换成核技巧（Kernel Trick，核技巧）近似，保留并行训练能力的同时降低推理成本。RWKV的作者承诺"Transformer级别的性能，RNN（Recurrent Neural Network，循环神经网络）级别的效率"，但实际落地时，长文本一致性仍是痛点。

第三条更激进：神经符号混合（Neuro-Symbolic Hybrid，神经符号混合架构）。Pathway公司押注这条路线——用符号推理处理结构化知识，神经网络负责模式识别，只在必要时调用大模型。斯塔米罗夫斯卡透露，他们的客户将特定查询的能耗降低了90%，代价是需要重新设计数据管道。

三条路线各有 trade-off（权衡）。Mamba们追求"无痛替换"，神经符号派愿意承受重构成本换效率，线性注意力想在中间找平衡。没有银弹，但共识已经形成：堆参数的路走到头了。

商业现实：省电能省出竞争力吗

技术路线之争背后，是单位经济账的残酷压力。

DeepSeek-R1的爆火是个信号。这个中国团队用600万美元训练成本（仅为GPT-4级别的十分之一），靠算法优化和硬件效率，在推理价格上打到OpenAI的3%。市场反应剧烈：OpenAI紧急调整o3-mini（o3-mini模型）的定价，谷歌（Google，谷歌公司）把Gemini 2.0 Flash（Gemini 2.0 Flash模型）的上下文窗口扩到200万token并降价。

价格战的核心变量是能耗。DeepSeek的推理成本低，部分因为他们用FP8（FP8精度）量化、专家混合（Mixture of Experts，专家混合架构）稀疏激活，以及——关键的——更短的平均推理链。当竞争对手被迫跟进效率优化，Transformer的能耗劣势被放大。

企业客户的采购标准也在变。2024年，买家问的是"模型能力排名"；2025年，CIO（Chief Information Officer，首席信息官）们开始要求"每美元token数"和"每瓦时token数"。微软（Microsoft，微软公司）Azure（Azure云平台）和亚马逊（Amazon，亚马逊公司）AWS（AWS云服务）都在推"绿色AI"标签，用可再生能源位置作为数据中心选址的核心指标。

斯塔米罗夫斯卡观察到一个细节：「客户不再只问'能不能做'，而是问'做这件事的能源成本是多少'。这个问题三年前没人提。」

电网的反击与技术的窗口期

能源侧的压力正在反噬AI扩张。美国能源信息署（EIA，美国能源信息署）数据显示，2024年数据中心用电量占全国总量的4.4%，预计2030年冲到12%。得克萨斯州（Texas，得克萨斯州）和弗吉尼亚州（Virginia，弗吉尼亚州）的电网运营商已经暂停部分数据中心接入申请，等待输电线路升级。

政策变量也在加速。欧盟（European Union，欧盟）《人工智能法案》（AI Act，《人工智能法案》）要求高风险AI系统披露能耗数据；美国部分州开始讨论对AI训练征收碳税。监管不是远虑，是2025年的谈判筹码。

这给后Transformer技术创造了窗口期。如果新架构能在2026-2027年前证明规模化可行性，数据中心的投资周期可能转向。如果拖延，行业可能被锁死在Transformer的能耗路径上——毕竟，已经建成的GPU（Graphics Processing Unit，图形处理器）集群不会立刻报废。

斯塔米罗夫斯卡的赌注是前者。Pathway正在与两家财富500强（Fortune 500，财富500强）公司合作部署神经符号系统，用实时数据流替代批量训练。她拒绝透露客户名称，但提到一个场景：金融风控查询的延迟从秒级降到毫秒级，能耗只有原来的8%。

「这不是实验室演示，是生产环境。」她强调。

技术转型的 friction（摩擦成本）真实存在。重写数据管道、重新训练工程师、重新说服董事会——这些隐性成本不会出现在论文的benchmark（基准测试）里。但当电费账单开始吃掉利润，摩擦成本变得可以承受。

2025年3月，OpenAI发布了GPT-4.5，一个非推理模型，被解读为"效率优先"的信号。同月，Anthropic（Anthropic公司）的Claude 4（Claude 4模型）传闻采用新的注意力优化。巨头们没有公开宣布"放弃Transformer"，但工程资源的分配正在倾斜。

后Transformer时代不会一夜到来。Transformer的生态惯性——工具链、人才库、硬件优化——太过庞大。但能耗危机切断了"规模即正义"的叙事，迫使行业重新回答一个老问题：智能的本质，真的需要这么多计算吗？

当电网工程师和AI研究员坐在同一张谈判桌上，答案正在改写。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.