![]()
2025年,AI行业有个数字让电网工程师睡不着觉:单次推理请求,DeepSeek-R1(深度求索R1模型)耗电33.6瓦时,GPT-4.5(GPT-4.5模型)30.5瓦时。充一部iPhone 16 Pro Max(iPhone 16 Pro Max手机)只要25瓦时。换句话说,你问AI一个复杂问题,它"思考"时烧掉的电,够给手机充满电还有剩。
贝恩咨询(Bain & Company,贝恩咨询公司)的预测更刺激:到2030年,全球数据中心年投资要冲到5000亿美元。软银(SoftBank,软银集团)、OpenAI、甲骨文(Oracle,甲骨文公司)的"星际之门"(Stargate,星际之门项目)正在砸钱建厂。但电网运营商的警告被淹没在欢呼声里——AI需求正在拖垮供应链,能源市场可能崩盘。
Pathway公司CEO祖扎娜·斯塔米罗夫斯卡(Zuzanna Stamirowska,Pathway公司首席执行官兼联合创始人)说得很直白:「更多算力、更多层、更多数据——这套逻辑把我们锁死在一条不可持续的路上。AI能源危机不是明天的事,是眼前的事。」
Transformer架构:省电的敌人写进了DNA
问题出在Transformer(Transformer架构)本身。这个2017年诞生的架构,训练时要啃海量数据,推理时每个token(token,词元)都要和上下文里所有token"打招呼"。注意力机制(Attention Mechanism,注意力机制)是天才设计,也是耗电大户。
推理模型(Reasoning Models,推理模型)让情况更糟。传统模型像GPT-4o(GPT-4o模型),长提示耗电0.42瓦时。但推理模型会先输出隐藏的"思考链"(Chain of Thought,思维链),token量暴增。斯坦福2025年的研究测了具体数字:同一个长提示,GPT-4o用0.42瓦时,DeepSeek-R1用33.634瓦时,差距80倍。
这还不是边际成本。用户越多,推理越频繁,电费账单呈指数级膨胀。OpenAI(OpenAI公司)的API定价里,推理成本占比已经超过训练成本。当模型变成"电老虎",订阅费涨价的压力最终转嫁给企业客户。
斯塔米罗夫斯卡算过一笔账:如果全球AI查询量保持当前增速,到2027年,推理能耗可能超过训练能耗的10倍。电网没准备好,可再生能源的部署速度追不上AI的胃口。
后Transformer时代:三条技术路线在赛跑
逃离Transformer的竞赛已经开跑。2024年到2025年,三条路线最热闹。
第一条是状态空间模型(State Space Models,状态空间模型),代表选手Mamba(Mamba模型)。它用选择性扫描机制(Selective Scan Mechanism,选择性扫描机制)替代全局注意力,处理长序列时复杂度从二次方降到线性。测试显示,Mamba在100万token上下文任务中,速度比Transformer快5倍,内存占用少一半。缺点是纯Mamba在复杂推理任务上仍打不过GPT-4级别模型,混合架构(Mamba+Transformer)成为过渡方案。
第二条是线性注意力变体,比如RWKV(RWKV模型)和RetNet(RetNet模型)。它们把softmax(Softmax函数)注意力换成核技巧(Kernel Trick,核技巧)近似,保留并行训练能力的同时降低推理成本。RWKV的作者承诺"Transformer级别的性能,RNN(Recurrent Neural Network,循环神经网络)级别的效率",但实际落地时,长文本一致性仍是痛点。
第三条更激进:神经符号混合(Neuro-Symbolic Hybrid,神经符号混合架构)。Pathway公司押注这条路线——用符号推理处理结构化知识,神经网络负责模式识别,只在必要时调用大模型。斯塔米罗夫斯卡透露,他们的客户将特定查询的能耗降低了90%,代价是需要重新设计数据管道。
三条路线各有 trade-off(权衡)。Mamba们追求"无痛替换",神经符号派愿意承受重构成本换效率,线性注意力想在中间找平衡。没有银弹,但共识已经形成:堆参数的路走到头了。
商业现实:省电能省出竞争力吗
技术路线之争背后,是单位经济账的残酷压力。
DeepSeek-R1的爆火是个信号。这个中国团队用600万美元训练成本(仅为GPT-4级别的十分之一),靠算法优化和硬件效率,在推理价格上打到OpenAI的3%。市场反应剧烈:OpenAI紧急调整o3-mini(o3-mini模型)的定价,谷歌(Google,谷歌公司)把Gemini 2.0 Flash(Gemini 2.0 Flash模型)的上下文窗口扩到200万token并降价。
价格战的核心变量是能耗。DeepSeek的推理成本低,部分因为他们用FP8(FP8精度)量化、专家混合(Mixture of Experts,专家混合架构)稀疏激活,以及——关键的——更短的平均推理链。当竞争对手被迫跟进效率优化,Transformer的能耗劣势被放大。
企业客户的采购标准也在变。2024年,买家问的是"模型能力排名";2025年,CIO(Chief Information Officer,首席信息官)们开始要求"每美元token数"和"每瓦时token数"。微软(Microsoft,微软公司)Azure(Azure云平台)和亚马逊(Amazon,亚马逊公司)AWS(AWS云服务)都在推"绿色AI"标签,用可再生能源位置作为数据中心选址的核心指标。
斯塔米罗夫斯卡观察到一个细节:「客户不再只问'能不能做',而是问'做这件事的能源成本是多少'。这个问题三年前没人提。」
电网的反击与技术的窗口期
能源侧的压力正在反噬AI扩张。美国能源信息署(EIA,美国能源信息署)数据显示,2024年数据中心用电量占全国总量的4.4%,预计2030年冲到12%。得克萨斯州(Texas,得克萨斯州)和弗吉尼亚州(Virginia,弗吉尼亚州)的电网运营商已经暂停部分数据中心接入申请,等待输电线路升级。
政策变量也在加速。欧盟(European Union,欧盟)《人工智能法案》(AI Act,《人工智能法案》)要求高风险AI系统披露能耗数据;美国部分州开始讨论对AI训练征收碳税。监管不是远虑,是2025年的谈判筹码。
这给后Transformer技术创造了窗口期。如果新架构能在2026-2027年前证明规模化可行性,数据中心的投资周期可能转向。如果拖延,行业可能被锁死在Transformer的能耗路径上——毕竟,已经建成的GPU(Graphics Processing Unit,图形处理器)集群不会立刻报废。
斯塔米罗夫斯卡的赌注是前者。Pathway正在与两家财富500强(Fortune 500,财富500强)公司合作部署神经符号系统,用实时数据流替代批量训练。她拒绝透露客户名称,但提到一个场景:金融风控查询的延迟从秒级降到毫秒级,能耗只有原来的8%。
「这不是实验室演示,是生产环境。」她强调。
技术转型的 friction(摩擦成本)真实存在。重写数据管道、重新训练工程师、重新说服董事会——这些隐性成本不会出现在论文的benchmark(基准测试)里。但当电费账单开始吃掉利润,摩擦成本变得可以承受。
2025年3月,OpenAI发布了GPT-4.5,一个非推理模型,被解读为"效率优先"的信号。同月,Anthropic(Anthropic公司)的Claude 4(Claude 4模型)传闻采用新的注意力优化。巨头们没有公开宣布"放弃Transformer",但工程资源的分配正在倾斜。
后Transformer时代不会一夜到来。Transformer的生态惯性——工具链、人才库、硬件优化——太过庞大。但能耗危机切断了"规模即正义"的叙事,迫使行业重新回答一个老问题:智能的本质,真的需要这么多计算吗?
当电网工程师和AI研究员坐在同一张谈判桌上,答案正在改写。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.