网易首页 > 网易号 > 正文 申请入驻

OpenAI年耗电够充1.6亿部手机

0
分享至


2025年,AI行业有个数字让电网工程师睡不着觉:单次推理请求,DeepSeek-R1(深度求索R1模型)耗电33.6瓦时,GPT-4.5(GPT-4.5模型)30.5瓦时。充一部iPhone 16 Pro Max(iPhone 16 Pro Max手机)只要25瓦时。换句话说,你问AI一个复杂问题,它"思考"时烧掉的电,够给手机充满电还有剩。

贝恩咨询(Bain & Company,贝恩咨询公司)的预测更刺激:到2030年,全球数据中心年投资要冲到5000亿美元。软银(SoftBank,软银集团)、OpenAI、甲骨文(Oracle,甲骨文公司)的"星际之门"(Stargate,星际之门项目)正在砸钱建厂。但电网运营商的警告被淹没在欢呼声里——AI需求正在拖垮供应链,能源市场可能崩盘。

Pathway公司CEO祖扎娜·斯塔米罗夫斯卡(Zuzanna Stamirowska,Pathway公司首席执行官兼联合创始人)说得很直白:「更多算力、更多层、更多数据——这套逻辑把我们锁死在一条不可持续的路上。AI能源危机不是明天的事,是眼前的事。」

Transformer架构:省电的敌人写进了DNA

问题出在Transformer(Transformer架构)本身。这个2017年诞生的架构,训练时要啃海量数据,推理时每个token(token,词元)都要和上下文里所有token"打招呼"。注意力机制(Attention Mechanism,注意力机制)是天才设计,也是耗电大户。

推理模型(Reasoning Models,推理模型)让情况更糟。传统模型像GPT-4o(GPT-4o模型),长提示耗电0.42瓦时。但推理模型会先输出隐藏的"思考链"(Chain of Thought,思维链),token量暴增。斯坦福2025年的研究测了具体数字:同一个长提示,GPT-4o用0.42瓦时,DeepSeek-R1用33.634瓦时,差距80倍。

这还不是边际成本。用户越多,推理越频繁,电费账单呈指数级膨胀。OpenAI(OpenAI公司)的API定价里,推理成本占比已经超过训练成本。当模型变成"电老虎",订阅费涨价的压力最终转嫁给企业客户。

斯塔米罗夫斯卡算过一笔账:如果全球AI查询量保持当前增速,到2027年,推理能耗可能超过训练能耗的10倍。电网没准备好,可再生能源的部署速度追不上AI的胃口。

后Transformer时代:三条技术路线在赛跑

逃离Transformer的竞赛已经开跑。2024年到2025年,三条路线最热闹。

第一条是状态空间模型(State Space Models,状态空间模型),代表选手Mamba(Mamba模型)。它用选择性扫描机制(Selective Scan Mechanism,选择性扫描机制)替代全局注意力,处理长序列时复杂度从二次方降到线性。测试显示,Mamba在100万token上下文任务中,速度比Transformer快5倍,内存占用少一半。缺点是纯Mamba在复杂推理任务上仍打不过GPT-4级别模型,混合架构(Mamba+Transformer)成为过渡方案。

第二条是线性注意力变体,比如RWKV(RWKV模型)和RetNet(RetNet模型)。它们把softmax(Softmax函数)注意力换成核技巧(Kernel Trick,核技巧)近似,保留并行训练能力的同时降低推理成本。RWKV的作者承诺"Transformer级别的性能,RNN(Recurrent Neural Network,循环神经网络)级别的效率",但实际落地时,长文本一致性仍是痛点。

第三条更激进:神经符号混合(Neuro-Symbolic Hybrid,神经符号混合架构)。Pathway公司押注这条路线——用符号推理处理结构化知识,神经网络负责模式识别,只在必要时调用大模型。斯塔米罗夫斯卡透露,他们的客户将特定查询的能耗降低了90%,代价是需要重新设计数据管道。

三条路线各有 trade-off(权衡)。Mamba们追求"无痛替换",神经符号派愿意承受重构成本换效率,线性注意力想在中间找平衡。没有银弹,但共识已经形成:堆参数的路走到头了。

商业现实:省电能省出竞争力吗

技术路线之争背后,是单位经济账的残酷压力。

DeepSeek-R1的爆火是个信号。这个中国团队用600万美元训练成本(仅为GPT-4级别的十分之一),靠算法优化和硬件效率,在推理价格上打到OpenAI的3%。市场反应剧烈:OpenAI紧急调整o3-mini(o3-mini模型)的定价,谷歌(Google,谷歌公司)把Gemini 2.0 Flash(Gemini 2.0 Flash模型)的上下文窗口扩到200万token并降价。

价格战的核心变量是能耗。DeepSeek的推理成本低,部分因为他们用FP8(FP8精度)量化、专家混合(Mixture of Experts,专家混合架构)稀疏激活,以及——关键的——更短的平均推理链。当竞争对手被迫跟进效率优化,Transformer的能耗劣势被放大。

企业客户的采购标准也在变。2024年,买家问的是"模型能力排名";2025年,CIO(Chief Information Officer,首席信息官)们开始要求"每美元token数"和"每瓦时token数"。微软(Microsoft,微软公司)Azure(Azure云平台)和亚马逊(Amazon,亚马逊公司)AWS(AWS云服务)都在推"绿色AI"标签,用可再生能源位置作为数据中心选址的核心指标。

斯塔米罗夫斯卡观察到一个细节:「客户不再只问'能不能做',而是问'做这件事的能源成本是多少'。这个问题三年前没人提。」

电网的反击与技术的窗口期

能源侧的压力正在反噬AI扩张。美国能源信息署(EIA,美国能源信息署)数据显示,2024年数据中心用电量占全国总量的4.4%,预计2030年冲到12%。得克萨斯州(Texas,得克萨斯州)和弗吉尼亚州(Virginia,弗吉尼亚州)的电网运营商已经暂停部分数据中心接入申请,等待输电线路升级。

政策变量也在加速。欧盟(European Union,欧盟)《人工智能法案》(AI Act,《人工智能法案》)要求高风险AI系统披露能耗数据;美国部分州开始讨论对AI训练征收碳税。监管不是远虑,是2025年的谈判筹码。

这给后Transformer技术创造了窗口期。如果新架构能在2026-2027年前证明规模化可行性,数据中心的投资周期可能转向。如果拖延,行业可能被锁死在Transformer的能耗路径上——毕竟,已经建成的GPU(Graphics Processing Unit,图形处理器)集群不会立刻报废。

斯塔米罗夫斯卡的赌注是前者。Pathway正在与两家财富500强(Fortune 500,财富500强)公司合作部署神经符号系统,用实时数据流替代批量训练。她拒绝透露客户名称,但提到一个场景:金融风控查询的延迟从秒级降到毫秒级,能耗只有原来的8%。

「这不是实验室演示,是生产环境。」她强调。

技术转型的 friction(摩擦成本)真实存在。重写数据管道、重新训练工程师、重新说服董事会——这些隐性成本不会出现在论文的benchmark(基准测试)里。但当电费账单开始吃掉利润,摩擦成本变得可以承受。

2025年3月,OpenAI发布了GPT-4.5,一个非推理模型,被解读为"效率优先"的信号。同月,Anthropic(Anthropic公司)的Claude 4(Claude 4模型)传闻采用新的注意力优化。巨头们没有公开宣布"放弃Transformer",但工程资源的分配正在倾斜。

后Transformer时代不会一夜到来。Transformer的生态惯性——工具链、人才库、硬件优化——太过庞大。但能耗危机切断了"规模即正义"的叙事,迫使行业重新回答一个老问题:智能的本质,真的需要这么多计算吗?

当电网工程师和AI研究员坐在同一张谈判桌上,答案正在改写。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
35岁傅彪儿子,住豪宅生活奢华,单身满头白发,走上了“不归路”

35岁傅彪儿子,住豪宅生活奢华,单身满头白发,走上了“不归路”

林轻吟
2026-04-02 19:51:37
难怪伊朗同意不打,特朗普相信中国帮了大忙!伊朗公开感谢中俄

难怪伊朗同意不打,特朗普相信中国帮了大忙!伊朗公开感谢中俄

解锁世界风云
2026-04-09 18:27:51
米兰一夜,贾玲再也回不去喜剧圈了!

米兰一夜,贾玲再也回不去喜剧圈了!

孤城落日
2026-04-07 12:10:29
快灭国了,却执意和中国断交,“抱大腿”无望又求援,中方:不管

快灭国了,却执意和中国断交,“抱大腿”无望又求援,中方:不管

小嵩
2026-04-09 03:10:41
中雨+雨夹雪!降水还未完,河北未来三天……

中雨+雨夹雪!降水还未完,河北未来三天……

燕郊传奇
2026-04-09 13:32:33
曾国藩:成大事的人,都赢在“三慢”!越急越不成,越慢越长久

曾国藩:成大事的人,都赢在“三慢”!越急越不成,越慢越长久

千秋文化
2026-04-05 18:59:25
美媒披露特朗普发动伊朗战争内幕:“全凭直觉”,除万斯外无人反对

美媒披露特朗普发动伊朗战争内幕:“全凭直觉”,除万斯外无人反对

澎湃新闻
2026-04-08 20:56:27
公关救不了一个想疯的老板

公关救不了一个想疯的老板

智远同学
2026-04-07 08:40:23
恭喜!纽约华人中100万美元,迅速61万现金落袋为安,这张彩票买自唐人街

恭喜!纽约华人中100万美元,迅速61万现金落袋为安,这张彩票买自唐人街

华人生活网
2026-04-08 05:33:19
伊朗称只有黎巴嫩停火才会与美会谈

伊朗称只有黎巴嫩停火才会与美会谈

界面新闻
2026-04-08 23:48:37
羽球亚锦赛:单局造21-8惨案,王祉怡2-0横扫世锦赛冠军晋级八强

羽球亚锦赛:单局造21-8惨案,王祉怡2-0横扫世锦赛冠军晋级八强

钉钉陌上花开
2026-04-09 12:34:19
快船不敌雷霆,哈登离队后,伦纳德为何越打越出色?

快船不敌雷霆,哈登离队后,伦纳德为何越打越出色?

林子说事
2026-04-09 18:00:31
抢先到店实拍蔚来ES9:投影大灯+47个扬声器,就看李斌怎么定价

抢先到店实拍蔚来ES9:投影大灯+47个扬声器,就看李斌怎么定价

新浪财经
2026-04-09 19:28:57
香蕉被点名!医生:香蕉放黑 2 天,抗性淀粉翻倍,控糖护肠

香蕉被点名!医生:香蕉放黑 2 天,抗性淀粉翻倍,控糖护肠

岐黄传人孙大夫
2026-04-06 21:25:03
人民日报:机关事业单位工作优势下降,隐性收入减少,引基层共鸣

人民日报:机关事业单位工作优势下降,隐性收入减少,引基层共鸣

细说职场
2026-04-09 14:28:22
陈丽华离世,最让她魂牵梦绕的,既不是子女,也不是迟重瑞

陈丽华离世,最让她魂牵梦绕的,既不是子女,也不是迟重瑞

小光侃娱乐
2026-04-09 12:45:03
罗永浩瑞幸合作凉了?广告疑似全线下架,网友纷纷表示支持

罗永浩瑞幸合作凉了?广告疑似全线下架,网友纷纷表示支持

罗超频道
2026-04-08 16:29:57
日媒炒作赏樱地有“中文喧哗声”,不料日本人自己…

日媒炒作赏樱地有“中文喧哗声”,不料日本人自己…

观察者网
2026-04-09 15:54:18
司机运18吨西瓜,收货方开30个全坏,拒付运费,发货方让拉走抵账

司机运18吨西瓜,收货方开30个全坏,拒付运费,发货方让拉走抵账

一丝不苟的法律人
2026-04-09 14:37:32
万斯称欧盟干预匈牙利大选,德国嘲讽:虚伪,你也在干一样的事

万斯称欧盟干预匈牙利大选,德国嘲讽:虚伪,你也在干一样的事

时尚的弄潮
2026-04-09 18:20:09
2026-04-09 20:03:00
码上闲叙
码上闲叙
有态度网友ytd
1465文章数 10关注度
往期回顾 全部

科技要闻

Meta凌晨首发闭源大模型 扎克伯格又行了?

头条要闻

媒体:"浑身是血"的美军上校藏身山缝 15分钟内被转移

头条要闻

媒体:"浑身是血"的美军上校藏身山缝 15分钟内被转移

体育要闻

8万人面前心脏骤停 现在他还站在球场上

娱乐要闻

金莎官宣结婚 与老公孙丞潇相差18岁

财经要闻

停火首日,霍尔木兹仅有4艘船通过

汽车要闻

文飞掌舵,给神行者带来了什么?

态度原创

时尚
游戏
教育
健康
军事航空

ED网红病,正在掏空年轻女性

AI乙女,为什么越来越“难吃”了

教育要闻

英语如何一年从90-100上到140呢,生词少了,读长句还有困难

干细胞抗衰4大误区,90%的人都中招

军事要闻

黎真主党发射火箭弹 回应以违反停火协议

无障碍浏览 进入关怀版