去年还在All in AI的CEO们,今年开始算账了。NBER 2026年2月这份研究扔出一组数字:90%的企业测不出AI带来的生产力提升,不到30%的CEO对生成式AI的回报满意。Gartner顺势把生成式AI扔进了"幻灭低谷"。
钱花了,人培训了,ChatGPT和Copilot都装上了,产出曲线却像被钉死。这不是某个行业的特例,是横跨样本的普遍困境。
泡沫的配方从没变过
研究团队对比了历史数据,发现轨迹熟悉得令人不适。2000年互联网泡沫破裂前,同样有一批公司把".com"后缀当战略,把烧钱当护城河。存活下来的不是喊口号最响的,是默默把物流、库存、支付这些脏活累活干扎实的。
生成式AI的问题在于它太像魔法了。输入提示词,输出完整方案,中间的黑箱让管理者误以为跳过了积累阶段。但NBER的数据拆解后发现,真正产生ROI的场景高度集中:代码补全、客服话术生成、营销文案变体——全是边界清晰、容错率高的任务。一旦涉及跨部门协作、需要因果推断的决策,AI的输出质量断崖式下跌。
更隐蔽的成本是组织内耗。数据团队被迫把大量时间花在"让AI看起来有用"上:写提示词工程、做输出后处理、向管理层解释为什么某个预测又跑偏了。这些劳动不会出现在任何ROI报表里,但吞噬了本该用于基础建设的资源。
传统数据科学为何闷声发财
与生成式AI的喧嚣形成对照的,是预测建模、因果推断、运筹优化这些"老派"技术的稳定产出。NBER样本中,持续投入传统数据科学的企业,成本节约和收入提升的可测量比例显著更高。
差异出在交付逻辑。传统方法从问题定义开始,每一步都可审计、可回滚。生成式AI的卖点是"端到端自动化",代价是把中间过程封死在黑箱里。当业务方质疑一个预测结果时,数据科学家能打开随机森林的特征重要性;面对大模型的输出,只能耸肩说"训练数据里有这个模式"。
一位参与调研的CIO在访谈中吐槽:"我们花了18个月做大模型落地,最后发现核心收益来自同期上线的需求预测系统——用的是十年前的梯度提升树。"
CEO们的认知时差
满意度数据的背后,是决策层对技术成熟度的误判。Gartner的炒作周期曲线显示,生成式AI从"期望膨胀顶峰"滑向"幻灭低谷"的速度,比云计算、大数据都快得多。原因在于它的演示效果过于惊艳,抬高了商业落地的预期阈值。
企业采购流程也放大了这种错位。董事会层面的AI战略通常由少数试点案例驱动——某个部门用ChatGPT写了份被高管点赞的行业分析报告,于是全公司铺开。但试点成功的条件(任务单一、质量容忍度高、人工复核充足)在规模化后迅速瓦解。
NBER研究里有个细节值得玩味:那些报告"零生产力提升"的企业,并非没有尝试。平均每家部署了4.7个不同的AI工具,举办了12场内部培训,成立了3.2个跨部门AI工作组。投入是真实的,产出是虚无的。
数据团队的生存策略
对于一线从业者,这份研究的价值在于厘清优先级。当预算收紧、管理层开始追问"AI投了这么多,效果在哪"时,能拿出可解释、可量化的传统项目,比追逐下一个模型版本更安全。
一个务实的观察是:生成式AI的真正落地场景,往往嵌套在传统数据科学的框架里。用大模型做特征工程、生成合成数据、辅助代码编写——作为组件而非主角。这种"去魅化"的使用方式,反而避开了幻觉和不可控输出的陷阱。
研究作者之一在附录里写道:"我们不是在否定生成式AI的潜力,而是指出当前企业应用中的系统性错配。技术曲线会穿越低谷,但穿越的前提是先承认自己在谷底。"
90%这个数字会刺痛很多人。但换个角度,它也可能是筛选器——区分出那些愿意为"看起来先进"付费的企业,和愿意为"确实有用"耐心的企业。后者的名单,往往和长期存活者的名单高度重叠。
你的团队去年AI预算花在哪了?有多少比例能说出具体ROI数字——不是"提升了效率"这种模糊表述,是像NBER研究里要求的那样,可测量、可对比、可复现?
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.