有个数据挺反直觉的。一群经验丰富的程序员,用AI辅助写代码,心里觉得自己快了24%。结果实验室一测,实际慢了19%。
这不是哪家公司的公关翻车,是METR(Model Evaluation and Threat Research)2024年的研究。测试条件很硬:真实开源项目、对照组、计时。开发者们确实花了更多时间——不是写代码,是检查AI给的答案对不对。
![]()
这种现象有个名字:"验证开销"。AI生成的代码看起来能跑,甚至写得挺漂亮,但藏着坑。你得读一遍、测一遍、改一遍。这些步骤原本不存在,现在成了新负担。
![]()
但故事还有另一面。波士顿咨询2023年做过一个经典实验:让顾问用GPT-4做市场分析、想产品创意。结果速度提升25%,输出质量高了40%。麦肯锡同年的估算更激进:生成式AI在全球知识工作里的潜在价值,每年2.6到4.4万亿美元。
GitHub Copilot的用户调研显示,55%的开发者自认效率提升。注意是"自认"——自我报告和实测之间,永远有 gap。
斯坦福另一个研究把矛盾说得更细。AI客服工具帮新手员工大忙,老手用起来反而没差别,甚至拖后腿。原因很直白:新人不知道标准答案长什么样,AI给啥都新鲜;老手一眼能看出AI的瑕疵,纠正它比重写还累。
所以AI到底能不能提效?答案是:看任务,看人,看阶段。
结构化、边界清晰的活儿——写周报、做摘要、填模板——AI确实省时间。你能一眼判断对错,错了改起来也快。但开放式问题、需要深度推理的环节,AI容易自信满满地胡说。你信它,后面擦屁股的时间翻倍;不信它,等于白用。
更隐蔽的陷阱是"学习曲线幻觉"。刚开始用AI,速度一定下降。你得熟悉它的脾气,知道什么提示词管用,学会快速验货。很多人在这个阶段就放弃,或者得出结论"AI没用"。
![]()
真正尝到甜头的人,往往是熬过了这个阶段,而且选对了战场。他们不是把AI当万能助手,而是当特定环节的加速器。写函数注释?扔给AI。设计系统架构?自己来。
企业层面的误判更贵。采购AI工具时,老板算的是"每人每天省两小时"。实际上线后发现,有人省了三小时,有人多花了一小时,还有人用AI写出了需要全组返工的代码。净效果可能是零,甚至是负的。
研究里还有个细节容易被忽略:开发者"相信"自己快了24%。这种信念本身会影响行为——更敢接复杂任务,更少做保守估算。但如果实际交付变慢,项目计划就会系统性崩盘。
所以怎么测AI的真实价值?不是问"快了多少",是问"同样时间,产出质量变了吗"。也不是看平均数,是看分布——哪些人、哪些场景、哪些任务类型真的受益。
目前最靠谱的结论大概是:AI不是魔法,是杠杆。支点放对了,省力;放错了,砸脚。而大多数人还在找支点的过程中。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.