2024年50%,2025年65%,2029年预计80-95%——MIT刚发布的这组数字,正在科技圈疯传。但大多数人漏看了后半句:当任务需要多步骤、创造力或精确度时,AI的失败率始终高于成功率。换句话说,越是团队真正依赖的环节,它越靠不住。
11000个任务的"及格线"测试
MIT团队没做预测,他们做了测量。41个模型(包括Claude、Gemini、ChatGPT各版本)被扔进美国劳工部的官方任务库,覆盖11000多个真实工作场景。评分标准很直接:专业人士盲测,输出能否直接用?7分算"勉强能用"的底线,9分才是"优质"。
结果分层明显。纯文本任务中,模型爬升很快:一年间从50%及格率跳到65%。但"优质"这道坎,从未被真正跨过——无论给多少时间,9分达成率始终低于50%。
任务复杂度是道隐形墙。单步骤、格式化的内容,AI表现稳定;一旦涉及协调、判断、决策,分数断崖下跌。而这些恰恰是创始人、产品经理最不敢外包的环节。
研究团队用了个贴切类比:AI替代不是海啸,是涨潮。水位慢慢上升,淹没顺序不均,没有某个行业突然崩塌。这个画面本该让人安心,却也埋下隐患——当65%的"及格产出"被默认信任,验证环节的缺失就成了系统性风险。
65%合格率的危险盲区
德勤去年给政府交付的报告,被查出大量事实幻觉。多家媒体刊发过AI生成的假署名文章。律所向法院提交不存在的判例引用。这些事故有个共同点:模型本身运行正常,问题出在"无人复核"的流程漏洞。
MIT研究侧面验证了这一点。将AI嵌入现有工作流的实际成本,远高于厂商PPT里的数字。这个成本在ROI计算中系统性地消失,直到项目超支或出事才暴露。
同期《自然》杂志的另一项研究提供了更隐蔽的视角:即使AI确实帮个人做对了决策,长期使用可能让整个职业群体的判断能力退化。不是工具变笨,是用工具的人变懒了——或者说,变"依赖"了。
对产品经理的翻译很直白:AI适合处理"做了比不做好"的杂务,不适合处理"错了就完蛋"的核心环节。但区分这两者的判断力,本身就需要经验积累。
涨潮期的生存策略
研究团队的建议克制而具体。别问"AI能替代多少工作",问"哪些任务的验证成本低于重做成本"。前者是焦虑营销,后者才是资源分配。
几个已被验证的操作模式:把AI输出锁定为"草稿"而非"终稿",强制人工终审;复杂任务拆解为单步骤子任务,每个节点设置质量门;保留核心决策者的"手感训练",防止组织层面的能力流失。
厂商叙事喜欢强调"接近人类水平",但MIT的测量显示,这个"接近"停留在及格线附近。对于需要9分输出的场景,当前技术路径可能遇到了结构性天花板。
一个值得追踪的细节:研究中2029年的80-95%预测,前提是模型能力持续线性增长。但过去两年,顶级模型的边际提升正在收窄。这个预测本身,或许也需要验证。
你的团队把AI用在哪些环节?有没有设置"必须人工过一遍"的硬门槛?
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.