MIT实测41个AI模型：65%合格率背后，复杂任务全线翻车|翻译|工作流|新论文|mit实测

MIT实测41个AI模型：65%合格率背后，复杂任务全线翻车

2026-04-13 09:58:13　来源: Ping值焦虑

北京举报

分享至

2024年50%，2025年65%，2029年预计80-95%——MIT刚发布的这组数字，正在科技圈疯传。但大多数人漏看了后半句：当任务需要多步骤、创造力或精确度时，AI的失败率始终高于成功率。换句话说，越是团队真正依赖的环节，它越靠不住。

11000个任务的"及格线"测试

MIT团队没做预测，他们做了测量。41个模型（包括Claude、Gemini、ChatGPT各版本）被扔进美国劳工部的官方任务库，覆盖11000多个真实工作场景。评分标准很直接：专业人士盲测，输出能否直接用？7分算"勉强能用"的底线，9分才是"优质"。

结果分层明显。纯文本任务中，模型爬升很快：一年间从50%及格率跳到65%。但"优质"这道坎，从未被真正跨过——无论给多少时间，9分达成率始终低于50%。

任务复杂度是道隐形墙。单步骤、格式化的内容，AI表现稳定；一旦涉及协调、判断、决策，分数断崖下跌。而这些恰恰是创始人、产品经理最不敢外包的环节。

研究团队用了个贴切类比：AI替代不是海啸，是涨潮。水位慢慢上升，淹没顺序不均，没有某个行业突然崩塌。这个画面本该让人安心，却也埋下隐患——当65%的"及格产出"被默认信任，验证环节的缺失就成了系统性风险。

65%合格率的危险盲区

德勤去年给政府交付的报告，被查出大量事实幻觉。多家媒体刊发过AI生成的假署名文章。律所向法院提交不存在的判例引用。这些事故有个共同点：模型本身运行正常，问题出在"无人复核"的流程漏洞。

MIT研究侧面验证了这一点。将AI嵌入现有工作流的实际成本，远高于厂商PPT里的数字。这个成本在ROI计算中系统性地消失，直到项目超支或出事才暴露。

同期《自然》杂志的另一项研究提供了更隐蔽的视角：即使AI确实帮个人做对了决策，长期使用可能让整个职业群体的判断能力退化。不是工具变笨，是用工具的人变懒了——或者说，变"依赖"了。

对产品经理的翻译很直白：AI适合处理"做了比不做好"的杂务，不适合处理"错了就完蛋"的核心环节。但区分这两者的判断力，本身就需要经验积累。

涨潮期的生存策略

研究团队的建议克制而具体。别问"AI能替代多少工作"，问"哪些任务的验证成本低于重做成本"。前者是焦虑营销，后者才是资源分配。

几个已被验证的操作模式：把AI输出锁定为"草稿"而非"终稿"，强制人工终审；复杂任务拆解为单步骤子任务，每个节点设置质量门；保留核心决策者的"手感训练"，防止组织层面的能力流失。

厂商叙事喜欢强调"接近人类水平"，但MIT的测量显示，这个"接近"停留在及格线附近。对于需要9分输出的场景，当前技术路径可能遇到了结构性天花板。

一个值得追踪的细节：研究中2029年的80-95%预测，前提是模型能力持续线性增长。但过去两年，顶级模型的边际提升正在收窄。这个预测本身，或许也需要验证。

你的团队把AI用在哪些环节？有没有设置"必须人工过一遍"的硬门槛？

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

手机 / 数码

房产 / 家居

MIT实测41个AI模型：65%合格率背后，复杂任务全线翻车

11000个任务的"及格线"测试

65%合格率的危险盲区

涨潮期的生存策略

"抄作业"近四年，马斯克版微信周五上线

特朗普"罕见承认"政治后果 被指考虑恢复对伊有限打击

特朗普"罕见承认"政治后果 被指考虑恢复对伊有限打击

一支球队不够烂，也是一种悲哀

贾玲减重后现身冯巩生日宴 身材未反弹

起底AI"造黄"灰产：19.9元"一键脱衣"

不止命名更纯粹 领克10/10+要做纯电操控新王

态度原创

“前有唐尚珺，后有卡尔刘！”双非生五战985，调剂厦大生死难料

赢者通吃！荣耀WIN系列游戏本亮相，首发东风尾喷散热引擎

复古风格 自然简约

6000亿投资盛宴，全球巨头齐聚，海南又要干件大事！

这些才是普通人借鉴的穿搭！上短下长、上窄下宽，显瘦又舒适

特朗普"罕见承认"政治后果被指考虑恢复对伊有限打击

特朗普"罕见承认"政治后果被指考虑恢复对伊有限打击

贾玲减重后现身冯巩生日宴身材未反弹

不止命名更纯粹领克10/10+要做纯电操控新王

复古风格自然简约