网易首页 > 网易号 > 正文 申请入驻

MIT实测41个AI模型:65%合格率背后,复杂任务全线翻车

0
分享至

2024年50%,2025年65%,2029年预计80-95%——MIT刚发布的这组数字,正在科技圈疯传。但大多数人漏看了后半句:当任务需要多步骤、创造力或精确度时,AI的失败率始终高于成功率。换句话说,越是团队真正依赖的环节,它越靠不住。

11000个任务的"及格线"测试

MIT团队没做预测,他们做了测量。41个模型(包括Claude、Gemini、ChatGPT各版本)被扔进美国劳工部的官方任务库,覆盖11000多个真实工作场景。评分标准很直接:专业人士盲测,输出能否直接用?7分算"勉强能用"的底线,9分才是"优质"。

结果分层明显。纯文本任务中,模型爬升很快:一年间从50%及格率跳到65%。但"优质"这道坎,从未被真正跨过——无论给多少时间,9分达成率始终低于50%。

任务复杂度是道隐形墙。单步骤、格式化的内容,AI表现稳定;一旦涉及协调、判断、决策,分数断崖下跌。而这些恰恰是创始人、产品经理最不敢外包的环节。

研究团队用了个贴切类比:AI替代不是海啸,是涨潮。水位慢慢上升,淹没顺序不均,没有某个行业突然崩塌。这个画面本该让人安心,却也埋下隐患——当65%的"及格产出"被默认信任,验证环节的缺失就成了系统性风险。

65%合格率的危险盲区

德勤去年给政府交付的报告,被查出大量事实幻觉。多家媒体刊发过AI生成的假署名文章。律所向法院提交不存在的判例引用。这些事故有个共同点:模型本身运行正常,问题出在"无人复核"的流程漏洞。

MIT研究侧面验证了这一点。将AI嵌入现有工作流的实际成本,远高于厂商PPT里的数字。这个成本在ROI计算中系统性地消失,直到项目超支或出事才暴露。

同期《自然》杂志的另一项研究提供了更隐蔽的视角:即使AI确实帮个人做对了决策,长期使用可能让整个职业群体的判断能力退化。不是工具变笨,是用工具的人变懒了——或者说,变"依赖"了。

对产品经理的翻译很直白:AI适合处理"做了比不做好"的杂务,不适合处理"错了就完蛋"的核心环节。但区分这两者的判断力,本身就需要经验积累。

涨潮期的生存策略

研究团队的建议克制而具体。别问"AI能替代多少工作",问"哪些任务的验证成本低于重做成本"。前者是焦虑营销,后者才是资源分配。

几个已被验证的操作模式:把AI输出锁定为"草稿"而非"终稿",强制人工终审;复杂任务拆解为单步骤子任务,每个节点设置质量门;保留核心决策者的"手感训练",防止组织层面的能力流失。

厂商叙事喜欢强调"接近人类水平",但MIT的测量显示,这个"接近"停留在及格线附近。对于需要9分输出的场景,当前技术路径可能遇到了结构性天花板。

一个值得追踪的细节:研究中2029年的80-95%预测,前提是模型能力持续线性增长。但过去两年,顶级模型的边际提升正在收窄。这个预测本身,或许也需要验证。

你的团队把AI用在哪些环节?有没有设置"必须人工过一遍"的硬门槛?

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
特朗普威胁若中国向伊朗供武就加征关税,外交部:关税战没有赢家

特朗普威胁若中国向伊朗供武就加征关税,外交部:关税战没有赢家

澎湃新闻
2026-04-13 15:32:26
辉瑞内部人士爆料,德国约有6万人死于新冠疫苗,马斯克:完全认同

辉瑞内部人士爆料,德国约有6万人死于新冠疫苗,马斯克:完全认同

可达鸭面面观
2026-04-13 16:37:24
通过妻子以虚增交易环节方式受贿,江苏一副厅长获刑13年

通过妻子以虚增交易环节方式受贿,江苏一副厅长获刑13年

新京报
2026-04-13 17:52:16
省委书记唐登杰,随机前往一处堆场

省委书记唐登杰,随机前往一处堆场

极目新闻
2026-04-13 15:28:14
颠覆“一国两制”框架?吴建国倡议两岸统一新路径

颠覆“一国两制”框架?吴建国倡议两岸统一新路径

人生录
2026-04-13 10:00:27
王石和秦枫,必有一个要进去

王石和秦枫,必有一个要进去

葱哥说
2026-04-13 10:28:28
伊朗航母残骸曝光:已经处于半沉状态

伊朗航母残骸曝光:已经处于半沉状态

烽火观天下
2026-04-13 12:52:31
发现朋友孩子是唐氏儿,我该开口吗?网友:关系再好都不会说

发现朋友孩子是唐氏儿,我该开口吗?网友:关系再好都不会说

带你感受人间冷暖
2026-04-13 00:05:12
金价大跌!

金价大跌!

吉林日报
2026-04-13 10:00:08
巴基斯坦开通伊朗过境走廊

巴基斯坦开通伊朗过境走廊

人民网
2026-04-13 17:21:34
13岁男孩骑车被绳子割喉,忍痛跑回家求救!警方已介入

13岁男孩骑车被绳子割喉,忍痛跑回家求救!警方已介入

上观新闻
2026-04-13 17:52:16
深圳开发商疑似喷辣椒水驱客 中介人士:现场秩序混乱 客户不排队往里挤

深圳开发商疑似喷辣椒水驱客 中介人士:现场秩序混乱 客户不排队往里挤

新浪财经
2026-04-13 14:23:40
不到一周张雪机车再战WSBK!张雪:可能会输 提前泼一盆冷水

不到一周张雪机车再战WSBK!张雪:可能会输 提前泼一盆冷水

快科技
2026-04-13 11:12:10
只打一场CBA0分离开!说唱歌手科尔宣布:因工作签证无缘后续比赛

只打一场CBA0分离开!说唱歌手科尔宣布:因工作签证无缘后续比赛

醉卧浮生
2026-04-13 15:00:50
网友为遭绳锁喉重伤男孩筹款超50万元,村主任称肇事方为七旬老人,又给伤者送去2万元,律师:或构成过失致人重伤罪

网友为遭绳锁喉重伤男孩筹款超50万元,村主任称肇事方为七旬老人,又给伤者送去2万元,律师:或构成过失致人重伤罪

极目新闻
2026-04-13 14:33:43
李少芬入选中国篮球名人堂,丈夫钟南山为她穿上名人西装

李少芬入选中国篮球名人堂,丈夫钟南山为她穿上名人西装

大象新闻
2026-04-13 13:01:11
科大讯飞员工中1500万彩票火速离职,网友:羡慕了

科大讯飞员工中1500万彩票火速离职,网友:羡慕了

鞭牛士
2026-04-13 09:48:14
遭绳子锁喉的13岁男孩已转诊北京,母亲哭得看不清手机上的字:孩子气道食管破裂,后续花费非常大

遭绳子锁喉的13岁男孩已转诊北京,母亲哭得看不清手机上的字:孩子气道食管破裂,后续花费非常大

极目新闻
2026-04-13 11:23:58
“立即转向,否则开火” 伊朗披露64秒“驱退”美军舰视频

“立即转向,否则开火” 伊朗披露64秒“驱退”美军舰视频

环球网资讯
2026-04-13 15:06:31
倪妮和高叶同框 确实有点做作了 倪妮身高1.7米 高叶身高1.68米

倪妮和高叶同框 确实有点做作了 倪妮身高1.7米 高叶身高1.68米

动物奇奇怪怪
2026-04-13 17:15:40
2026-04-13 18:47:04
Ping值焦虑
Ping值焦虑
有态度网友ytd
1291文章数 22关注度
往期回顾 全部

科技要闻

"抄作业"近四年,马斯克版微信周五上线

头条要闻

特朗普"罕见承认"政治后果 被指考虑恢复对伊有限打击

头条要闻

特朗普"罕见承认"政治后果 被指考虑恢复对伊有限打击

体育要闻

一支球队不够烂,也是一种悲哀

娱乐要闻

贾玲减重后现身冯巩生日宴 身材未反弹

财经要闻

起底AI"造黄"灰产:19.9元"一键脱衣"

汽车要闻

不止命名更纯粹 领克10/10+要做纯电操控新王

态度原创

教育
数码
家居
房产
时尚

教育要闻

“前有唐尚珺,后有卡尔刘!”双非生五战985,调剂厦大生死难料

数码要闻

赢者通吃!荣耀WIN系列游戏本亮相,首发东风尾喷散热引擎

家居要闻

复古风格 自然简约

房产要闻

6000亿投资盛宴,全球巨头齐聚,海南又要干件大事!

这些才是普通人借鉴的穿搭!上短下长、上窄下宽,显瘦又舒适

无障碍浏览 进入关怀版