网易首页 > 网易号 > 正文 申请入驻

17万白领岗消失!Scale AI最新研究:AI仅动用了3%实力

0
分享至


新智元报道

编辑:桃子

【新智元导读】AI卷走饭碗,17万大军一夜失业。别慌,Scale AI新作一锤定音:全球六大顶尖AI,现在能自动处理的事情连3%都不到。

12万大学毕业生,挤破头竞逐17000个岗位。

七分之一的机会,竟是AI堵死了就业出路。不仅如此,白领也成为了重灾区。

作为美国第二大雇主,亚马逊周二的一份内部邮件,让14000岗位一夜消失,然而更大的血腥裁员还在路上。


整个行业,正经历着前所未有的震荡。近期,多家巨头相继公布裁员计划,被削减的岗位总数高达17万。

这场「失业海啸」的背后,AI成为了罪魁祸首。



全世界看到的是:Z世代毕业没出路,办公室白领纷纷被替代,唯有「水管工」一类技能岗位相安无事。

但这些担忧,到底是杞人忧天,还只是假象?

来自Scale AI和Center for AI Safety最新研究,一句话戳破了真相:

虽然AI很聪明,但还不够实用。目前,AI自动化率还不到3%。


值得一提的是,论文参与者中,还有Alexandr Wang本尊,曾在Scale AI期间完成的研究。


论文地址:https://www.remotelabor.ai/paper.pdf

6000小时,14万美金真实工作

最新研究中,提出了一个全新基准——远程劳动指数(RLI),重点评估AI在真实世界中端到端的性能。

过去几年,顶尖实验室的AI在各种基准上「开挂」。

这一亮眼成绩让人们一度误以为,当前AI离AGI只有一步之遥。但现实呢?


这些基准大多是短任务、明确规则的学术题,与真实工作还相差着十万八千里。GPT-5距离AGI终点,也仅实现了58%。

真正有经济价值的远程工作,往往具备跨领域、长周期、高标准等特点。

远程劳动指数(RLI),就是为了填补这一空白而生。

它收录了来自远程劳动力市场的真实项目,覆盖了游戏开发、产品设计、建筑、数据分析、视频动画等领域。

下图左,展示了TOP 7工作领域。


这些项目难度跨度大,有的成本高达1万美元,完成时间超100个小时。

RLI全部数据,都来自真实自由职业者的历史订单。总计超6000小时的真实工作量,总价值超14万美元。


如下是,RLI数据的收集过程,经过了严格的筛选和清洗。一开始,研究人员选取了64大领域。

经过初筛,他们确定了43个符合条件的领域,分两个阶段来获取项目:

1 从自由职业平台获取

2 从长尾项目获取

然后,研究团队又招募了358名自由职业者,拥有经过认证Upwork账户,并且是目标领域的专家。

平均而言,他们在Upwork平台上已工作 2,341 小时,完成过89个项目,总收入达23,364美元。

为此,团队从这些自由职业者中,收集了550个初始项目,最终筛选出包含240个项目的RLI数据集。


相较于先前同类基准,RLI复杂性和多样性,更贴近真实自由职业市场的工作形态。

如下图左显示,人类完成RLI项目平均耗时,与Upwork平台真实数据分布高度吻合;

右图说明了,既有基准主要集中在软件工程、网络调研写作类任务,而真实远程劳动力市场工种,远超这一范畴。


数据集建好了,接下来就是顶尖AI真枪实战了。不过,在此之前,又该用什么指标去衡量其性能?

主要包括以下四大指标:自动化率、Elo评分、项目收益、自动化通缩。

在评估流程中,针对每个RLI项目,研究团队都会对AI交付成果进行检验——

既要与人类黄金标准交付成果进行比对,也要根据项目简报中的要求核查缺陷,最终判定该AI成果在真实自由职业场景中,是否会被采纳为合格工作产物。


那么,每个顶尖大模型的真实战绩如何?

你的饭碗,暂时保住了!

实验中,研究团队拉来了,全球六大顶尖大模型和智能体参战,分别进行了定量和定性分析。

自动化率3%,已是极限

在定量分析中,主要采用了「绝对指标」和「相对指标」进行了评估。

相较于人类基准,评估的核心结论是——

当前AI智能体在执行RLI中,具有经济价值的项目方面,能力十分有限。

所有受评估的模型中,绝对性能普遍不佳,其中最高的自动化率,Manus也仅为2.5%。


为了衡量不同模型间相对性能,研究人员采用配对比较法来计算Elo评分。

结果发现,各模型间的相对性能正在稳步提升,且排名总体上反映出新一代的前沿模型比旧模型表现更好。


世界知识不够,无法校验错误

在定性分析中,团队主要探究了当前AI系统的局限性,以及自动化率低的原因。

通过对约400份评估进行分析后,AI交付成果被拒的原因,主要归结为以下几类:

1. 技术与文件完整性问题:许多失败源于基础技术问题,比如生成了损坏或空文件,或交付的文件格式不正确、无法使用。

2. 交付成果不完整或存在缺陷:AI频繁提交不完整的作品,比如缺少关键组件、视频内容被截断或未提供源素材。

3. 质量问题:即便AI生成了完整的交付成果,其质量也往往很差,达不到专业标准。

4. 不一致性:当使用AI生成工具时,AI完成的交付成果在不同文件之间时,常表现出不一致性。

如下表2所示,是各类问题在交付成果中,出现的比例。


不过,在一小部分项目中,AI的交付成果可以媲美甚至超越人类的成果。

这类项目,主要集中在创意领域,特别是音频、图像相关的任务,此外还包括写作和数据检索/网络爬虫。

此前,「AGI定义」一文中,曾指出了AI在世界知识、记忆力、视听能力等能力上有所缺陷。

AI智能体所表现出的许多失败,恰恰都源于这些能力的不足。


比如,由于AI无法核验并修正自身工作中的错误,尤其是,在建筑、游戏开发和网页开发这类需要复杂交互和视听效果验证的项目中。


与之相对,AI模型的成功案例大多也集中在,当前其技能发展更为成熟的领域。

比如,Claude 4.5 Sonnet在简单web视觉化任务中,做的要比人类交付成果更好。


再比如,AI还可以利用图像生成工具,解决了RLI中的部分营销项目。


RLI最新研究,告诉所有人一个事实:AI离取代人类复杂劳动,还差得很远。

参考资料:

https://x.com/danhendrycks/status/1983564538781082084

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
开拓者官方召回杨瀚森!混音晒大合影告别本赛季:小杨并不在其中

开拓者官方召回杨瀚森!混音晒大合影告别本赛季:小杨并不在其中

罗说NBA
2026-04-05 05:02:30
10亿播放的“玉芬”神曲,凭什么火遍全网

10亿播放的“玉芬”神曲,凭什么火遍全网

情感大头说说
2026-03-28 11:59:18
演员文章女儿晒和爸爸合影,网友发现文章发量少,感觉头发快没了

演员文章女儿晒和爸爸合影,网友发现文章发量少,感觉头发快没了

韩小娱
2026-04-04 20:23:44
张凌赫让华谊血亏!大学生女歌手帮大佬洗金币!

张凌赫让华谊血亏!大学生女歌手帮大佬洗金币!

八卦疯叔
2026-04-05 11:05:59
国台办果然没看错,郑丽文真面目被彻底揭露!小算盘到此为止了

国台办果然没看错,郑丽文真面目被彻底揭露!小算盘到此为止了

比利
2026-01-23 12:41:53
4:2苦战桥本!没想到王曼昱赛后说出最狠的一番话,马琳热泪盈眶

4:2苦战桥本!没想到王曼昱赛后说出最狠的一番话,马琳热泪盈眶

林子说事
2026-04-05 05:37:27
4月3日突上热搜!张艺谋儿子一出手就是王炸

4月3日突上热搜!张艺谋儿子一出手就是王炸

TVB的四小花
2026-04-04 12:31:56
强对流再来 广州今日有大到暴雨

强对流再来 广州今日有大到暴雨

新快报新闻
2026-04-05 08:18:10
随着吉达国民3-0,C罗争冠头号劲敌2-2,沙特联最新积分榜出炉

随着吉达国民3-0,C罗争冠头号劲敌2-2,沙特联最新积分榜出炉

凌空倒钩
2026-04-05 06:33:09
不邀请中国参加G7峰会 马克龙为何改主意了?

不邀请中国参加G7峰会 马克龙为何改主意了?

看看新闻Knews
2026-04-04 17:51:02
真惨!一家五口出国旅游后回不了美国,工作也没了

真惨!一家五口出国旅游后回不了美国,工作也没了

华人生活网
2026-04-05 04:12:43
上将被查、院士被除名,这背后释放的信号,比你想的更不简单

上将被查、院士被除名,这背后释放的信号,比你想的更不简单

李昕言温度空间
2026-03-19 22:56:18
90岁牛犇没想到,在日本结婚生女的儿子,如今靠演鬼子成了老戏骨

90岁牛犇没想到,在日本结婚生女的儿子,如今靠演鬼子成了老戏骨

凡知
2026-03-07 10:25:08
生死大战!王楚钦vs雨果谁能晋级决赛?世界第一或击溃巴西一哥

生死大战!王楚钦vs雨果谁能晋级决赛?世界第一或击溃巴西一哥

骑马寺的少年
2026-04-05 07:35:07
粉底液将军事件再升级!网友怀疑反华势力入侵,张凌赫恐被当炮灰

粉底液将军事件再升级!网友怀疑反华势力入侵,张凌赫恐被当炮灰

千言娱乐记
2026-04-02 12:32:24
世锦赛种子签表公布 中国五将面临四大恶战 奥沙利文掉“死亡之组

世锦赛种子签表公布 中国五将面临四大恶战 奥沙利文掉“死亡之组

郝小小看体育
2026-04-04 16:00:10
奥运冠军“拉拉链露胸”,让耐克绷不住了!

奥运冠军“拉拉链露胸”,让耐克绷不住了!

品牌营销报
2026-02-23 11:31:10
恭喜俄罗斯和乌克兰,打了4年,终于打成了全世界都喜欢的样子!

恭喜俄罗斯和乌克兰,打了4年,终于打成了全世界都喜欢的样子!

古史青云啊
2026-04-05 10:23:50
拐点来了!被俘飞行员撬动整个局势,伊朗下格杀令,特朗普陷两难

拐点来了!被俘飞行员撬动整个局势,伊朗下格杀令,特朗普陷两难

起喜电影
2026-04-05 00:12:32
霍尔木兹断航!第一个亚洲国家已断粮倒下,下一个受害者浮出水面

霍尔木兹断航!第一个亚洲国家已断粮倒下,下一个受害者浮出水面

小影的娱乐
2026-03-22 20:31:39
2026-04-05 14:19:00
新智元 incentive-icons
新智元
AI产业主平台领航智能+时代
14898文章数 66749关注度
往期回顾 全部

科技要闻

花200薅5千算力,Claude冷血断供“龙虾”

头条要闻

特朗普:获救的美飞行员受伤 营救行动中无美国人伤亡

头条要闻

特朗普:获救的美飞行员受伤 营救行动中无美国人伤亡

体育要闻

CBA最老球员,身价7500万美元

娱乐要闻

好用心!宋慧乔为好友庆生做一桌美食

财经要闻

谁造出了优思益这头“怪物”?

汽车要闻

家用SUV没驾驶乐趣?极氪8X第一个不同意

态度原创

数码
时尚
亲子
本地
公开课

数码要闻

好用的剃须刀哪款好?品牌十大排名不同需求精准适配,剃须更舒适

女人不管多大年纪衣服不要随便穿,这些穿搭可借鉴,优雅显瘦

亲子要闻

这女孩不简单

本地新闻

跟着歌声游安徽,听古村回响

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版