网易首页 > 网易号 > 正文 申请入驻

AI真的能干活吗?硅谷用一场真实打工实验,给出了尴尬的答案

0
分享至

  

  万圣节前夜,硅谷把“AI能替人类打工”的幻想拖进现实揍了一顿。

  Scale AI让GPT-5、Claude、Gemini等一批“学霸”模型去“打零工”。不是做选择题,也不是写论文,而是独立登录自由职业平台接真实订单。客户付真钱,模型交真货。

  这场测试被命名为“远程劳动指数”,是全球首个专门衡量AI“能否真正干活”的基准。

  实验结果像一场职场闹剧:每个模型有忙前忙后,表现最好的那个,240个工单也只完成了6个,赚到1720美元,还不到人类自由职业者报酬均值的2%。

  近一半的失败原因是,质量太差、成品业余。

  在“分数上天、交付落地”的AI时代,这是一次令人尴尬的对照实验。尽管大模型在标准测试中表现惊人,但将这种“智力”转化为现实世界中的“经济价值”的能力还非常初级。

  它也提出了一个比“AI是否聪明”更现实的问题,当真正要为结果付钱时,人们到底愿不愿意雇用AI?目前来看,人机协作仍然是短期到中期的唯一路径。

  让大模型去赚外快,仅2.5%成功率

  AI到底能不能自己帮我赚外快?

  Scale AI的前CEO Alexandr Wang最近带头搞了场“AI打工实录”,给出这样的答案:极少数、且限制重重。

  为了搞清楚这件事,Scale AI搞了个叫“远程劳动指数”(RLI)的新标准,直接把各大模型当成“打工人”扔进真实项目里接单。

  评判标准很现实:客户肯不肯付钱,平台认不认为这活儿干得专业。

  他们特意选了自由职业项目来测试,因为这类任务独立、完整、还带真实报酬,最能看出AI到底有没有“独自上班”的能力。

  测试范围不包括需要持续沟通、团队合作或线下动手的活儿,主要覆盖写作、3D建模、视频动画、建筑设计、游戏开发等23类常见线上工作。

  RLI的设计核心就俩字:真实。

  所有测试项目都来自全球最大自由职业平台Upwork上的真实订单,一共240个,加起来相当于人类6000小时的工作量,总报酬高达14.4万美元。

  每个任务都配备了完整的需求说明、相关素材和人类交付样例。比如,做数据报告任务,要求AI根据《世界幸福报告》的Excel数据,做出带世界地图和分数拆分的交互式报告。

  

  ▲交付要求示例

  整个流程高度仿真:从理解需求、下载文件、多轮修改到最终提交,任何一个环节掉链子都算任务失败。

  结果嘛,有点惨烈。所有参与测试的AI模型,对复杂项目的整体自动化率,都低于3%。

  表现最好的Manus,成功率也只有2.5%,也就是240个任务里只完成了6个。换算成报酬,它只赚到了1720美元,而人类完成所有这些任务可以赚到14.4万美元。

  其他“学霸”模型更拉胯:Grok 4和Claude Sonnet 4.5稍逊于第一名,均为2.1%;GPT-5为1.7%;ChatGPT Agent为1.3%;而Gemini 2.5 Pro垫底,只有0.8%。

  

  ▲AI的任务通过率统统不超过3%

  目前来看,指望AI完全自主干活,效率实在有点低。研究团队发现,AI的失败不是随机的,主要集中在这四类情况,且一个任务能踩好几个坑:

  ①45.6%的任务“质量过低”,成品显业余,达不到专业标准;

  ②35.7%的任务“不完整或格式错误”,如视频被截断、文件缺失;

  ③17.6%的任务“技术与文件完整性问题”,如损坏、编码错误;

  ④14.8%的任务“严重的视觉或逻辑不一致”,例如多镜头视角对不上、文件间彼此矛盾。

  典型案例如:在一个珠宝设计项目中,AI的任务是“修改提供的戒指图像,改变钻石切工”。结果它完全无视客户提供的原图,自己放飞生成了两张全新的AI图,图片质量业余、没按需求来、两张新图还对不上,一口气触发了三种失败模式。

  

  ▲AI被“退货”的典型案例

  失败原因指向更深的系统性问题。

  “质量低下”说明AI根本不懂什么叫“专业标准”;“不完整/格式错误”则暴露了它在处理多步骤、多工具工作流时有多么脆弱。

  不过AI也不是一无是处,它在某些特定类型任务上还是有点天赋的,主要集中在两类:一是创意类任务,比如制作音效、设计Logo;二是基础内容类任务,比如部分数据整理或写作。

  简单来说,AI擅长“从零开始搞创作”,生成能力不错。可一旦任务需要它串起多个工具、执行多步骤操作、保持文件间的一致性,或者在别人成果上做二次编辑,它基本就手忙脚乱,集体翻车。

  虽然AI出活速度快,但交付质量实在难以达标。人类完成一个项目平均要28.9小时,而AI投入相近的“算力时间”后,大部分成果还是被判定为“不合格”。

  这其实说明了一个趋势:工作正在被“拆解”,而不是直接被“替代”。

  在RLI中,任务被分为L1到L5五个难度等级。像资料整理、基础文案这类L1-L2任务,AI通过率能达到25%-30%;而涉及跨工具协作、创意策划的L4-L5任务,通过率却低于5%。有意思的是,L1-L2任务正是很多人类初级岗位的日常。

  按照“智能体摩尔定律”,有人预测到明年底,最强的AI智能体有望完成一半的远程工作任务。

  研究团队也强调,AI的各项指标还在快速进步,RLI基准也会持续追踪。他们计划不断更新测试任务库,并加入多模态、长记忆、工具调用等新维度,目标很明确:把“模型能力”真正转化为“经济价值”来衡量。

  旧基准失灵,“满分”模型变“掉链子同事”

  AI正在考试中证明“聪明”,却在职场中暴露“不会干活”。

  近两年,大模型在封闭题库中的分数飙升,GDP-eval、SWE-bench等评测接连被刷到满分。而另一边,企业的初级岗位招聘却在降温。AI的“考试成绩”与真实就业市场的表现,首次出现了明显背离。

  原因很简单:现有基准测的是“答题能力”,而企业要的是“交付成果”。

  微软CEO Satya Nadella曾公开吐槽:“我们自诩达到AGI里程碑,不过是基准测试作弊。”

  这正是典型的“高分低能”。模型选择题全对,写代码却漏了import;推理论证严密,做方案却缺了关键信息。更严重的是,为了“刷榜”,不少模型训练时已将测试集“腌”进参数里,分数越高,离现实越远。

  AI领域迫切需要一种能衡量“真实工作能力”的新标准。

  Scale AI推出的RLI正是为此而生。它不考一题一答的知识点,而是考“能否完成一整个工作流”——就像现实职场那样,任务有上下文、要协作、要产出可交付成果。

  那么,RLI和传统基准有何不同?

  MMLU、MT-Bench和ARC Challenge都是当前评估大模型时“出场率”最高的主流基准之一,几乎所有新模型发布都会贴出这三项分数。不过,它们各自存在明显短板:

MMLU覆盖57学科,更像闭卷知识竞赛;

MT-Bench用两轮对话给分,只能反映“聊天体感”,无法衡量跨工具、跨步骤的复杂协作;

ARC Challenge聚焦抽象常识推理,与现实场景脱节。

  相比之下,RLI用真实付费订单作为测试题目。模型不仅要理解任务、跨工具操作,还要交出客户愿意付钱的成果。这样的评测几乎无法“刷分”,它考验的是全流程适应力。

  现实中,甲方突然要求改语气、换配图风格;客户上传的参考资料缺页、压缩包损坏;或任务中途新增“请在Notion里同步进度并生成演示稿”。这些人类面对的模糊又多变的现实,是模型能力测试中不曾出现过的。

  正如AI安全研究员Dan Hendrycks所说:“没有什么比现实更复杂。AI的进步,必须以真实经济价值为衡量标准。”

  那AI到底能不能独立上岗?

  RLI实验结果显然说明“AI绝对自动化率几乎为零”,AI即将全面替代人类工作”的担忧暂时缺乏数据支撑。

  短期内,市场还不会被“AI劳动力”淹没,但任务颗粒度变细、价格分层已在所难免。哈佛分析了500万家美国企业的招聘数据后得出,AI引入后,初级岗位招聘量平均下降7.7%,尤其集中在批发零售、行政支持等流程标准化行业。

  未来的初级岗位JD可能会写成这样:“能使用AI完成30%的日常杂务,并具备确保交付的能力。”

  AI的崛起正在重塑工作结构。纯执行型技能正在加速贬值,定义问题、管理流程、整合资源的能力,反而成了新的核心竞争力。

  AI在考试中证明了“聪明”,而真正能在现实中“干活”的,依然是那些懂得如何让AI变成团队一部分的人。

文/朗朗

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
贾永婕发文还原大S临终场面吴佩慈目睹抢救过程大S生前已有预感

贾永婕发文还原大S临终场面吴佩慈目睹抢救过程大S生前已有预感

可乐谈情感
2026-02-26 07:46:30
冲上热搜!刘强东回应造游艇:我们家100多年都是船民,当船长是儿时梦想;已接到5条大型游艇订单,每艘平均卖6000万欧元

冲上热搜!刘强东回应造游艇:我们家100多年都是船民,当船长是儿时梦想;已接到5条大型游艇订单,每艘平均卖6000万欧元

每日经济新闻
2026-02-25 19:31:58
荷兰没回头路了!中国子公司宣布:正式换国内供应商,不再合作!

荷兰没回头路了!中国子公司宣布:正式换国内供应商,不再合作!

生活新鲜市
2026-02-25 18:47:22
120抵达40分钟后病人才上救护车,老人抢救无效死亡急救中心被判赔17万余元 急救搬抬如何破局?|红星深度

120抵达40分钟后病人才上救护车,老人抢救无效死亡急救中心被判赔17万余元 急救搬抬如何破局?|红星深度

红星新闻
2026-02-25 21:05:18
187cm已塌房男演员,试图复出无望,结果又有新“瓜”?

187cm已塌房男演员,试图复出无望,结果又有新“瓜”?

有仁有娱
2026-02-24 23:36:53
贾浅浅《开花》被获得全国诗歌一等奖的诗,写出了女性的原始欲

贾浅浅《开花》被获得全国诗歌一等奖的诗,写出了女性的原始欲

读睡
2026-02-20 16:29:43
28岁北京独子王荻娶50岁德国妻子,宁断香火也要成婚,现状太意外

28岁北京独子王荻娶50岁德国妻子,宁断香火也要成婚,现状太意外

谈史论天地
2026-02-25 06:53:06
威尔士公开赛16强出炉附赛程,张安达vs希金斯,8强中国有望占4席

威尔士公开赛16强出炉附赛程,张安达vs希金斯,8强中国有望占4席

小火箭爱体育
2026-02-26 09:05:55
笑喷了!汪大爷能屈能伸,积极配合张兰,小孙孙出生详情曝光

笑喷了!汪大爷能屈能伸,积极配合张兰,小孙孙出生详情曝光

小娱乐悠悠
2026-02-26 08:00:55
人到中年,真的要感谢单位“不重用”之恩!

人到中年,真的要感谢单位“不重用”之恩!

侃故事的阿庆
2026-02-26 10:12:33
皇太极的变态嗜好:把妻子赏给下人,坐月子、儿子为王皆不能幸免

皇太极的变态嗜好:把妻子赏给下人,坐月子、儿子为王皆不能幸免

老谢谈史
2026-02-26 02:06:26
火箭大胜!杜兰特21+4+5,赛后老范抱住德罗赞,小谢接受采访

火箭大胜!杜兰特21+4+5,赛后老范抱住德罗赞,小谢接受采访

担酒
2026-02-26 11:21:36
都说不去日本,春节赴日的却是这群人!日媒暗访揭开真相

都说不去日本,春节赴日的却是这群人!日媒暗访揭开真相

壹知眠羊
2026-02-25 22:18:18
王力宏现身比亚迪深圳坪山总部 副总裁李柯及核心高管亲自接待

王力宏现身比亚迪深圳坪山总部 副总裁李柯及核心高管亲自接待

快科技
2026-02-26 09:45:06
财政压力的下半场:退休人员占比近四成,才是硬账

财政压力的下半场:退休人员占比近四成,才是硬账

超先声
2026-01-09 16:45:39
Tesla特斯拉(春招)招聘公告!

Tesla特斯拉(春招)招聘公告!

实习僧
2026-02-25 14:40:30
长沙市重大项目集中签约开工,总投资额超260亿元

长沙市重大项目集中签约开工,总投资额超260亿元

界面新闻
2026-02-26 09:37:06
果然不简单:中国摁住日本后,又让美国见识了北京的“阳谋”

果然不简单:中国摁住日本后,又让美国见识了北京的“阳谋”

花小猫的美食日常
2026-02-26 06:51:35
越秀236亿跑马场地块定局 谁在为广州顶奢商业买单?

越秀236亿跑马场地块定局 谁在为广州顶奢商业买单?

观点机构
2026-02-26 03:34:10
这个世界上最搞不懂的,就是尼格买提的父母了

这个世界上最搞不懂的,就是尼格买提的父母了

百态人间
2026-02-24 15:44:11
2026-02-26 13:23:00
硅基观察Pro incentive-icons
硅基观察Pro
人工智能新时代的商业智库和价值灯塔
842文章数 58关注度
往期回顾 全部

科技要闻

单季营收681亿净利429亿!英伟达再次炸裂

头条要闻

特朗普自诩开启美国"黄金时代" 遭美媒集体"打脸"

头条要闻

特朗普自诩开启美国"黄金时代" 遭美媒集体"打脸"

体育要闻

从排球少女到冰壶女神,她在米兰冬奥练出6块腹肌

娱乐要闻

尼格买提撒贝宁滑雪被偶遇 17年老友情

财经要闻

短剧市场风云突变!有人投百万赔得精光

汽车要闻

第五代宏光MINIEV焕新 四门玩趣代步车来袭

态度原创

游戏
时尚
数码
本地
公开课

新品节DEMO试玩报告

伦敦时装周|2026秋冬流行趋势早知道

数码要闻

消息称苹果入门MacBook起售价699美元,不支持原彩显示与快充

本地新闻

津南好·四时总相宜

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版