网易首页 > 网易号 > 正文 申请入驻

糟糕!最强智能体抢走了1.2%人类远程工作报酬

0
分享至

人类为AI到底会不会抢走工作操碎了心。被AI取代,与投入巨资却无法提升生产力同样糟糕。各类大模型与智能体的评估,正从纸面上的智商竞赛,转向对的直接测验。这有助于人类面对“生存还是毁灭”时,尽可能地端正自己的位置。

从数据标注巨头 Scale AI 的最新报告来看,那些可以居家完成、端到端交付的远程任务,即便由当下最强大的智能体执行,也只有2.5%能达到客户可接受的标准;它们的经济价值更低,智能体从中获得的报酬至多占1.2%。但是,按照智库METR的“”,到了明年底,也许最强智能体就有望完成一半的远程工作了。

AI被人为地赋予了提升生产力的使命。但“AI能干什么”,并不完整对应着“AI能被市场承认的劳动”。Scale AI想研究的正是,客户究竟愿不愿意为智能体的劳动付费。

该研究提出了智能体(或具备智能体能力的大模型)远程工作指数(RLI)的评估标准。所谓远程工作,往往是某些可以独立完成的任务,可以委托、交付、验证的知识劳动单元,而不是抽象的工作岗位职责。这对于围绕业务的真实指标(准确率、延迟、幻觉率、客户满意度等)展开具备现实意义。

尽管如此,这些远程工作本身,也可以是从人类员工或团队的完整工作流程中拆分出来的——这又为智能体持续地嵌入生产系统和反馈循环创造了条件——这时候为此“买单”的就是智能体的人类合作伙伴了。

智能体的远程工作指数,核心就在于它的“自动化率”(automation rate)。它指的是,智能体提交的任务,最终被客户认可付费的任务数量,在所有选定任务中的占比。这些智能体完成的任务,可以是超越对照组的人类员工提交的结果,也可以是符合客户心理预期的结果。满足上述任意一项,即可视为完成任务。

Scale AI选定的任务,来自全球最大远程自由职业平台Upwork。研究团队从64个二级分类(subcategories) 中筛选出23个“可端到端独立完成”类别,涵盖了设计、运营、营销、行政、数据/商业智能、音频/视频制作以及其他类别,共240个项目。

这些项目还附有人工交付成果的“黄金标准”,以及人类完成上述任务花费的时间与获得的报酬。人类完成所有这些任务,需要约6000个小时,获得14.4万美元的报酬;其中,单个任务中位劳动时间11个小时,中位劳动报酬200美元。

结果,在所有这些任务中,即使最领先的智能体,能够让客户心甘情愿付费的,也就其中的2.5%。它就是今年出尽风头的“通用智能体”Manus。其他前沿模型GPT-5、Sonnet 4.5与Grok 4还没它能打。


失败的任务,各有各的难处。约45%是因为“质量差”,还有35%是因为“不完整”,以及15%因为“不一致”。而那些成功的任务,往往集中在更为“宽松”的创意类项目,尤其是音频(例如为复古游戏创建音效、分离人声和伴奏、为旁白添加背景音乐)和图像(例如广告和Logo设计)相关的工作,以及写作和数据检索/网络抓取。

如果用“经济价值”来衡量,智能体的表现就更差了。最强的Manus,完成这2.5%的任务,总共获得了1720美元的报酬,占所有潜在总报酬的1.2%;剩下的几个模型或智能体,甚至都离1%都还远着。

这倒侧面证明了最新披露的一组token数据。

这家每月消耗1300万亿token的硅谷巨头,自有模型Gemini通过API每分钟消耗约70亿个token,折合每月约300亿,相当于企业调用仅占不到25%,绝大多数token都被谷歌自身庞大的搜索、视频与广告等业务消耗了。目前能高效、规模兑现token价值的,仍然是硅谷巨头主导的消费者市场。

目前,全年消耗万亿token的“需求大户”,也仅150家,差不多每家每年在token上花费百万美元左右。这意味着“企业AI”为谷歌云贡献了0.3%的收入。它们也许已经通过了技术验证,正在不断尝试与大模型与智能体磨合,验证工作流程与商业模式。


可见,AI应用在企业服务领域的爆发,尚需时日。尽管OpenAI最早分析了人类工作的GPT暴露风险,今年又发布了经济价值评估框架GDPval;Anthropic多次更新了自己的经济指数(AEI)。但从这两家AI巨头最近的用户使用报告来看,企业AI渗透率的扩展,确实仍然存在“鸿沟”。

OpenAI发现,ChatGPT用户超过70%的对话与工作无关。而在与工作有关的活动中,获取信息(19.3%)、解释信息含义(13.1%)、记录信息(12.8%)占比最高,其次是提供咨询与建议(9.2%)、创造性思考(9.1%)和决策解决问题(8.5%)。

就连更擅长企业服务的Anthropic也遇到了问题。它发现,旗下Claude API任务的使用分布(usage distribution),呈现了非常明显的“幂律分布”。即,将近50%的API使用量,映射到了计算机和数学任务,而靠后80%的任务,只占了10%的使用量。

也就是说,在面对现实工作任务时,AI与智能体还不够“通用”。OpenAI和Anthropic,采用的工作分类都是传统的O*NET分类(美国劳工部的职业数据库),这也意味着它们所谓的“使用”,往往并不意味着让智能体端到端地替代人类员工。

它当然仍然有用,但无法真实反映生产力层面的提升。事实上,美国METR研究所分析开发者的实际工作产出时,发现使用AI的开发者完成任务的速度,竟比不使用AI时慢了20%。

Claude Sonnet 4.5刚出来的时候,Anthropic就宣称它能连续专注工作超30小时。但是,很快就被智库METR打了脸。该机构测评发现,它实际能以50%成功率完成的任务,相当于1小时53分钟的人类任务的水平,不及今年8月发布的GPT-5的2小时15分钟。


这也解释了为什么在Scale AI的远程任务指数中,大模型的表现往往不佳;因为有经济价值的独立任务,即使中位时间也达到了11个小时。

不过,按每7个月翻一番的“智能体摩尔定律”,那一天不会太久。理论上,差不多16个月后,也就是明年底,最强大的智能体,就可以抢走一半不需要互动与协作的人类远程工作了。

参考:

https://scale.com/research/rli

https://www.anthropic.com/economic-index

https://openai.com/index/how-people-are-using-chatgpt/

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
退休后才发现,同学、朋友不过是人生过客,最重要的,只有你自己

退休后才发现,同学、朋友不过是人生过客,最重要的,只有你自己

诗词中国
2025-10-31 18:11:04
A股:不必等明天周二开盘了,行情太不对劲,不出意外会这么走!

A股:不必等明天周二开盘了,行情太不对劲,不出意外会这么走!

财经大拿
2025-11-03 11:47:49
世界突然醒悟,中国打越南时的军事实力就是世界的顶流了!

世界突然醒悟,中国打越南时的军事实力就是世界的顶流了!

百态人间
2025-11-03 16:34:06
陈赓曾3次入朝,战后美军直言:他根本就不是来打仗的,为何?

陈赓曾3次入朝,战后美军直言:他根本就不是来打仗的,为何?

丞丞故事汇
2025-10-29 13:40:49
灰色运动内衣搭浅蓝色瑜伽裤,清新时尚有美感,这身穿搭太吸睛

灰色运动内衣搭浅蓝色瑜伽裤,清新时尚有美感,这身穿搭太吸睛

小乔古装汉服
2025-11-02 17:30:25
涉嫌严重违纪违法,蒙坤伟被查

涉嫌严重违纪违法,蒙坤伟被查

政知新媒体
2025-11-02 20:04:33
郑丽文公布第四波人事任命,朱立伦尴尬了,洪秀柱罕见喊话郑丽文

郑丽文公布第四波人事任命,朱立伦尴尬了,洪秀柱罕见喊话郑丽文

苏曼文史
2025-11-03 18:05:42
生死一战!广州豹末轮赢球=冲超?57分奇迹只待主场猎杀

生死一战!广州豹末轮赢球=冲超?57分奇迹只待主场猎杀

中山印象体育摄影师
2025-11-03 13:34:50
2025年了,你还一天只吃一个鸡蛋?

2025年了,你还一天只吃一个鸡蛋?

小红花测评
2025-11-01 12:14:03
2026年度北京普惠健康保正式启动上线 保费195元不变,累计保额升级至350万

2026年度北京普惠健康保正式启动上线 保费195元不变,累计保额升级至350万

东方网银保频道
2025-11-03 16:10:13
坚持300万欧年薪,西亚球队开价不菲,瓦科续约泰山基本没戏

坚持300万欧年薪,西亚球队开价不菲,瓦科续约泰山基本没戏

姜大叔侃球
2025-11-03 16:05:38
37岁大学博导走了,不是死于疾病,不是死于贫穷,也不是死于岁月

37岁大学博导走了,不是死于疾病,不是死于贫穷,也不是死于岁月

鬼菜生活
2025-11-01 07:33:38
印度发射 4 吨多通信卫星,创本土发射纪录,这技术到底有多牛?

印度发射 4 吨多通信卫星,创本土发射纪录,这技术到底有多牛?

乐天闲聊
2025-11-03 16:06:44
央八首播!30集谍战大作,仅播出3天,热度收视率全面开花

央八首播!30集谍战大作,仅播出3天,热度收视率全面开花

乐枫电影
2025-11-02 14:50:03
伊朗总统: 伊朗将以更大力度 重建核设施

伊朗总统: 伊朗将以更大力度 重建核设施

每日经济新闻
2025-11-03 09:08:26
97年未婚妻特招入伍要求解除婚约,我升任参谋长,15年与她再次相遇

97年未婚妻特招入伍要求解除婚约,我升任参谋长,15年与她再次相遇

温情邮局
2025-10-27 14:45:28
又降了!26考研报考人数再创新低

又降了!26考研报考人数再创新低

前沿天地
2025-11-03 15:55:50
曼联哭晕?2200万卖掉GOAT!37分钟两轰世界波+助攻,获10分满分

曼联哭晕?2200万卖掉GOAT!37分钟两轰世界波+助攻,获10分满分

我爱英超
2025-11-03 07:04:59
郑智化感谢“封杀”,称本想用“屁滚尿流”,自曝3天后注销微博

郑智化感谢“封杀”,称本想用“屁滚尿流”,自曝3天后注销微博

暖心萌阿菇凉
2025-11-02 11:31:29
致歉!闭店!石家庄又一知名超市即将停止营业!

致歉!闭店!石家庄又一知名超市即将停止营业!

新牛城
2025-11-03 14:30:56
2025-11-03 19:24:49
未尽研究 incentive-icons
未尽研究
新能源、人工智能、合成生物、地缘X
232文章数 52关注度
往期回顾 全部

科技要闻

余承东内部信:鸿蒙下一步要实现上亿覆盖

头条要闻

17岁男生提供电话卡给网诈团伙被判8个月 称获利997元

头条要闻

17岁男生提供电话卡给网诈团伙被判8个月 称获利997元

体育要闻

开拓者官宣召回杨瀚森 队记解析核心原因

娱乐要闻

男导演曝丑闻 蒋欣的含金量还在上升

财经要闻

最新省市GDP:谁在飙升,谁掉队了?

汽车要闻

超跑同款磁流变减振 深蓝L06包你开得爽

态度原创

数码
健康
艺术
手机
时尚

数码要闻

DDR5超频世界记录刷新!成功达成13034MT/s

超声探头会加重受伤情况吗?

艺术要闻

90后跨国夫妻,到浙江山居:花20万租20年,值了!

手机要闻

ColorOS 16正式版11月升级机型公布:OPPO Find X7/N3系列、一加Ace 5系列等23款

秋季穿衣别太老气横秋,看看这27套造型,时尚舒适又显高

无障碍浏览 进入关怀版