人类为AI到底会不会抢走工作操碎了心。被AI取代,与投入巨资却无法提升生产力同样糟糕。各类大模型与智能体的评估,正从纸面上的智商竞赛,转向对的直接测验。这有助于人类面对“生存还是毁灭”时,尽可能地端正自己的位置。
从数据标注巨头 Scale AI 的最新报告来看,那些可以居家完成、端到端交付的远程任务,即便由当下最强大的智能体执行,也只有2.5%能达到客户可接受的标准;它们的经济价值更低,智能体从中获得的报酬至多占1.2%。但是,按照智库METR的“”,到了明年底,也许最强智能体就有望完成一半的远程工作了。
AI被人为地赋予了提升生产力的使命。但“AI能干什么”,并不完整对应着“AI能被市场承认的劳动”。Scale AI想研究的正是,客户究竟愿不愿意为智能体的劳动付费。
该研究提出了智能体(或具备智能体能力的大模型)远程工作指数(RLI)的评估标准。所谓远程工作,往往是某些可以独立完成的任务,可以委托、交付、验证的知识劳动单元,而不是抽象的工作岗位职责。这对于围绕业务的真实指标(准确率、延迟、幻觉率、客户满意度等)展开具备现实意义。
尽管如此,这些远程工作本身,也可以是从人类员工或团队的完整工作流程中拆分出来的——这又为智能体持续地嵌入生产系统和反馈循环创造了条件——这时候为此“买单”的就是智能体的人类合作伙伴了。
智能体的远程工作指数,核心就在于它的“自动化率”(automation rate)。它指的是,智能体提交的任务,最终被客户认可付费的任务数量,在所有选定任务中的占比。这些智能体完成的任务,可以是超越对照组的人类员工提交的结果,也可以是符合客户心理预期的结果。满足上述任意一项,即可视为完成任务。
Scale AI选定的任务,来自全球最大远程自由职业平台Upwork。研究团队从64个二级分类(subcategories) 中筛选出23个“可端到端独立完成”类别,涵盖了设计、运营、营销、行政、数据/商业智能、音频/视频制作以及其他类别,共240个项目。
这些项目还附有人工交付成果的“黄金标准”,以及人类完成上述任务花费的时间与获得的报酬。人类完成所有这些任务,需要约6000个小时,获得14.4万美元的报酬;其中,单个任务中位劳动时间11个小时,中位劳动报酬200美元。
结果,在所有这些任务中,即使最领先的智能体,能够让客户心甘情愿付费的,也就其中的2.5%。它就是今年出尽风头的“通用智能体”Manus。其他前沿模型GPT-5、Sonnet 4.5与Grok 4还没它能打。
![]()
失败的任务,各有各的难处。约45%是因为“质量差”,还有35%是因为“不完整”,以及15%因为“不一致”。而那些成功的任务,往往集中在更为“宽松”的创意类项目,尤其是音频(例如为复古游戏创建音效、分离人声和伴奏、为旁白添加背景音乐)和图像(例如广告和Logo设计)相关的工作,以及写作和数据检索/网络抓取。
如果用“经济价值”来衡量,智能体的表现就更差了。最强的Manus,完成这2.5%的任务,总共获得了1720美元的报酬,占所有潜在总报酬的1.2%;剩下的几个模型或智能体,甚至都离1%都还远着。
这倒侧面证明了最新披露的一组token数据。
这家每月消耗1300万亿token的硅谷巨头,自有模型Gemini通过API每分钟消耗约70亿个token,折合每月约300亿,相当于企业调用仅占不到25%,绝大多数token都被谷歌自身庞大的搜索、视频与广告等业务消耗了。目前能高效、规模兑现token价值的,仍然是硅谷巨头主导的消费者市场。
目前,全年消耗万亿token的“需求大户”,也仅150家,差不多每家每年在token上花费百万美元左右。这意味着“企业AI”为谷歌云贡献了0.3%的收入。它们也许已经通过了技术验证,正在不断尝试与大模型与智能体磨合,验证工作流程与商业模式。
![]()
可见,AI应用在企业服务领域的爆发,尚需时日。尽管OpenAI最早分析了人类工作的GPT暴露风险,今年又发布了经济价值评估框架GDPval;Anthropic多次更新了自己的经济指数(AEI)。但从这两家AI巨头最近的用户使用报告来看,企业AI渗透率的扩展,确实仍然存在“鸿沟”。
OpenAI发现,ChatGPT用户超过70%的对话与工作无关。而在与工作有关的活动中,获取信息(19.3%)、解释信息含义(13.1%)、记录信息(12.8%)占比最高,其次是提供咨询与建议(9.2%)、创造性思考(9.1%)和决策解决问题(8.5%)。
就连更擅长企业服务的Anthropic也遇到了问题。它发现,旗下Claude API任务的使用分布(usage distribution),呈现了非常明显的“幂律分布”。即,将近50%的API使用量,映射到了计算机和数学任务,而靠后80%的任务,只占了10%的使用量。
也就是说,在面对现实工作任务时,AI与智能体还不够“通用”。OpenAI和Anthropic,采用的工作分类都是传统的O*NET分类(美国劳工部的职业数据库),这也意味着它们所谓的“使用”,往往并不意味着让智能体端到端地替代人类员工。
它当然仍然有用,但无法真实反映生产力层面的提升。事实上,美国METR研究所分析开发者的实际工作产出时,发现使用AI的开发者完成任务的速度,竟比不使用AI时慢了20%。
Claude Sonnet 4.5刚出来的时候,Anthropic就宣称它能连续专注工作超30小时。但是,很快就被智库METR打了脸。该机构测评发现,它实际能以50%成功率完成的任务,相当于1小时53分钟的人类任务的水平,不及今年8月发布的GPT-5的2小时15分钟。
![]()
这也解释了为什么在Scale AI的远程任务指数中,大模型的表现往往不佳;因为有经济价值的独立任务,即使中位时间也达到了11个小时。
不过,按每7个月翻一番的“智能体摩尔定律”,那一天不会太久。理论上,差不多16个月后,也就是明年底,最强大的智能体,就可以抢走一半不需要互动与协作的人类远程工作了。
参考:
https://scale.com/research/rli
https://www.anthropic.com/economic-index
https://openai.com/index/how-people-are-using-chatgpt/
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.