糟糕！最强智能体抢走了1.2%人类远程工作报酬|摩尔|token|openai

糟糕！最强智能体抢走了1.2%人类远程工作报酬

2025-10-31 23:41:05　来源: 未尽研究

上海举报

分享至

人类为AI到底会不会抢走工作操碎了心。被AI取代，与投入巨资却无法提升生产力同样糟糕。各类大模型与智能体的评估，正从纸面上的智商竞赛，转向对的直接测验。这有助于人类面对“生存还是毁灭”时，尽可能地端正自己的位置。

从数据标注巨头 Scale AI 的最新报告来看，那些可以居家完成、端到端交付的远程任务，即便由当下最强大的智能体执行，也只有2.5%能达到客户可接受的标准；它们的经济价值更低，智能体从中获得的报酬至多占1.2%。但是，按照智库METR的“”，到了明年底，也许最强智能体就有望完成一半的远程工作了。

AI被人为地赋予了提升生产力的使命。但“AI能干什么”，并不完整对应着“AI能被市场承认的劳动”。Scale AI想研究的正是，客户究竟愿不愿意为智能体的劳动付费。

该研究提出了智能体（或具备智能体能力的大模型）远程工作指数（RLI）的评估标准。所谓远程工作，往往是某些可以独立完成的任务，可以委托、交付、验证的知识劳动单元，而不是抽象的工作岗位职责。这对于围绕业务的真实指标（准确率、延迟、幻觉率、客户满意度等）展开具备现实意义。

尽管如此，这些远程工作本身，也可以是从人类员工或团队的完整工作流程中拆分出来的——这又为智能体持续地嵌入生产系统和反馈循环创造了条件——这时候为此“买单”的就是智能体的人类合作伙伴了。

智能体的远程工作指数，核心就在于它的“自动化率”（automation rate）。它指的是，智能体提交的任务，最终被客户认可付费的任务数量，在所有选定任务中的占比。这些智能体完成的任务，可以是超越对照组的人类员工提交的结果，也可以是符合客户心理预期的结果。满足上述任意一项，即可视为完成任务。

Scale AI选定的任务，来自全球最大远程自由职业平台Upwork。研究团队从64个二级分类（subcategories）中筛选出23个“可端到端独立完成”类别，涵盖了设计、运营、营销、行政、数据/商业智能、音频/视频制作以及其他类别，共240个项目。

这些项目还附有人工交付成果的“黄金标准”，以及人类完成上述任务花费的时间与获得的报酬。人类完成所有这些任务，需要约6000个小时，获得14.4万美元的报酬；其中，单个任务中位劳动时间11个小时，中位劳动报酬200美元。

结果，在所有这些任务中，即使最领先的智能体，能够让客户心甘情愿付费的，也就其中的2.5%。它就是今年出尽风头的“通用智能体”Manus。其他前沿模型GPT-5、Sonnet 4.5与Grok 4还没它能打。

失败的任务，各有各的难处。约45%是因为“质量差”，还有35%是因为“不完整”，以及15%因为“不一致”。而那些成功的任务，往往集中在更为“宽松”的创意类项目，尤其是音频（例如为复古游戏创建音效、分离人声和伴奏、为旁白添加背景音乐）和图像（例如广告和Logo设计）相关的工作，以及写作和数据检索/网络抓取。

如果用“经济价值”来衡量，智能体的表现就更差了。最强的Manus，完成这2.5%的任务，总共获得了1720美元的报酬，占所有潜在总报酬的1.2%；剩下的几个模型或智能体，甚至都离1%都还远着。

这倒侧面证明了最新披露的一组token数据。

这家每月消耗1300万亿token的硅谷巨头，自有模型Gemini通过API每分钟消耗约70亿个token，折合每月约300亿，相当于企业调用仅占不到25%，绝大多数token都被谷歌自身庞大的搜索、视频与广告等业务消耗了。目前能高效、规模兑现token价值的，仍然是硅谷巨头主导的消费者市场。

目前，全年消耗万亿token的“需求大户”，也仅150家，差不多每家每年在token上花费百万美元左右。这意味着“企业AI”为谷歌云贡献了0.3%的收入。它们也许已经通过了技术验证，正在不断尝试与大模型与智能体磨合，验证工作流程与商业模式。

可见，AI应用在企业服务领域的爆发，尚需时日。尽管OpenAI最早分析了人类工作的GPT暴露风险，今年又发布了经济价值评估框架GDPval；Anthropic多次更新了自己的经济指数（AEI）。但从这两家AI巨头最近的用户使用报告来看，企业AI渗透率的扩展，确实仍然存在“鸿沟”。

OpenAI发现，ChatGPT用户超过70%的对话与工作无关。而在与工作有关的活动中，获取信息（19.3%）、解释信息含义（13.1%）、记录信息（12.8%）占比最高，其次是提供咨询与建议（9.2%）、创造性思考（9.1%）和决策解决问题（8.5%）。

就连更擅长企业服务的Anthropic也遇到了问题。它发现，旗下Claude API任务的使用分布（usage distribution），呈现了非常明显的“幂律分布”。即，将近50%的API使用量，映射到了计算机和数学任务，而靠后80%的任务，只占了10%的使用量。

也就是说，在面对现实工作任务时，AI与智能体还不够“通用”。OpenAI和Anthropic，采用的工作分类都是传统的O*NET分类（美国劳工部的职业数据库），这也意味着它们所谓的“使用”，往往并不意味着让智能体端到端地替代人类员工。

它当然仍然有用，但无法真实反映生产力层面的提升。事实上，美国METR研究所分析开发者的实际工作产出时，发现使用AI的开发者完成任务的速度，竟比不使用AI时慢了20%。

Claude Sonnet 4.5刚出来的时候，Anthropic就宣称它能连续专注工作超30小时。但是，很快就被智库METR打了脸。该机构测评发现，它实际能以50%成功率完成的任务，相当于1小时53分钟的人类任务的水平，不及今年8月发布的GPT-5的2小时15分钟。

这也解释了为什么在Scale AI的远程任务指数中，大模型的表现往往不佳；因为有经济价值的独立任务，即使中位时间也达到了11个小时。

不过，按每7个月翻一番的“智能体摩尔定律”，那一天不会太久。理论上，差不多16个月后，也就是明年底，最强大的智能体，就可以抢走一半不需要互动与协作的人类远程工作了。

参考：

https://scale.com/research/rli

https://www.anthropic.com/economic-index

https://openai.com/index/how-people-are-using-chatgpt/

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.