速递｜OpenAI和Anthropic的新战场：训练AI操作企业软件，成本年飙80亿美元|人工智能|应用程序|openai|高吞吐量内核|anthropic

速递｜OpenAI和Anthropic的新战场：训练AI操作企业软件，成本年飙80亿美元

2025-09-17 11:39:13　来源: ZPotentials

北京举报

分享至

图片来源：U

nsplash

Anthropic、OpenAI 等人工智能开发公司正在让大型语言模型"上班办公"。

Anthropic计划投资10亿美元创建企业应用克隆体，OpenAI预计到2030年在数据相关成本上支出80亿美元（包括人类专家费用和训练场建设）。
Anthropic和OpenAI正在使用“强化学习环境”（模拟企业应用）训练AI模型操作各种专业软件（如Salesforce、Zendesk、Cerner），聘请领域专家（时薪最高250美元）示范任务执行。
通过训练AI成为“虚拟同事”，未来可销售能自动操作企业应用的智能体，或开发新版企业软件，开辟新的盈利渠道。

这些AI 模型正在学习使用从 Salesforce 的客户关系管理软件到 Zendesk 的客户支持系统，再到 Cerner 的医疗记录应用等各种工具。其目的是教会 AI 如何处理白领工作者所面临的一些复杂任务。

这种训练模式与AI 模型以往的任何训练都不同。研究人员为 AI 提供模拟应用程序进行交互练习，同时聘请各领域专家向模型示范如何操作这些应用。

这些技术的成本并不低廉。据一位知情人士透露，Anthropic 高管内部讨论过未来一年将斥资 10 亿美元打造这些"企业应用克隆体"——也被称为强化学习环境或训练场。

雇佣生物学、软件编程和医学等领域的人类专家来教导模型学习新知识及办公软件操作，其成本也日益攀升。

OpenAI 今年早些时候预测，计划今年在数据相关成本上支出约 10 亿美元（包括支付人类专家费用和强化学习训练场），到2030年这一数字将攀升至80亿美元。

若取得成功，这些AI 训练方法或能帮助 OpenAI 和 Anthropic 突破传统训练技术近期遭遇的部分局限。这也可能为其开辟新的盈利途径——通过销售能接管用户电脑并代其操作应用的智能体等职场软件，或利用 AI 开发流行企业应用的新版本。

Anthropic 公司 CEO 达里奥·阿莫代伊公开形容这类产品为“虚拟协作者”，旨在与人类并肩工作并使用相同的应用程序。然而，这说起来容易做起来难。

据负责图灵公司前沿数据计划的安舒尔·巴吉介绍，教导人工智能在 Salesforce 中筛选潜在客户、识别最有希望的客户并发送跟进邮件预约介绍会议，除了掌握Salesforce之外，还需要学习使用LinkedIn、Calendly和Gmail等应用程序。图灵公司致力于帮助谷歌和 Anthropic 等企业优化其模型。

他表示，为验证任务完成情况，图灵会将整体任务分解为多个小步骤，并制定评估标准来检查AI 模型是否正确执行每个步骤。

在Salesforce 的案例中，这种评分标准可能包括多个检查点，例如验证模型是否按最后联系日期筛选了 Salesforce 数据库、发送了带有 Calendly 链接的电子邮件，并将潜在客户的线索状态更新为"重新接洽"。

这类工作尚处早期阶段，但人工智能实验室似乎准备投入大量资金。Anthropic 高级研究员向至少一位投资者透露，目前该公司用于训练后优化（即初始训练后改进模型的方法）的预算中，只有不到 10%用于强化学习环境。但早期成果令人鼓舞，研究人员表示如果这种趋势持续，到明年强化学习环境的投入可能占到训练后预算的更高比例。

一个原因是聘请人类专家的成本不断攀升。Labelbox 是为 OpenAI 等 AI 开发商提供专家的几家知名公司之一，该公司在 7 月份表示，其约 20%的专家承包商时薪超过 90 美元，近 10%的专家时薪超过 120 美元。

该公司预测，未来一年半内，这两类专家的薪酬将上涨至每小时150至250美元。

“强化学习环境”

Turing公司首席执行官乔纳森·西达尔特表示，该公司已构建了1000多个强化学习训练场，包括Airbnb、Zendesk和Microsoft Excel的模拟环境。西达尔特称，公司会将这些强化学习环境连同 100 至 500 个样本任务一起出售给客户——这些任务可供 AI 模型在模拟应用中尝试，同时提供验证模型是否正确完成任务的方法。

最近几个月，Turing的竞争对手包括Scale、Surge、Mercor和Invisible Technologies也开始提供强化学习环境服务，包括配备设计应用程序任务的人类专家。同时还涌现了一批专门向大型AI开发商出售强化学习环境的新创企业。

Surge 创始人兼首席执行官陈爱文表示，OpenAI 和 Anthropic 改进模型的方法"反映了人类的学习方式"。他称强化学习训练场"就像生活在现实世界中"。

除了强化学习环境外，AI 开发者们还在持续训练模型处理精心筛选的难题解答示例，比如高难度编程竞赛题目或博士级生物学问题。这些问答对随后会被用于强化学习过程，以教授模型掌握这些领域的新技能或知识。

然而，随着人工智能模型性能的提升，数据标注公司已不再限于招聘硕士和博士在读学生，转而聘请在特定领域拥有多年经验的专业人士。例如，Turing 公司已聘请了美国国家航空航天局的数据科学家、为能源部项目工作的化学家、放射科医学住院医师以及私募股权领域的副总裁，利用特定应用程序完成实际任务，供人工智能观摩学习。

Bhagi 举例说，某 AI 开发者可能希望教会其模型理解税率假设变动如何影响 Excel 文件中贴现现金流分析的其余部分。为此，Turing 会要求其承包商解决这个 DCF 问题，最终得出可用于验证准确性的单一答案，例如股票价格。

随后，AI 开发者可以让其模型尝试同样的 DCF 任务数十次，筛选出模型计算结果与人类专家股价一致的案例，并基于这些示例进行训练，Bhagi 解释道。这种方法使模型开发者能快速获得大量正确的任务样本来训练 AI。

包括OpenAI 在内的顶尖 AI 开发者如今正寻求从医学到法律等各行各业收集类似案例。据一位知情人士透露，今年早些时候，OpenAI 一位高管私下表示，他们预计"整个经济"将演变成某种"强化学习训练场"。这意味着 AI 可能会通过记录各领域专业人士在日常设备上的工作方式进行训练。

参考资料

https://www.theinformation.com/articles/anthropic-openai-developing-ai-co-workers?rc=rpuplc

编译：ChatGPT

我们正在招募新一期的实习生

我们正在寻找有创造力的00后创业

关于Z Potentials

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.