Anthropic如何测评AI在就业市场中的"理论能力"？|代码|anthropic

Anthropic如何测评AI在就业市场中的"理论能力"？

2026-04-01 22:13:04　来源: 至顶AI实验室

北京举报

分享至

如果你关注AI对经济影响的持续讨论，你可能见过本月流传的一张图表。这张图来自Anthropic关于AI劳动力市场影响的报告，用于比较当前大语言模型对各职业的"观察暴露度"（红色）和相同大语言模型的"理论能力"（蓝色）在22个职业类别中的表现。

虽然当前的"观察暴露度"区域本身就很有趣，但真正引人注目的是蓝色的"理论能力"部分。乍看之下，这张图表暗示基于大语言模型的系统至少在理论上能够完成各种人类职业中80%的个人"工作任务"，涵盖范围令人震惊。看起来Anthropic预测大语言模型最终将能够完成从"艺术与媒体"、"办公与行政"到"法律、商业与金融"，甚至"管理"等广泛类别中的绝大多数工作。

这个"理论AI覆盖"区域似乎注定要吞噬美国就业市场的大片领域！

然而，深入了解这些"理论能力"数字的基础，会呈现出AI未来职业影响的一个远没那么可怕的图景。当你深入具体细节时，那片蓝色区域代表的是一些过时且高度投机的有根据猜测，关于AI可能在哪些方面提高人类生产力，而不一定是它将在哪些方面完全取代人类。

2023年能买到的最佳AI

Anthropic在此引用的大语言模型"理论能力"基准并非基于该公司对其当前模型的实证测试，也不是基于性能提升的量化预测。相反，Anthropic引用了2023年8月的一份报告，题为《GPT就是GPT：大语言模型劳动力市场影响潜力的早期观察》，由OpenAI、OpenResearch和宾夕法尼亚大学的研究人员共同撰写。

研究人员从O*NET的详细工作活动报告开始，这些报告以极其细致的层面分解了许多工作涉及的个人任务。然后他们使用人工标注和GPT-4辅助标记的混合方式，判断当时"最强大的OpenAI大语言模型"是否能够在"同等质量"下将完成该个人任务所需的时间减少至少50%。如果不能，他们还会判断获得"预期的大语言模型驱动软件"是否可能在未来实现类似的时间节省。

关键的是，为这项标记工作咨询的人类并不是实际从事这些工作的人，甚至不是熟悉这些工作的人。相反，他们是熟悉2023年AI技术发展现状的人，被要求对大语言模型和未来大语言模型驱动软件最有用的领域做出广泛猜测。

研究人员承认，由于人类标注者"大多不了解被评估的具体职业"，"标记的主观性"构成了"我们方法的根本局限性"。标记结果显示研究人员所说的"任务和职业聚合的逻辑不清晰，以及标签中一些明显的差异"。对于创建客观看起来的AI职业影响测量来说，这些都是相当大的警告。

深入研究人员使用的详细评估准则，我们还可以看到他们对当时可能受大语言模型"直接影响"最大的职业所做的假设类型。该准则提供了大语言模型可以执行的任务类型的许多有用示例，包括：

根据复杂指令编写和转换文本和代码

按照规范对现有文本或代码进行编辑

编写代码来帮助执行过去手工完成的任务

在语言之间翻译文本

总结中等长度的文档

对文档提供反馈

回答关于文档的问题

生成用户可能想要询问文档的问题

总的来说，这是2023年大语言模型最擅长任务类型的不错清单。但仅仅因为大语言模型能够在某种程度上执行这些任务，并不一定意味着它能够以"在同等质量下将完成任务的时间减少至少一半"的方式来执行。

例如，请记住2025年的一项研究发现，使用AI的开源程序员一旦考虑到编写提示词和审查生成代码所花费的时间，比不使用AI的程序员慢19%。另外，在假设大语言模型的输出质量与人类"同等"之前，请记住大语言模型众所周知的幻觉和迎合倾向。

"预期大语言模型驱动软件"的承诺

即使对2023年时代大语言模型的工作相关能力进行如此宽泛的解读，研究人员估计当时只有约15%的所有工作相关任务能够通过大语言模型实现至少50%的效率提升。总的来说，只有约2.3%的职业看到其至少50%的O*NET任务以这种方式"暴露"给当时的大语言模型。

要达到本文开头图表中显示的更可怕数字，研究人员必须开始预测"预期大语言模型驱动软件"对各种工作的影响。

回想一下2023年8月AI行业的状况，正值OpenAI的GPT-4模型发布后不久。那个时刻可能标志着AI炒作的某种高峰。大约在这个时候，埃隆·马斯克等人因担心"失去对我们文明控制的风险"而呼吁暂停AI开发六个月，Eliezer Yudkowsky警告说，如果超人AI实体威胁地球上所有生命，我们应该愿意"通过空袭摧毁恶意数据中心"。杰弗里·辛顿离开Google，这样他就可以公开表达对AI"实际上可能比人类更聪明"并"变得无法控制"的担忧。AI幻觉对工作的高调影响刚开始获得广泛关注。

正是在这种环境下，AI专家被要求预测大语言模型驱动软件未来改变工作的能力。

Q&A

Q1：Anthropic的AI理论能力报告是基于什么数据？

A：Anthropic引用的不是自己的实证测试，而是2023年8月OpenAI、OpenResearch和宾夕法尼亚大学研究人员共同撰写的报告。该报告使用O*NET详细工作活动数据，通过人工标注和GPT-4辅助标记来判断大语言模型能否将任务完成时间减少50%。

Q2：这项研究的标注人员是谁？准确性如何？

A：标注人员并非实际从事被评估工作的人，而是熟悉2023年AI技术现状的专家。研究人员承认，由于标注者"大多不了解被评估的具体职业"，标记的主观性构成了方法的根本局限性，结果显示逻辑不清晰和标签差异。

Q3：为什么研究结果显示AI能影响80%的工作任务？

A：这个高比例来自对"预期大语言模型驱动软件"未来能力的投机性预测。仅基于2023年实际大语言模型能力，研究估计只有15%的工作任务能提升50%效率，只有2.3%的职业有50%以上任务受到影响。高比例数字依赖于对未来AI软件的猜测。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.