网易首页 > 网易号 > 正文 申请入驻

Anthropic如何测评AI在就业市场中的"理论能力"?

0
分享至


如果你关注AI对经济影响的持续讨论,你可能见过本月流传的一张图表。这张图来自Anthropic关于AI劳动力市场影响的报告,用于比较当前大语言模型对各职业的"观察暴露度"(红色)和相同大语言模型的"理论能力"(蓝色)在22个职业类别中的表现。

虽然当前的"观察暴露度"区域本身就很有趣,但真正引人注目的是蓝色的"理论能力"部分。乍看之下,这张图表暗示基于大语言模型的系统至少在理论上能够完成各种人类职业中80%的个人"工作任务",涵盖范围令人震惊。看起来Anthropic预测大语言模型最终将能够完成从"艺术与媒体"、"办公与行政"到"法律、商业与金融",甚至"管理"等广泛类别中的绝大多数工作。

这个"理论AI覆盖"区域似乎注定要吞噬美国就业市场的大片领域!

然而,深入了解这些"理论能力"数字的基础,会呈现出AI未来职业影响的一个远没那么可怕的图景。当你深入具体细节时,那片蓝色区域代表的是一些过时且高度投机的有根据猜测,关于AI可能在哪些方面提高人类生产力,而不一定是它将在哪些方面完全取代人类。

2023年能买到的最佳AI

Anthropic在此引用的大语言模型"理论能力"基准并非基于该公司对其当前模型的实证测试,也不是基于性能提升的量化预测。相反,Anthropic引用了2023年8月的一份报告,题为《GPT就是GPT:大语言模型劳动力市场影响潜力的早期观察》,由OpenAI、OpenResearch和宾夕法尼亚大学的研究人员共同撰写。

研究人员从O*NET的详细工作活动报告开始,这些报告以极其细致的层面分解了许多工作涉及的个人任务。然后他们使用人工标注和GPT-4辅助标记的混合方式,判断当时"最强大的OpenAI大语言模型"是否能够在"同等质量"下将完成该个人任务所需的时间减少至少50%。如果不能,他们还会判断获得"预期的大语言模型驱动软件"是否可能在未来实现类似的时间节省。

关键的是,为这项标记工作咨询的人类并不是实际从事这些工作的人,甚至不是熟悉这些工作的人。相反,他们是熟悉2023年AI技术发展现状的人,被要求对大语言模型和未来大语言模型驱动软件最有用的领域做出广泛猜测。

研究人员承认,由于人类标注者"大多不了解被评估的具体职业","标记的主观性"构成了"我们方法的根本局限性"。标记结果显示研究人员所说的"任务和职业聚合的逻辑不清晰,以及标签中一些明显的差异"。对于创建客观看起来的AI职业影响测量来说,这些都是相当大的警告。

深入研究人员使用的详细评估准则,我们还可以看到他们对当时可能受大语言模型"直接影响"最大的职业所做的假设类型。该准则提供了大语言模型可以执行的任务类型的许多有用示例,包括:

根据复杂指令编写和转换文本和代码

按照规范对现有文本或代码进行编辑

编写代码来帮助执行过去手工完成的任务

在语言之间翻译文本

总结中等长度的文档

对文档提供反馈

回答关于文档的问题

生成用户可能想要询问文档的问题

总的来说,这是2023年大语言模型最擅长任务类型的不错清单。但仅仅因为大语言模型能够在某种程度上执行这些任务,并不一定意味着它能够以"在同等质量下将完成任务的时间减少至少一半"的方式来执行。

例如,请记住2025年的一项研究发现,使用AI的开源程序员一旦考虑到编写提示词和审查生成代码所花费的时间,比不使用AI的程序员慢19%。另外,在假设大语言模型的输出质量与人类"同等"之前,请记住大语言模型众所周知的幻觉和迎合倾向。

"预期大语言模型驱动软件"的承诺

即使对2023年时代大语言模型的工作相关能力进行如此宽泛的解读,研究人员估计当时只有约15%的所有工作相关任务能够通过大语言模型实现至少50%的效率提升。总的来说,只有约2.3%的职业看到其至少50%的O*NET任务以这种方式"暴露"给当时的大语言模型。

要达到本文开头图表中显示的更可怕数字,研究人员必须开始预测"预期大语言模型驱动软件"对各种工作的影响。

回想一下2023年8月AI行业的状况,正值OpenAI的GPT-4模型发布后不久。那个时刻可能标志着AI炒作的某种高峰。大约在这个时候,埃隆·马斯克等人因担心"失去对我们文明控制的风险"而呼吁暂停AI开发六个月,Eliezer Yudkowsky警告说,如果超人AI实体威胁地球上所有生命,我们应该愿意"通过空袭摧毁恶意数据中心"。杰弗里·辛顿离开Google,这样他就可以公开表达对AI"实际上可能比人类更聪明"并"变得无法控制"的担忧。AI幻觉对工作的高调影响刚开始获得广泛关注。

正是在这种环境下,AI专家被要求预测大语言模型驱动软件未来改变工作的能力。

Q&A

Q1:Anthropic的AI理论能力报告是基于什么数据?

A:Anthropic引用的不是自己的实证测试,而是2023年8月OpenAI、OpenResearch和宾夕法尼亚大学研究人员共同撰写的报告。该报告使用O*NET详细工作活动数据,通过人工标注和GPT-4辅助标记来判断大语言模型能否将任务完成时间减少50%。

Q2:这项研究的标注人员是谁?准确性如何?

A:标注人员并非实际从事被评估工作的人,而是熟悉2023年AI技术现状的专家。研究人员承认,由于标注者"大多不了解被评估的具体职业",标记的主观性构成了方法的根本局限性,结果显示逻辑不清晰和标签差异。

Q3:为什么研究结果显示AI能影响80%的工作任务?

A:这个高比例来自对"预期大语言模型驱动软件"未来能力的投机性预测。仅基于2023年实际大语言模型能力,研究估计只有15%的工作任务能提升50%效率,只有2.3%的职业有50%以上任务受到影响。高比例数字依赖于对未来AI软件的猜测。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
“伊斯兰堡协议”成型

“伊斯兰堡协议”成型

西楼饮月
2026-04-06 22:43:46
一个飞行员,美国为什么下这么大血本?1979年的教训,至今不敢忘

一个飞行员,美国为什么下这么大血本?1979年的教训,至今不敢忘

文史达观
2026-04-07 06:45:06
上海二胎家庭真相:不是多双筷子,是全家资源被掏空的一场硬仗

上海二胎家庭真相:不是多双筷子,是全家资源被掏空的一场硬仗

复转这些年
2026-04-07 12:25:34
美国物价爆表

美国物价爆表

第一财经资讯
2026-04-07 09:26:30
德转列中后卫身价前10:萨利巴9000万欧第1,库巴西8000万第2

德转列中后卫身价前10:萨利巴9000万欧第1,库巴西8000万第2

懂球帝
2026-04-07 10:28:06
专家:房价大局已定!未来近一半中国家庭将经历这3大“难关”

专家:房价大局已定!未来近一半中国家庭将经历这3大“难关”

林子说事
2026-04-07 17:15:38
时隔6年,那个曾扬言让中国给全世界道歉,被央视开除的阿丘怎样了

时隔6年,那个曾扬言让中国给全世界道歉,被央视开除的阿丘怎样了

阅微札记
2026-04-07 15:01:54
浙大名嘴揭开残酷真相:当年恒大倒台,压根不是因为2万亿负债!

浙大名嘴揭开残酷真相:当年恒大倒台,压根不是因为2万亿负债!

阿器谈史
2026-04-02 13:31:44
突然跳水!以色列,重大警告!

突然跳水!以色列,重大警告!

中国基金报
2026-04-07 16:28:24
看上海外婆,再看北京姥姥,我悟了:老了尽量少戴黄金、穿老年装

看上海外婆,再看北京姥姥,我悟了:老了尽量少戴黄金、穿老年装

孤傲何妨初
2026-03-03 14:35:38
CBA正在“杀死”中国男篮!6大乱象不除,我们过不了日韩这一关

CBA正在“杀死”中国男篮!6大乱象不除,我们过不了日韩这一关

蛋疼体育
2026-04-07 17:54:23
伊朗首都传出巨大密集爆炸声

伊朗首都传出巨大密集爆炸声

新华社
2026-04-08 00:10:22
张雪母亲是一名作家,发文讲述母子故事:抵押房子贷款55万帮儿子创业,张雪骑车撞人她赔了3万多

张雪母亲是一名作家,发文讲述母子故事:抵押房子贷款55万帮儿子创业,张雪骑车撞人她赔了3万多

极目新闻
2026-04-07 15:59:36
伊朗发动“真实承诺4”第99波行动,用巡航导弹打击美军“林肯”号航母,并已不再对打击目标设限;美军真能4小时炸毁伊朗发电厂和桥梁吗?

伊朗发动“真实承诺4”第99波行动,用巡航导弹打击美军“林肯”号航母,并已不再对打击目标设限;美军真能4小时炸毁伊朗发电厂和桥梁吗?

扬子晚报
2026-04-07 20:43:21
王晓蓉自曝做手术、复诊,王中磊宁愿看球赛都不陪,憋两年才说出

王晓蓉自曝做手术、复诊,王中磊宁愿看球赛都不陪,憋两年才说出

阿伧说事
2026-04-07 23:33:49
张兰生日!情绪低落发文,儿子儿媳没送祝福,只有一人记得她生日

张兰生日!情绪低落发文,儿子儿媳没送祝福,只有一人记得她生日

好贤观史记
2026-04-07 16:41:38
湖南出现历史上最荒唐法官!判男方净身出户,然后跟拿到全部资产的女方结婚

湖南出现历史上最荒唐法官!判男方净身出户,然后跟拿到全部资产的女方结婚

爆角追踪
2025-11-23 11:25:00
34分狂胜,1分险胜!西部第一伪强队诞生,申京别高兴得太早

34分狂胜,1分险胜!西部第一伪强队诞生,申京别高兴得太早

世界体育圈
2026-04-07 20:23:34
霍尔木兹受阻,俄罗斯原油价格直接翻三倍

霍尔木兹受阻,俄罗斯原油价格直接翻三倍

桂系007
2026-04-08 02:54:18
浙江东阳,33 岁的男子,在母亲长眠的公墓旁,在车里结束了生命

浙江东阳,33 岁的男子,在母亲长眠的公墓旁,在车里结束了生命

魔都姐姐杂谈
2026-03-30 19:25:57
2026-04-08 03:44:49
至顶AI实验室 incentive-icons
至顶AI实验室
一个专注于探索生成式AI前沿技术及其应用的实验室。
3040文章数 169关注度
往期回顾 全部

科技要闻

满嘴谎言!OpenAI奥特曼黑料大起底

头条要闻

特朗普:伊朗人愿为自由承受轰炸

头条要闻

特朗普:伊朗人愿为自由承受轰炸

体育要闻

斯洛特:去年我们在巴黎配得上输个0-4,比上周六踢曼城更配

娱乐要闻

女首富陈丽华离世 被曝生前已分好遗产

财经要闻

10万亿财政转移支付,被谁拿走了?

汽车要闻

不止是大 极狐首款MPV问道V9静态体验

态度原创

艺术
亲子
时尚
房产
公开课

艺术要闻

深圳最惨地王复活?70亿起拍,曾规划中国第一高楼!

亲子要闻

春天娃长个黄金期,喝对黑豆水,个子悄悄往上窜

120元和120分钟,哪个更奢侈?

房产要闻

重磅!三亚拟出安居房新政!

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版