网易首页 > 网易号 > 正文 申请入驻

真正的人工智能代理与实际的工作

0
分享至

以人为本的工作模式与无限PPT之间的竞争

作者:Ethan Mollick 2025年9月30日

人工智能已悄然跨越一道门槛:如今它们能完成真正具有经济价值的实际工作。

此前,OpenAI发布了一项新的人工智能能力测试。与以往围绕数学或常识构建的基准测试不同,此次测试中,OpenAI召集了平均拥有14年行业经验的专家——他们的领域涵盖金融、法律、零售等。这些专家设计了一系列贴近实际的任务,这些任务人类专家平均需要4到7个小时才能完成。随后,OpenAI让AI和人类专家分别完成这些任务。另有一组专家对结果进行评分,且他们并不知道哪些答案来自人工智能、哪些来自人类,每个问题的评分过程约耗时 1 小时。

人类专家最终胜出,但优势微弱,且不同行业的胜负差异也很大。不过,人工智能的进步速度极快,较新的人工智能模型得分远高于旧模型。有趣的是,人工智能输给人类的主要原因并非幻觉或错误,而是结果格式不规范、未严格遵循指令——而这些领域正是人工智能进步迅速的方向。若当前趋势持续,下一代人工智能模型在该测试中平均得分有望超过人类专家。这是否意味着人工智能已准备好取代人类工作?

答案是否定的(至少短期内不会),因为该测试衡量的是“任务”,而非“工作”。我们的工作由多项任务构成。以我作为教授的工作为例,它并非单一事项,而是涵盖教学、研究、写作、填写年度报告、辅导学生、阅读、行政事务等多个方面。人工智能完成其中一项或多项任务,并不会取代我整个工作,而是改变我的工作内容。只要人工智能的能力仍存在短板,无法替代人类互动中的所有复杂工作,它就难以整体取代人类的工作……

一项极具价值的任务

……但即便如此,人工智能目前能完成的部分任务已具备极高价值。不妨以我工作中的关键环节为例:开展精准的研究工作。正如许多人所知,学术界存在 “可复现性危机”——部分重要研究成果,其他研究者无法复现。学术界在解决这一问题上已取得一定进展,如今许多研究者会公开数据,方便其他学者复现自己的研究。但问题在于,复现研究需耗费大量时间:研究者需深入阅读并理解论文、分析数据、细致检查错误 ¹,这一复杂过程此前只有人类能够完成。

而现在,情况已发生改变。

我将一篇涉及多项实验的复杂经济学论文文本,以及完整的研究复现数据集,输入新版 Claude Sonnet 4.5(我拥有该模型的提前使用权)。除了上传文件并给出指令外,我未进行任何额外操作。指令内容为:“根据上传的数据集复现该论文中的研究结果,需独立完成;若无法完整复现,可尽力完成力所能及的部分”。由于论文涉及复杂统计分析,我还补充了要求:“能否尽可能完整复现所有统计过程?”

在无需进一步指令的情况下,Claude完成了一系列操作:阅读论文、打开数据集文件并整理、将统计代码从一种语言(STATA)转换为另一种语言(Python)、系统梳理所有研究结果,最终报告成功复现研究结论。我抽样核查了结果,并让另一款人工智能模型 GPT-5 Pro再次复现该研究,结果均无误。我还在其他多篇论文上进行了尝试,均取得了类似的良好效果,仅部分论文因文件大小限制或复现数据本身存在问题,未能成功复现。若手动完成这些工作,需耗费数小时。

但这一过程的革命性意义,并非仅在于节省时间。更重要的是,曾震动多个学术领域的 “可复现性危机”,本可通过研究复现部分解决,但此前这需要人类投入大量细致且高昂的精力,难以大规模推进。如今,人工智能似乎可对大量已发表论文进行核查、复现研究结果,这将对整个科学研究领域产生深远影响。尽管目前仍存在障碍——如准确性与公平性基准的建立,但大规模复现研究已成为现实可能。研究复现或许只是人工智能能完成的一项“任务”,而非“工作”,但它极有可能彻底改变人类的整个研究领域。是什么让这一切成为可能?答案是:人工智能代理的能力已迅速大幅提升。

核心在于智能体

自初代ChatGPT问世以来,生成式人工智能已帮助人们完成了大量任务,但始终存在一个局限:需人类用户主导。人工智能会犯错,若没有人类在每一步进行指导,就无法完成有价值的工作。人们曾认为,“自主人工智能智能体”的愿景遥不可及——这类智能体在接收任务后,能自主规划、使用工具(如编程、网络搜索)完成任务。毕竟,人工智能存在犯错可能,而智能体完成任务需经历一连串步骤,只要其中一步出错,整体任务就会失败。

但实际情况并非如此,另一篇新论文解释了背后的原因。事实证明,我们对人工智能智能体的多数假设都是错误的。即便人工智能的准确性仅小幅提升(而新模型的出错概率已大幅降低),也会使其可完成的任务数量大幅增加。此外,最新、最先进的“具备思考能力”的模型,实际上能自我修正,不会因单次错误而停滞。这些因素共同作用,使得人工智能代理可完成的步骤远超以往,且无需人类大量干预就能使用工具——基本上,只要是计算机能完成的操作,它都能借助工具实现。

值得关注的是,在过去几年涵盖从GPT-3到GPT-5等全系列人工智能模型的能力衡量标准中,METR测试是少数之一。该测试要求人工智能的准确率至少达到 50%。过去五年间,从GPT-3到GPT-5,模型在该测试中的得分呈稳定指数级增长,这体现出智能体工作能力的持续提升。



如何利用人工智能创造经济价值

然而,从人类对“能动性”的定义来看,人工智能代理并不具备真正的能动性。目前,我们仍需决定如何使用它们,而这一选择将在很大程度上决定未来的工作形态。所有人关注的风险,是人工智能取代人类劳动力——不难预见,未来几年这将成为核心问题,尤其对于那些缺乏创新、只关注成本削减,而非利用这些新能力拓展或变革工作模式的机构而言。但在工作场景中使用人工智能,还存在第二个极有可能出现的风险:不假思索地用代理完成更多现有任务。

为预判这一潜在问题,我曾将一份公司备忘录输入Claude,要求它将其转化为PPT,随后又要求从不同角度再制作一份,接着再制作一份……

最终,我得到了17份不同的PPT。显然,这已经过多了。

如果我们不深入思考“为何要开展这项工作”“理想的工作模式应是什么样”,所有人都将被海量人工智能生成的内容淹没。

那么,替代方案是什么?OpenAI的论文提出:专家可与人工智能协作解决问题——先将任务委派给人工智能完成初步版本,再审核其成果。若成果不理想,可尝试多次修正或提供更清晰的指令;若仍无改善,则由人类亲自完成任务。论文估算,若专家遵循这一工作流程,完成工作的速度将提升40%,成本降低 60%,更重要的是,人类能始终掌控人工智能的工作方向。

人工智能代理现已问世。它们能完成实际工作,尽管能力仍有限,但已具备价值且在不断提升。然而,这款能在几分钟内复现学术论文的技术,也能生成17份无人需要的PPT。这两种未来的差异,并非源于人工智能本身,而在于我们选择如何使用它。通过理性判断 “哪些工作值得做”,而非仅关注“哪些工作能做到”,我们才能确保这些工具提升的是我们的能力,而非仅仅是效率。

¹ 在不同研究领域,“复现(replicating)” 与 “重现(reproducing)” 的定义存在差异:前者可能涉及收集新数据,后者则可能使用现有数据。本文未深入探讨这些区别,但在此次实验中,人工智能不仅使用了现有数据,还对这些数据应用了新的统计方法。

本文编译自substack,原文作者Ethan Mollick

https://www.oneusefulthing.org/p/real-ai-agents-and-real-work

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
同时聊300个“老头”,能月入两三万?专挑8090后下手,批量收割

同时聊300个“老头”,能月入两三万?专挑8090后下手,批量收割

米果说识
2026-04-19 22:20:16
5月1日起,银行有10-50万存款的人,这5个消息别错过!

5月1日起,银行有10-50万存款的人,这5个消息别错过!

老特有话说
2026-04-27 17:40:16
你永远骂不醒一个沉迷手机的孩子!想要彻底解决手机问题,最重要的不是断网、砸手机,而是这5件事!

你永远骂不醒一个沉迷手机的孩子!想要彻底解决手机问题,最重要的不是断网、砸手机,而是这5件事!

青春期父母成长学堂
2026-04-27 06:06:25
055大驱直接发射鹰击-20,当着七国的面开火,解放军反制稳控南海

055大驱直接发射鹰击-20,当着七国的面开火,解放军反制稳控南海

策前论
2026-04-27 19:31:37
悲催!杭州一女子嫌国企丈夫没本事,携42万存款离婚,鸡飞蛋打了

悲催!杭州一女子嫌国企丈夫没本事,携42万存款离婚,鸡飞蛋打了

火山詩话
2026-04-27 06:40:09
毛主席看不清老布什的脸,把他拉到眼前说:这个年轻人能当总统

毛主席看不清老布什的脸,把他拉到眼前说:这个年轻人能当总统

大江
2026-04-28 11:02:26
太阳季后赛惨遭横扫!活塞引进布克的交易大门正式敞开

太阳季后赛惨遭横扫!活塞引进布克的交易大门正式敞开

夜白侃球
2026-04-28 14:05:01
民进党,极有可能在下一届台湾地区选举后,成为长期一家独大政党

民进党,极有可能在下一届台湾地区选举后,成为长期一家独大政党

李橑在北漂
2026-04-02 10:22:26
不可接受!马克西曝保罗·乔治中场罕见开口:这样不可能赢球

不可接受!马克西曝保罗·乔治中场罕见开口:这样不可能赢球

体育妞世界
2026-04-28 00:45:03
网约车之王栽了 广汽埃安多款车型3年就漏液鼓包

网约车之王栽了 广汽埃安多款车型3年就漏液鼓包

生活魔术专家
2026-04-27 18:26:57
电商平台能买到的丁二醇,被指控为毒品直接前体,淘宝、拼多多已搜索不到

电商平台能买到的丁二醇,被指控为毒品直接前体,淘宝、拼多多已搜索不到

红星新闻
2026-04-28 13:23:23
19岁男孩喝百草枯苦熬18天,逼在外打工母亲回家,母亲:你放心去

19岁男孩喝百草枯苦熬18天,逼在外打工母亲回家,母亲:你放心去

哄动一时啊
2026-03-15 11:29:43
G5森林狼113-125掘金 球员评价:3人优秀,3人及格,4人低迷

G5森林狼113-125掘金 球员评价:3人优秀,3人及格,4人低迷

篮球资讯达人
2026-04-28 14:28:02
三大舰队已无法满足需求?一旦组建第四舰队,驻地在哪最为精妙?

三大舰队已无法满足需求?一旦组建第四舰队,驻地在哪最为精妙?

混沌录
2026-04-05 16:12:05
美官员:特朗普不满伊朗新提案,核问题须优先解决

美官员:特朗普不满伊朗新提案,核问题须优先解决

界面新闻
2026-04-28 09:18:30
“全班妈妈,就你最丑”,妈妈开家长会被儿子嫌弃,网友一语中的

“全班妈妈,就你最丑”,妈妈开家长会被儿子嫌弃,网友一语中的

妍妍教育日记
2026-04-27 12:35:03
朱元璋灭元之后,针对遗留下的数十万蒙古女子,处理方式十分高明

朱元璋灭元之后,针对遗留下的数十万蒙古女子,处理方式十分高明

大运河时空
2026-04-28 09:30:03
北影节圆满落幕:三大惊喜、两大遗憾、宋佳落选,吴彦姝赢麻了

北影节圆满落幕:三大惊喜、两大遗憾、宋佳落选,吴彦姝赢麻了

八斗小先生
2026-04-27 16:22:44
上海地铁抢座反转:两人都有座位,目击者曝料细节,果然不简单

上海地铁抢座反转:两人都有座位,目击者曝料细节,果然不简单

超喜欢我
2026-04-27 12:41:17
1.7米、36℃体温!全球首个“真人级”少女AI问世,硅基时代来了?

1.7米、36℃体温!全球首个“真人级”少女AI问世,硅基时代来了?

科学认识论
2026-04-27 14:56:41
2026-04-28 15:03:00
Trend求索
Trend求索
大趋势深刻求索
81文章数 16关注度
往期回顾 全部

科技要闻

10亿周活目标落空!传OpenAI爆发内部分歧

头条要闻

辞任杭州市市长后 姚高员已任浙江省政府党组成员

头条要闻

辞任杭州市市长后 姚高员已任浙江省政府党组成员

体育要闻

季后赛最新局势:雷霆4-0晋级首队 4队3-1

娱乐要闻

蔡卓妍官宣结婚,老公比她小10岁

财经要闻

俞敏洪再遭重击

汽车要闻

拒绝疯狂套娃!现代艾尼氪金星长在未来审美点上

态度原创

旅游
亲子
家居
本地
公开课

旅游要闻

画美达尼青岛市乡村振兴片区丨五一必看!画美达尼最全游玩指南

亲子要闻

47岁卵巢功能衰退正常吗?高龄备孕吃什么卵子质量更好?

家居要闻

江景风格 流动的秩序

本地新闻

用青花瓷的方式,打开西溪湿地

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版