以人为本的工作模式与无限PPT之间的竞争
作者:Ethan Mollick 2025年9月30日
人工智能已悄然跨越一道门槛:如今它们能完成真正具有经济价值的实际工作。
此前,OpenAI发布了一项新的人工智能能力测试。与以往围绕数学或常识构建的基准测试不同,此次测试中,OpenAI召集了平均拥有14年行业经验的专家——他们的领域涵盖金融、法律、零售等。这些专家设计了一系列贴近实际的任务,这些任务人类专家平均需要4到7个小时才能完成。随后,OpenAI让AI和人类专家分别完成这些任务。另有一组专家对结果进行评分,且他们并不知道哪些答案来自人工智能、哪些来自人类,每个问题的评分过程约耗时 1 小时。
人类专家最终胜出,但优势微弱,且不同行业的胜负差异也很大。不过,人工智能的进步速度极快,较新的人工智能模型得分远高于旧模型。有趣的是,人工智能输给人类的主要原因并非幻觉或错误,而是结果格式不规范、未严格遵循指令——而这些领域正是人工智能进步迅速的方向。若当前趋势持续,下一代人工智能模型在该测试中平均得分有望超过人类专家。这是否意味着人工智能已准备好取代人类工作?
答案是否定的(至少短期内不会),因为该测试衡量的是“任务”,而非“工作”。我们的工作由多项任务构成。以我作为教授的工作为例,它并非单一事项,而是涵盖教学、研究、写作、填写年度报告、辅导学生、阅读、行政事务等多个方面。人工智能完成其中一项或多项任务,并不会取代我整个工作,而是改变我的工作内容。只要人工智能的能力仍存在短板,无法替代人类互动中的所有复杂工作,它就难以整体取代人类的工作……
一项极具价值的任务
……但即便如此,人工智能目前能完成的部分任务已具备极高价值。不妨以我工作中的关键环节为例:开展精准的研究工作。正如许多人所知,学术界存在 “可复现性危机”——部分重要研究成果,其他研究者无法复现。学术界在解决这一问题上已取得一定进展,如今许多研究者会公开数据,方便其他学者复现自己的研究。但问题在于,复现研究需耗费大量时间:研究者需深入阅读并理解论文、分析数据、细致检查错误 ¹,这一复杂过程此前只有人类能够完成。
而现在,情况已发生改变。
我将一篇涉及多项实验的复杂经济学论文文本,以及完整的研究复现数据集,输入新版 Claude Sonnet 4.5(我拥有该模型的提前使用权)。除了上传文件并给出指令外,我未进行任何额外操作。指令内容为:“根据上传的数据集复现该论文中的研究结果,需独立完成;若无法完整复现,可尽力完成力所能及的部分”。由于论文涉及复杂统计分析,我还补充了要求:“能否尽可能完整复现所有统计过程?”
在无需进一步指令的情况下,Claude完成了一系列操作:阅读论文、打开数据集文件并整理、将统计代码从一种语言(STATA)转换为另一种语言(Python)、系统梳理所有研究结果,最终报告成功复现研究结论。我抽样核查了结果,并让另一款人工智能模型 GPT-5 Pro再次复现该研究,结果均无误。我还在其他多篇论文上进行了尝试,均取得了类似的良好效果,仅部分论文因文件大小限制或复现数据本身存在问题,未能成功复现。若手动完成这些工作,需耗费数小时。
但这一过程的革命性意义,并非仅在于节省时间。更重要的是,曾震动多个学术领域的 “可复现性危机”,本可通过研究复现部分解决,但此前这需要人类投入大量细致且高昂的精力,难以大规模推进。如今,人工智能似乎可对大量已发表论文进行核查、复现研究结果,这将对整个科学研究领域产生深远影响。尽管目前仍存在障碍——如准确性与公平性基准的建立,但大规模复现研究已成为现实可能。研究复现或许只是人工智能能完成的一项“任务”,而非“工作”,但它极有可能彻底改变人类的整个研究领域。是什么让这一切成为可能?答案是:人工智能代理的能力已迅速大幅提升。
核心在于智能体
自初代ChatGPT问世以来,生成式人工智能已帮助人们完成了大量任务,但始终存在一个局限:需人类用户主导。人工智能会犯错,若没有人类在每一步进行指导,就无法完成有价值的工作。人们曾认为,“自主人工智能智能体”的愿景遥不可及——这类智能体在接收任务后,能自主规划、使用工具(如编程、网络搜索)完成任务。毕竟,人工智能存在犯错可能,而智能体完成任务需经历一连串步骤,只要其中一步出错,整体任务就会失败。
但实际情况并非如此,另一篇新论文解释了背后的原因。事实证明,我们对人工智能智能体的多数假设都是错误的。即便人工智能的准确性仅小幅提升(而新模型的出错概率已大幅降低),也会使其可完成的任务数量大幅增加。此外,最新、最先进的“具备思考能力”的模型,实际上能自我修正,不会因单次错误而停滞。这些因素共同作用,使得人工智能代理可完成的步骤远超以往,且无需人类大量干预就能使用工具——基本上,只要是计算机能完成的操作,它都能借助工具实现。
值得关注的是,在过去几年涵盖从GPT-3到GPT-5等全系列人工智能模型的能力衡量标准中,METR测试是少数之一。该测试要求人工智能的准确率至少达到 50%。过去五年间,从GPT-3到GPT-5,模型在该测试中的得分呈稳定指数级增长,这体现出智能体工作能力的持续提升。
![]()
如何利用人工智能创造经济价值
然而,从人类对“能动性”的定义来看,人工智能代理并不具备真正的能动性。目前,我们仍需决定如何使用它们,而这一选择将在很大程度上决定未来的工作形态。所有人关注的风险,是人工智能取代人类劳动力——不难预见,未来几年这将成为核心问题,尤其对于那些缺乏创新、只关注成本削减,而非利用这些新能力拓展或变革工作模式的机构而言。但在工作场景中使用人工智能,还存在第二个极有可能出现的风险:不假思索地用代理完成更多现有任务。
为预判这一潜在问题,我曾将一份公司备忘录输入Claude,要求它将其转化为PPT,随后又要求从不同角度再制作一份,接着再制作一份……
最终,我得到了17份不同的PPT。显然,这已经过多了。
如果我们不深入思考“为何要开展这项工作”“理想的工作模式应是什么样”,所有人都将被海量人工智能生成的内容淹没。
那么,替代方案是什么?OpenAI的论文提出:专家可与人工智能协作解决问题——先将任务委派给人工智能完成初步版本,再审核其成果。若成果不理想,可尝试多次修正或提供更清晰的指令;若仍无改善,则由人类亲自完成任务。论文估算,若专家遵循这一工作流程,完成工作的速度将提升40%,成本降低 60%,更重要的是,人类能始终掌控人工智能的工作方向。
人工智能代理现已问世。它们能完成实际工作,尽管能力仍有限,但已具备价值且在不断提升。然而,这款能在几分钟内复现学术论文的技术,也能生成17份无人需要的PPT。这两种未来的差异,并非源于人工智能本身,而在于我们选择如何使用它。通过理性判断 “哪些工作值得做”,而非仅关注“哪些工作能做到”,我们才能确保这些工具提升的是我们的能力,而非仅仅是效率。
¹ 在不同研究领域,“复现(replicating)” 与 “重现(reproducing)” 的定义存在差异:前者可能涉及收集新数据,后者则可能使用现有数据。本文未深入探讨这些区别,但在此次实验中,人工智能不仅使用了现有数据,还对这些数据应用了新的统计方法。
本文编译自substack,原文作者Ethan Mollick
https://www.oneusefulthing.org/p/real-ai-agents-and-real-work
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.