真正的人工智能代理与实际的工作|论文|实验|智能体

真正的人工智能代理与实际的工作

2025-10-31 15:16:31　来源: Trend求索

北京举报

分享至

以人为本的工作模式与无限PPT之间的竞争

作者：Ethan Mollick 2025年9月30日

人工智能已悄然跨越一道门槛：如今它们能完成真正具有经济价值的实际工作。

此前，OpenAI发布了一项新的人工智能能力测试。与以往围绕数学或常识构建的基准测试不同，此次测试中，OpenAI召集了平均拥有14年行业经验的专家——他们的领域涵盖金融、法律、零售等。这些专家设计了一系列贴近实际的任务，这些任务人类专家平均需要4到7个小时才能完成。随后，OpenAI让AI和人类专家分别完成这些任务。另有一组专家对结果进行评分，且他们并不知道哪些答案来自人工智能、哪些来自人类，每个问题的评分过程约耗时 1 小时。

人类专家最终胜出，但优势微弱，且不同行业的胜负差异也很大。不过，人工智能的进步速度极快，较新的人工智能模型得分远高于旧模型。有趣的是，人工智能输给人类的主要原因并非幻觉或错误，而是结果格式不规范、未严格遵循指令——而这些领域正是人工智能进步迅速的方向。若当前趋势持续，下一代人工智能模型在该测试中平均得分有望超过人类专家。这是否意味着人工智能已准备好取代人类工作？

答案是否定的（至少短期内不会），因为该测试衡量的是“任务”，而非“工作”。我们的工作由多项任务构成。以我作为教授的工作为例，它并非单一事项，而是涵盖教学、研究、写作、填写年度报告、辅导学生、阅读、行政事务等多个方面。人工智能完成其中一项或多项任务，并不会取代我整个工作，而是改变我的工作内容。只要人工智能的能力仍存在短板，无法替代人类互动中的所有复杂工作，它就难以整体取代人类的工作……

一项极具价值的任务

……但即便如此，人工智能目前能完成的部分任务已具备极高价值。不妨以我工作中的关键环节为例：开展精准的研究工作。正如许多人所知，学术界存在 “可复现性危机”——部分重要研究成果，其他研究者无法复现。学术界在解决这一问题上已取得一定进展，如今许多研究者会公开数据，方便其他学者复现自己的研究。但问题在于，复现研究需耗费大量时间：研究者需深入阅读并理解论文、分析数据、细致检查错误 ¹，这一复杂过程此前只有人类能够完成。

而现在，情况已发生改变。

我将一篇涉及多项实验的复杂经济学论文文本，以及完整的研究复现数据集，输入新版 Claude Sonnet 4.5（我拥有该模型的提前使用权）。除了上传文件并给出指令外，我未进行任何额外操作。指令内容为：“根据上传的数据集复现该论文中的研究结果，需独立完成；若无法完整复现，可尽力完成力所能及的部分”。由于论文涉及复杂统计分析，我还补充了要求：“能否尽可能完整复现所有统计过程？”

在无需进一步指令的情况下，Claude完成了一系列操作：阅读论文、打开数据集文件并整理、将统计代码从一种语言（STATA）转换为另一种语言（Python）、系统梳理所有研究结果，最终报告成功复现研究结论。我抽样核查了结果，并让另一款人工智能模型 GPT-5 Pro再次复现该研究，结果均无误。我还在其他多篇论文上进行了尝试，均取得了类似的良好效果，仅部分论文因文件大小限制或复现数据本身存在问题，未能成功复现。若手动完成这些工作，需耗费数小时。

但这一过程的革命性意义，并非仅在于节省时间。更重要的是，曾震动多个学术领域的 “可复现性危机”，本可通过研究复现部分解决，但此前这需要人类投入大量细致且高昂的精力，难以大规模推进。如今，人工智能似乎可对大量已发表论文进行核查、复现研究结果，这将对整个科学研究领域产生深远影响。尽管目前仍存在障碍——如准确性与公平性基准的建立，但大规模复现研究已成为现实可能。研究复现或许只是人工智能能完成的一项“任务”，而非“工作”，但它极有可能彻底改变人类的整个研究领域。是什么让这一切成为可能？答案是：人工智能代理的能力已迅速大幅提升。

核心在于智能体

自初代ChatGPT问世以来，生成式人工智能已帮助人们完成了大量任务，但始终存在一个局限：需人类用户主导。人工智能会犯错，若没有人类在每一步进行指导，就无法完成有价值的工作。人们曾认为，“自主人工智能智能体”的愿景遥不可及——这类智能体在接收任务后，能自主规划、使用工具（如编程、网络搜索）完成任务。毕竟，人工智能存在犯错可能，而智能体完成任务需经历一连串步骤，只要其中一步出错，整体任务就会失败。

但实际情况并非如此，另一篇新论文解释了背后的原因。事实证明，我们对人工智能智能体的多数假设都是错误的。即便人工智能的准确性仅小幅提升（而新模型的出错概率已大幅降低），也会使其可完成的任务数量大幅增加。此外，最新、最先进的“具备思考能力”的模型，实际上能自我修正，不会因单次错误而停滞。这些因素共同作用，使得人工智能代理可完成的步骤远超以往，且无需人类大量干预就能使用工具——基本上，只要是计算机能完成的操作，它都能借助工具实现。

值得关注的是，在过去几年涵盖从GPT-3到GPT-5等全系列人工智能模型的能力衡量标准中，METR测试是少数之一。该测试要求人工智能的准确率至少达到 50%。过去五年间，从GPT-3到GPT-5，模型在该测试中的得分呈稳定指数级增长，这体现出智能体工作能力的持续提升。

如何利用人工智能创造经济价值

然而，从人类对“能动性”的定义来看，人工智能代理并不具备真正的能动性。目前，我们仍需决定如何使用它们，而这一选择将在很大程度上决定未来的工作形态。所有人关注的风险，是人工智能取代人类劳动力——不难预见，未来几年这将成为核心问题，尤其对于那些缺乏创新、只关注成本削减，而非利用这些新能力拓展或变革工作模式的机构而言。但在工作场景中使用人工智能，还存在第二个极有可能出现的风险：不假思索地用代理完成更多现有任务。

为预判这一潜在问题，我曾将一份公司备忘录输入Claude，要求它将其转化为PPT，随后又要求从不同角度再制作一份，接着再制作一份……

最终，我得到了17份不同的PPT。显然，这已经过多了。

如果我们不深入思考“为何要开展这项工作”“理想的工作模式应是什么样”，所有人都将被海量人工智能生成的内容淹没。

那么，替代方案是什么？OpenAI的论文提出：专家可与人工智能协作解决问题——先将任务委派给人工智能完成初步版本，再审核其成果。若成果不理想，可尝试多次修正或提供更清晰的指令；若仍无改善，则由人类亲自完成任务。论文估算，若专家遵循这一工作流程，完成工作的速度将提升40%，成本降低 60%，更重要的是，人类能始终掌控人工智能的工作方向。

人工智能代理现已问世。它们能完成实际工作，尽管能力仍有限，但已具备价值且在不断提升。然而，这款能在几分钟内复现学术论文的技术，也能生成17份无人需要的PPT。这两种未来的差异，并非源于人工智能本身，而在于我们选择如何使用它。通过理性判断 “哪些工作值得做”，而非仅关注“哪些工作能做到”，我们才能确保这些工具提升的是我们的能力，而非仅仅是效率。

¹ 在不同研究领域，“复现（replicating）” 与 “重现（reproducing）” 的定义存在差异：前者可能涉及收集新数据，后者则可能使用现有数据。本文未深入探讨这些区别，但在此次实验中，人工智能不仅使用了现有数据，还对这些数据应用了新的统计方法。

本文编译自substack，原文作者Ethan Mollick

https://www.oneusefulthing.org/p/real-ai-agents-and-real-work

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.