网易首页 > 网易号 > 正文 申请入驻

沃顿教授警告:老板用AI正偷偷赚钱,而你还在审它做的17份PPT?

0
分享至


新智元报道

编辑:peter东 KingHZ

【新智元导读】AI已经不只会「答题」,开始下场「挣钱」了。但它也可能顺手给你产出17份PPT,把你淹没在电子垃圾里。下一代AI也许真能赢过专家,可更刺激的问题是:它会替你上班,还是让你转职为「AI监工」?

悄然之间,人工智能跨越了一个关键门槛:它们现在已能完成具有实际经济价值的工作。

但当你把一份企业备忘录交给Claude,让它做个 PPT,结果它一口气生成了17个版本。

面对这种「用力过猛」的 AI,你可能会怀疑:它真的具有实用性和经济价值吗?

对此,宾夕法尼亚大学沃顿商学院教授Ethan Mollick给出了他的回答。


智能体能完成特定任务

但无法取代工作

考虑到开发新AI所投入的天量资源,无论是字面意义还是象征意义上,我们却在精确衡量AI「智能」程度这件事上意外地捉襟见肘。

目前,最普遍的做法是将AI视作人类,通过标准化测试来统计其答对题目的数量。

这类被称为「基准测试」的评估体系多达数十种,已成为衡量AI能力演进的核心标尺。


但AI真的实用性?有经济价值吗?

要回答这个问题,不能光靠感觉,得看数据。

OpenAI发布了一个名叫GDPVAL的新基准测试。它不像以往的数学或常识测试,而是专门考察大模型在现实工作场景中能否创造经济价值。

这一次,考得很「实战」。

OpenAI组了个高端局:

  • 出题人:来自金融、法律、零售等行业的资深专家(平均14年经验)。

  • 题目难度:人类专家平均需要4-7小时才能完成的真实业务任务。

  • 评测方式:AI和人类专家同台竞技,由第三方专家进行盲测打分。

然后,OpenAI让各家的大模型和其他专家亲自完成这些任务。第三组专家对结果进行评分,评分的专家不知道哪些答案来自AI,哪些来自人类,每个问题的评分时间大约需要一小时。

测试结果非常耐人寻味:人类专家赢了,但是赢得很难(勉强获胜)。


图1:GDPVAL中,不同模型在对应任务上和人类具有相同或更好水平的比例。

同时,测试发现AI进步极快:较新的模型得分远超旧模型。

输在哪?有趣的是,大模型输给人类,并不是因为「幻觉」或「胡说八道」,主要是因为格式排版不好没能精确遵循指令——而这些恰恰是最容易修复的短板。


图2:不同领域中,大模型的表现好坏差异较大

如果当前趋势持续,下一代人工智能模型在这项测试中应超越人类专家。但这意味着AI已做好准备,来取代人类工作了吗?

回答是否定

这里的关键在于:GDPVAL测试的是「任务」(Task),而我们做的是「工作」(Job)。

  • 任务是具体的:写一段代码、翻译一篇文章。

  • 工作是复杂的:它包含了一连串的任务,更包含了人际沟通、决策博弈和对突发状况的处理。

只要AI还做不到像人类一样处理复杂互动,它就无法取代你的岗位。

但在这些高价值的任务中,AI什么时候能达到人类专家级水平?理论上,AI落地已无阻碍?

Ethan Mollick教授认为,AI智能体突然变得具有落地可能,确实让人大吃一惊。部分原因在于大家对智能体的错误认知 。


智能体,工作「续航能力」指数级增长

以前,大家认为,AI想独立完成长任务非常难,比如写一个完整的软件。因为AI只要中间错一步,后面就全完了(误差累积)。

但剑桥大学等机构联手颠覆了这个认知:AI的能力并没有遇到瓶颈,反而在爆发。


预印本链接:https://arxiv.org/abs/2509.09677

剑桥大学Akshit Sinha等研究人员挖掘出四大原因:

1)收益非递减:变准一点点,能做的事会暴增

2)自我修正:它会停下来检查,不会被一个错误拖死

3)更长上下文:一次对话就能装下更长流程

4)更强模型能力:规划更稳,长任务更不崩

所有这一切意味着,AI 智能体能够应对那些需要更多步骤才能完成的任务,并且这一过程无需人工干预。


图3:大模型性能的提升不会引起收益递减的四个原因

因此,指标METR,从GPT-3到GPT-5,在五年间持续保持了指数级增长,显示出智能体能力增加的速度没有放缓。


图4:大模型能够稳定完成的任务所需的耗时变化

该指标衡量AI能以至少50%几率独立完成的任务到底多长。

这意味着我们在不远的未来,就能够看到AI完成需要专业人士一天甚至一周时间才能完成的复杂任务。

人类决定AI的未来

然而,真正具有自主性智能体并不存在。

目前,我们需要决定如何使用它们,这将决定未来工作的许多方面。当下大多人关注的重点是用AI取代人类劳动所带来的风险,而且不难看出这将在未来几年成为一个主要问题,特别是对于那些只关注削减成本、而不是利用这些新能力来扩展或转型工作的,同时缺乏想象力的组织。

但在工作中使用AI,会带来的另一个非常有可能发生的风险是:我们会无意识地让智能体去完成一堆比我们当下所做的更多,但完全不必要的任务,例如根据一个文档做17个PPT。

我们如果不认真思考我们为什么要做工作,以及工作应该是什么样子,那么会被AI生成的「电子垃圾」大潮淹没。

那么,替代方案是什么?

OpenAI建议专家可以通过将任务委托给 AI ,将AI生成的结果当成初稿,由人类审查,从而与 AI 合作解决问题。如果AI生成的初稿不够好,用户可在提示词中提供纠正或优化提示词再试一次。如果那仍然不起作用,他们应该亲自完成工作。

如果专家遵循这种工作流程,论文估计他们可以加快40%的工作速度,降低60%的成本。更重要的是,他们可以保持对 AI 的控制权。


图5:不同大模型带来的速度和成本提升

具有经济实用性的智能体已经出现。例如通过让AI智能体去复现学术论文,可以应对学术界的「可复现性危机」。

尽管智能体能够完成的任务仍然有限,但它有经济价值,并且价值正在递增。

出现哪一个未来,区别不在于AI技术的演变,而在于我们选择如何使用AI。通过在我们的判断中决定什么值得做,而不仅仅是能做什么,我们可以确保这些工具使我们变得更有能力,而不仅仅是更有效率。

参考资料:

https://www.oneusefulthing.org/p/real-ai-agents-and-real-work

秒追ASI

⭐点赞、转发、在看一键三连⭐

点亮星标,锁定新智元极速推送!

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
李嘉诚病危?!现场直击!

李嘉诚病危?!现场直击!

港漂圈
2026-02-06 15:17:03
候补中央委员蓝晓,职务有调整

候补中央委员蓝晓,职务有调整

新京报政事儿
2026-02-07 12:21:49
男子称在静音车厢打呼被乘务员提醒,12306回应:若打呼声过大,工作人员认为影响其他乘客会适当提醒,旅客也可扫码反映

男子称在静音车厢打呼被乘务员提醒,12306回应:若打呼声过大,工作人员认为影响其他乘客会适当提醒,旅客也可扫码反映

极目新闻
2026-02-07 17:58:13
为救家人来中国踢球,8年赚走1.8亿,如今返回巴西老家享受生活

为救家人来中国踢球,8年赚走1.8亿,如今返回巴西老家享受生活

秋姐居
2026-02-07 09:26:20
上海炒股大赛冠军的箴言:如果手里只有10万,不妨死磕"七大口诀"

上海炒股大赛冠军的箴言:如果手里只有10万,不妨死磕"七大口诀"

一方聊市
2026-01-19 13:13:48
王室震动!梅根返回英国架子大,继续针对威尔士三宝条件苛刻

王室震动!梅根返回英国架子大,继续针对威尔士三宝条件苛刻

暗香暗香
2026-02-07 19:52:19
具俊晔洗白失败!葛斯齐曝猛料,韩国综艺实锤 S家让大S背1年黑锅

具俊晔洗白失败!葛斯齐曝猛料,韩国综艺实锤 S家让大S背1年黑锅

TVB的四小花
2026-02-06 20:41:33
王毅外长:今后世上再无“中国台湾省”之外的任何模糊称谓。

王毅外长:今后世上再无“中国台湾省”之外的任何模糊称谓。

南权先生
2026-02-02 15:59:44
塔克48+11神兵天降,广厦15分逆转爆冷

塔克48+11神兵天降,广厦15分逆转爆冷

风风拒绝焦虑
2026-02-07 20:03:57
乌方称俄罗斯“大规模袭击”乌克兰能源设施

乌方称俄罗斯“大规模袭击”乌克兰能源设施

新华社
2026-02-07 15:21:07
张本美和4比1击败陈幸同,王曼昱击败申裕斌,莎头组合打进四强

张本美和4比1击败陈幸同,王曼昱击败申裕斌,莎头组合打进四强

子水体娱
2026-02-07 21:15:23
售84.5万元起定价有升有降2026款奔驰GLE轿跑SUV正式上市

售84.5万元起定价有升有降2026款奔驰GLE轿跑SUV正式上市

沙雕小琳琳
2026-02-07 11:13:00
06年我把卧铺票让给孕妇,自己站了一宿,下车前她递给我一张纸条

06年我把卧铺票让给孕妇,自己站了一宿,下车前她递给我一张纸条

温情邮局
2026-01-27 10:14:26
CBA俱乐部赛四强产生

CBA俱乐部赛四强产生

刺猬篮球
2026-02-07 21:51:10
上海一女子懵了!把价值10多万元的黄金当垃圾扔了,半个月后才发现

上海一女子懵了!把价值10多万元的黄金当垃圾扔了,半个月后才发现

上观新闻
2026-02-07 13:48:05
我在旧货市场花300买了个旧书柜,运回家清洗时发现抽屉有夹层

我在旧货市场花300买了个旧书柜,运回家清洗时发现抽屉有夹层

五元讲堂
2026-02-04 11:51:22
CBA最新消息!广东宏远或换掉萨林杰,辽宁男篮有意皮特森

CBA最新消息!广东宏远或换掉萨林杰,辽宁男篮有意皮特森

体坛瞎白话
2026-02-07 08:59:04
第二个恶魔医生被抓,郑大一附院王福建为94名患者植入不需要器械

第二个恶魔医生被抓,郑大一附院王福建为94名患者植入不需要器械

奇思妙想草叶君
2026-02-07 03:21:25
克林顿夫妇要求直播并公开听证会,特朗普回应真可惜

克林顿夫妇要求直播并公开听证会,特朗普回应真可惜

山河路口
2026-02-06 13:49:32
山西vs北控,双方真刀真枪,迪亚洛情绪失控吃技犯,潘江很无奈

山西vs北控,双方真刀真枪,迪亚洛情绪失控吃技犯,潘江很无奈

邹维体育
2026-02-07 20:20:15
2026-02-07 22:19:00
新智元 incentive-icons
新智元
AI产业主平台领航智能+时代
14496文章数 66592关注度
往期回顾 全部

科技要闻

小米千匹马力新车亮相!问界M6双动力齐报

头条要闻

解散日众议院依靠媚美反华 高市押注选举想"一石三鸟"

头条要闻

解散日众议院依靠媚美反华 高市押注选举想"一石三鸟"

体育要闻

主队球迷唯一爱将,说自己不该在NBA打球

娱乐要闻

何超欣说和何猷君没竞争,实力遭质疑

财经要闻

金价高波动时代来了

汽车要闻

工信部公告落地 全新腾势Z9GT焕新升级

态度原创

旅游
健康
手机
本地
公开课

旅游要闻

狮子刘村的营响未来露营地里太热闹了!

转头就晕的耳石症,能开车上班吗?

手机要闻

首发2nm芯片!三星Galaxy S26官方渲染图出炉

本地新闻

围观了北京第一届黑色羽绒服大赛,我笑疯了

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版