网易首页 > 网易号 > 正文 申请入驻

沃顿教授警告:老板用AI正偷偷赚钱,而你还在审它做的17份PPT?

0
分享至

来源:市场资讯

(来源:新智元)


新智元报道

编辑:peter东 KingHZ

【新智元导读】AI已经不只会「答题」,开始下场「挣钱」了。但它也可能顺手给你产出17份PPT,把你淹没在电子垃圾里。下一代AI也许真能赢过专家,可更刺激的问题是:它会替你上班,还是让你转职为「AI监工」?

悄然之间,人工智能跨越了一个关键门槛:它们现在已能完成具有实际经济价值的工作。

但当你把一份企业备忘录交给Claude,让它做个 PPT,结果它一口气生成了17个版本。

面对这种「用力过猛」的 AI,你可能会怀疑:它真的具有实用性和经济价值吗?

对此,宾夕法尼亚大学沃顿商学院教授Ethan Mollick给出了他的回答。


智能体能完成特定任务

但无法取代工作

考虑到开发新AI所投入的天量资源,无论是字面意义还是象征意义上,我们却在精确衡量AI「智能」程度这件事上意外地捉襟见肘。

目前,最普遍的做法是将AI视作人类,通过标准化测试来统计其答对题目的数量。

这类被称为「基准测试」的评估体系多达数十种,已成为衡量AI能力演进的核心标尺。


但AI真的实用性?有经济价值吗?

要回答这个问题,不能光靠感觉,得看数据。

OpenAI发布了一个名叫GDPVAL的新基准测试。它不像以往的数学或常识测试,而是专门考察大模型在现实工作场景中能否创造经济价值。

这一次,考得很「实战」。

OpenAI组了个高端局:

然后,OpenAI让各家的大模型和其他专家亲自完成这些任务。第三组专家对结果进行评分,评分的专家不知道哪些答案来自AI,哪些来自人类,每个问题的评分时间大约需要一小时。

测试结果非常耐人寻味:人类专家赢了,但是赢得很难(勉强获胜)。


图1:GDPVAL中,不同模型在对应任务上和人类具有相同或更好水平的比例。

同时,测试发现AI进步极快:较新的模型得分远超旧模型。

输在哪?有趣的是,大模型输给人类,并不是因为「幻觉」或「胡说八道」,主要是因为格式排版不好或没能精确遵循指令——而这些恰恰是最容易修复的短板。


图2:不同领域中,大模型的表现好坏差异较大

如果当前趋势持续,下一代人工智能模型在这项测试中应超越人类专家。但这意味着AI已做好准备,来取代人类工作了吗?

回答是否定。

这里的关键在于:GDPVAL测试的是「任务」(Task),而我们做的是「工作」(Job)。

只要AI还做不到像人类一样处理复杂互动,它就无法取代你的岗位。

但在这些高价值的任务中,AI什么时候能达到人类专家级水平?理论上,AI落地已无阻碍?

Ethan Mollick教授认为,AI智能体突然变得具有落地可能,确实让人大吃一惊。部分原因在于大家对智能体的错误认知 。


智能体,工作「续航能力」指数级增长

以前,大家认为,AI想独立完成长任务非常难,比如写一个完整的软件。因为AI只要中间错一步,后面就全完了(误差累积)。

但剑桥大学等机构联手颠覆了这个认知:AI的能力并没有遇到瓶颈,反而在爆发。


预印本链接:https://arxiv.org/abs/2509.09677

剑桥大学Akshit Sinha等研究人员挖掘出四大原因:

1)收益非递减:变准一点点,能做的事会暴增

2)自我修正:它会停下来检查,不会被一个错误拖死

3)更长上下文:一次对话就能装下更长流程

4)更强模型能力:规划更稳,长任务更不崩

所有这一切意味着,AI 智能体能够应对那些需要更多步骤才能完成的任务,并且这一过程无需人工干预。


图3:大模型性能的提升不会引起收益递减的四个原因

因此,指标METR,从GPT-3到GPT-5,在五年间持续保持了指数级增长,显示出智能体能力增加的速度没有放缓。


图4:大模型能够稳定完成的任务所需的耗时变化

该指标衡量AI能以至少50%几率独立完成的任务到底多长。

这意味着我们在不远的未来,就能够看到AI完成需要专业人士一天甚至一周时间才能完成的复杂任务。

人类决定AI的未来

然而,真正具有自主性智能体并不存在。

目前,我们需要决定如何使用它们,这将决定未来工作的许多方面。当下大多人关注的重点是用AI取代人类劳动所带来的风险,而且不难看出这将在未来几年成为一个主要问题,特别是对于那些只关注削减成本、而不是利用这些新能力来扩展或转型工作的,同时缺乏想象力的组织。

但在工作中使用AI,会带来的另一个非常有可能发生的风险是:我们会无意识地让智能体去完成一堆比我们当下所做的更多,但完全不必要的任务,例如根据一个文档做17个PPT。

我们如果不认真思考我们为什么要做工作,以及工作应该是什么样子,那么会被AI生成的「电子垃圾」大潮淹没。

那么,替代方案是什么?

OpenAI建议专家可以通过将任务委托给 AI ,将AI生成的结果当成初稿,由人类审查,从而与 AI 合作解决问题。如果AI生成的初稿不够好,用户可在提示词中提供纠正或优化提示词再试一次。如果那仍然不起作用,他们应该亲自完成工作。

如果专家遵循这种工作流程,论文估计他们可以加快40%的工作速度,降低60%的成本。更重要的是,他们可以保持对 AI 的控制权。


图5:不同大模型带来的速度和成本提升

具有经济实用性的智能体已经出现。例如通过让AI智能体去复现学术论文,可以应对学术界的「可复现性危机」。

尽管智能体能够完成的任务仍然有限,但它有经济价值,并且价值正在递增。

出现哪一个未来,区别不在于AI技术的演变,而在于我们选择如何使用AI。通过在我们的判断中决定什么值得做,而不仅仅是能做什么,我们可以确保这些工具使我们变得更有能力,而不仅仅是更有效率。

参考资料:

https://www.oneusefulthing.org/p/real-ai-agents-and-real-work

秒追ASI

⭐点赞、转发、在看一键三连⭐

点亮星标,锁定新智元极速推送!

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
美国三角洲部队抵达伊朗边境,教士集团和抗议者开始最后决战

美国三角洲部队抵达伊朗边境,教士集团和抗议者开始最后决战

史政先锋
2026-01-09 20:39:18
现场腾起巨大火球!美空军一架F16C战机坠毁 ,飞行员弹射逃生

现场腾起巨大火球!美空军一架F16C战机坠毁 ,飞行员弹射逃生

每日经济新闻
2026-01-09 16:38:02
特朗普表明“弃台”立场,直言中方怎么做是自由,但别让我不高兴

特朗普表明“弃台”立场,直言中方怎么做是自由,但别让我不高兴

博览历史
2026-01-09 18:17:28
特朗普势在必得格陵兰岛,欧洲还能争取何种“交易”?

特朗普势在必得格陵兰岛,欧洲还能争取何种“交易”?

澎湃新闻
2026-01-09 18:09:09
北京输球揪出最大废才!拿600万半场1分,被人隔扣恼羞成怒+吃T

北京输球揪出最大废才!拿600万半场1分,被人隔扣恼羞成怒+吃T

南海浪花
2026-01-09 22:19:56
苹果正式官宣:1月9日,全面官降!

苹果正式官宣:1月9日,全面官降!

科技堡垒
2026-01-09 11:45:41
河北2025年给农民取暖补贴安排了多少预算?查不到数据

河北2025年给农民取暖补贴安排了多少预算?查不到数据

可达鸭面面观
2026-01-09 09:53:14
广湛高铁工地工人从桥面扔铁模板砸中一放牛老人致死,事故调查报告公布

广湛高铁工地工人从桥面扔铁模板砸中一放牛老人致死,事故调查报告公布

澎湃新闻
2026-01-09 18:42:27
突发两大利好!A股站上4100点、3万亿成交,AI应用取代商业航天?

突发两大利好!A股站上4100点、3万亿成交,AI应用取代商业航天?

看财经show
2026-01-09 16:51:11
周琦:很多国外球员挺看不起亚洲人,职业生涯最多十几年需要为以后考虑

周琦:很多国外球员挺看不起亚洲人,职业生涯最多十几年需要为以后考虑

懂球帝
2026-01-09 19:34:07
不得不服俄罗斯!油轮被抓后,榛树高超连夜报复,10马赫警告美国

不得不服俄罗斯!油轮被抓后,榛树高超连夜报复,10马赫警告美国

剑道万古似长夜
2026-01-09 14:36:31
为什么全国人民都在拒接电话?连10086打来也是瞄一眼就挂掉了!

为什么全国人民都在拒接电话?连10086打来也是瞄一眼就挂掉了!

今朝牛马
2026-01-08 16:05:10
别想歪,废止《关于严禁卖淫嫖娼的决定》≠卖淫嫖娼合法化了

别想歪,废止《关于严禁卖淫嫖娼的决定》≠卖淫嫖娼合法化了

知识圈
2026-01-09 20:01:22
45岁男星晒上海新家!4万电视柜,15万沙发,没戏拍日子照样舒坦

45岁男星晒上海新家!4万电视柜,15万沙发,没戏拍日子照样舒坦

瓜汁橘长Dr
2026-01-09 17:44:33
国务院国资委:国资国企绩效与薪酬、晋升、退出“硬挂钩”已成常态

国务院国资委:国资国企绩效与薪酬、晋升、退出“硬挂钩”已成常态

证券时报
2026-01-09 20:31:05
闫学晶事件再升级!官媒发文锐评,言辞犀利,句句直戳她心窝!

闫学晶事件再升级!官媒发文锐评,言辞犀利,句句直戳她心窝!

奇思妙想草叶君
2026-01-08 22:47:02
重磅:特朗普称哈梅内伊准备逃亡!对伊朗发出打击威胁

重磅:特朗普称哈梅内伊准备逃亡!对伊朗发出打击威胁

项鹏飞
2026-01-09 20:25:08
女单四强对阵:王曼昱VS韩莹,蒯曼VS长崎美柚,王艺迪困难

女单四强对阵:王曼昱VS韩莹,蒯曼VS长崎美柚,王艺迪困难

余憁搞笑段子
2026-01-10 02:25:19
周生生“黄金四叶草”项链一夜涨了1.5万元,国内金饰品牌价格新年第一涨

周生生“黄金四叶草”项链一夜涨了1.5万元,国内金饰品牌价格新年第一涨

界面新闻
2026-01-09 23:59:03
闫学晶慌了?圈内大佬不再沉默下场表态,冯巩态度属实令人意外

闫学晶慌了?圈内大佬不再沉默下场表态,冯巩态度属实令人意外

削桐作琴
2026-01-09 17:30:49
2026-01-10 05:39:00
新浪财经 incentive-icons
新浪财经
新浪财经是一家创建于1999年8月的财经平台
1980267文章数 5202关注度
往期回顾 全部

科技要闻

市场偏爱MiniMax:开盘涨42%,市值超700亿

头条要闻

媒体称委内瑞拉代总统计划13日访问华盛顿 委方回应

头条要闻

媒体称委内瑞拉代总统计划13日访问华盛顿 委方回应

体育要闻

金元时代最后的外援,来中国8年了

娱乐要闻

关晓彤鹿晗风波后露面 不受影响状态佳

财经要闻

投资必看!瑞银李萌给出3大核心配置建议

汽车要闻

助跑三年的奇瑞 接下来是加速还是起跳?

态度原创

房产
时尚
游戏
本地
军事航空

房产要闻

66万方!4755套!三亚巨量房源正疯狂砸出!

推广中奖名单-更新至2025年12月19日推广

怎么会有游戏上来就说自己的新服活不过10天啊?"/> 主站 商城 论坛 自运营 登录 注册 怎么会有游戏上来就说自己的新服活不过10天啊? 廉颇 202...

本地新闻

云游内蒙|“包”你再来?一座在硬核里酿出诗意的城

军事要闻

特朗普:已开始从委石油资源中赚钱

无障碍浏览 进入关怀版