网易首页 > 网易号 > 正文 申请入驻

顶级AI智能体不会社交,创业远不如人类!CMU等:最多完成24%任务

0
分享至

新智元报道

编辑:peter东 乔杨

【新智元导读】智能体究竟能否应对现实世界的复杂性?The Agent Company近日提出了一项评估基准,让多个智能体尝试自主运营一个软件公司。结果表明,即使是当前最先进的智能体,也无法自主完成大多数任务。

如今,基于大模型的智能体,已经能完成许多在几年前还无法想象的任务,进步的速度是如此之快,以至于有些人甚至声称,在接下来的几年内,大多数人类劳动可能都可以实现自动化。

然而近日CMU、杜克大学等机构发表的一项研究却给这一期待泼了一盆凉水。

智能体运营公司还不可行

论文链接:https://arxiv.org/abs/2412.14161

该研究开发了一个全部由大模型驱动的智能体组成的虚拟软件开发公司The Agent Company,与人类员工类似,智能体需要执行软件开发、项目管理、财务分析等典型的商业环境中的任务。

智能体与环境互动,以及智能体间的协作以完成真实世界任务

智能体所用的环境完全基于开源软件及主流的大模型接口,并可自行托管以实现可复现性。为了完成这些任务,智能体需要浏览网页、编写代码,并与其他智能体同事互动。

智能体之间的交互模式也和真实世界的软件公司十分类似,比如使用RocketChat向公司的其它成员发送消息,并获取原始任务描述中可能未提及的信息。各智能体在交流中还被赋予了诸如姓名、职位、职责和项目隶属关系等身份信息。

这项研究评估了当前几种主流的大模型,包括Claude Sonnet 3.5、GPT-4o、Google的Gemini、Amazon的Nova,以及知名开源模型,包括Meta的Llama和Qwen2.5。

除了创建175个多样化、真实、专业,且与真实公司运营模式一致的任务,这项研究还创建了不同任务对应的评估器,在每个任务中的多个阶段设置检查点。智能体每完成一步任务,都会获得相应的积分(类似于现实员工的KPI);而当智能体只是部分正确地给出回答时,也会给予其部分过程分。

结果显示,表现最好的是基于Claude Sonnet 3.5的智能体,然而它只能应对真实世界中24%的任务,在过程分上取得34.4%的得分。

排名第二的模型的任务完成比例更是只有11.4%,这与人们对大模型取代人类员工的预期还相距甚远。

这个成绩单中值得关注的是,开源模型Llama3.1和闭源的GPT-4o排名相近,这表明了开源模型在性能上已经十分逼近商用的闭源模型。

运营公司,AI比人类差在哪里

这项研究中有趣的一点是,可以让我们看到智能体在无法完成任务时犯下的错误,而这些错误在人类身上是几乎不会发生的。如果能得到解决,将有助于提升智能体在真实世界中的应用落地。问题1:缺乏常识

某些任务失败是因为,智能体缺乏进行隐含假设推理所需的常识和领域背景知识。

例如,一个任务要求智能体「将响应写入/workspace/answer.docx」,但没有明确指出这是一个Word文件。人类可以从文件扩展名推断出这一要求,而智能体却将其视为纯文本文件,直接内容以文本形式写入,导致任务失败。

问题2:缺乏社交技巧

一项任务需要智能体向其它智能体寻求帮助,智能体首先成功提出了正确的问题:「你能告诉我,应该接下来向团队中的谁请教这个问题吗?」然后模拟同事Alex回答:「你应该向Bob请教。他在前端团队,是一个很好的联系人!」

之后若是人类,99.9%的人都会选择去咨询Bob相关问题,但智能体却认为任务已经结束,不去向Bob请教。

问题3:浏览网页容易出错

很多时候,任务中的最大障碍在于需要浏览网页的部分。这方面的障碍是预料之中的,因为对于智能体来说,由于当前网页用户界面的复杂性和网页上的众多干扰,浏览网页仍然很困难。

例如,许多网页都会不时弹出可关闭的广告窗口,要求用户下载手机应用程序以获得更好的体验。人类可以简单地点击「×」来关闭弹窗,而智能体则陷入了困境。

同样,当智能体尝试从网络中下载文件时,需要点击多个弹出窗口才能进行实际下载,但由于用户界面复杂,每个步骤都容易出错。

问题4:自欺欺人

对于某些任务,当智能体不清楚下一步应该做什么时,它有时会试图聪明一点,创建一些省略任务困难部分的「捷径」。

例如,如果智能体在RocketChat上找不到合适的人提问,它就会决定给另一个用户改名为目标用户来当做解决方案。

未来的智能体还有希望吗

该研究的另一价值在于提供了一套框架,用来评估智能体在真实环境中的表现。

随着向大模型灌输网页相关的信息,并教会大模型如何浏览网页获取信息,下载文件并不是难事,其他的办公、工作交流等相关常识也是如此。相信未来大模型将有潜力取代人类的人力、财务、程序员等职业,至少是将这些岗位的大部分任务进行自动化处理。

与此相应的是,未来对大模型的评价也会有更多的维度。不止是完成该文列出的常规任务,还应该对创造能力进行考核。

此外,考核还应该包含那些定义模糊的任务,以及更高层次、更长远的任务,如构思新产品并将其付诸实施。智能体只有能够完成这些任务,才能算是真正地取代人类员工运营公司。

参考资料:

https://arxiv.org/pdf/2412.14161

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
全网最不想火的鸡煲店,凭一句“劝退”爆火

全网最不想火的鸡煲店,凭一句“劝退”爆火

广东发布
2026-04-03 20:04:56
伊朗肠子都悔青了!怎么能让美军深入战区100多千米、把F-15飞行员给救走了?!

伊朗肠子都悔青了!怎么能让美军深入战区100多千米、把F-15飞行员给救走了?!

军武速递
2026-04-04 19:19:03
新华网评:给愿意改错的人留一扇门

新华网评:给愿意改错的人留一扇门

新华社
2026-04-03 18:42:05
优思益:公司已无力进行相关售后及客诉服务,整体处于崩溃边缘

优思益:公司已无力进行相关售后及客诉服务,整体处于崩溃边缘

界面新闻
2026-04-03 16:32:06
美军直升机超低空飞行搜救,地上伊朗士兵用机枪追着打!伊朗称用了新武器;美军飞行员被俘怎么办?特朗普:希望“那种情况”不会发生

美军直升机超低空飞行搜救,地上伊朗士兵用机枪追着打!伊朗称用了新武器;美军飞行员被俘怎么办?特朗普:希望“那种情况”不会发生

每日经济新闻
2026-04-04 13:47:27
美议员:公开外星人简报将让国家混乱,近两年5名顶尖科学家失踪或死亡恐与此有关

美议员:公开外星人简报将让国家混乱,近两年5名顶尖科学家失踪或死亡恐与此有关

红星新闻
2026-04-04 19:31:34
周杰伦演唱会口碑崩塌,3小时划水2小时,万元门票听了个寂寞

周杰伦演唱会口碑崩塌,3小时划水2小时,万元门票听了个寂寞

观察者海风
2026-04-04 22:06:54
1-2!2-1!疯狂一夜,阿森纳爆冷出局,巴萨绝杀,切尔西狂胜晋级

1-2!2-1!疯狂一夜,阿森纳爆冷出局,巴萨绝杀,切尔西狂胜晋级

足球狗说
2026-04-05 05:10:41
东北知名设计院脱衣团建,真骚气!

东北知名设计院脱衣团建,真骚气!

黯泉
2026-04-04 22:43:42
战巴萨6次扑救,马竞门将穆索当选全场最佳球员

战巴萨6次扑救,马竞门将穆索当选全场最佳球员

懂球帝
2026-04-05 05:14:25
开始疯狂抛售黄金!

开始疯狂抛售黄金!

贩财局
2026-04-04 21:16:51
签完反华声明,马克龙离开日本,临走前一锤定音,减少对华依赖

签完反华声明,马克龙离开日本,临走前一锤定音,减少对华依赖

书纪文谭
2026-04-04 17:07:31
台湾餐饮业劳工平均月薪仅为3.9万新台币,专家叹“连存钱都难”

台湾餐饮业劳工平均月薪仅为3.9万新台币,专家叹“连存钱都难”

海峡导报社
2026-04-04 10:01:02
英格兰成人女星:若曼城战胜利物浦,我就按最热评论去做件事

英格兰成人女星:若曼城战胜利物浦,我就按最热评论去做件事

懂球帝
2026-04-04 23:46:13
406773 公里!阿尔忒弥斯 2 号拍下人类最远视角的地球

406773 公里!阿尔忒弥斯 2 号拍下人类最远视角的地球

ALENG自媒体
2026-04-04 21:13:20
“拯救美国大兵”,特朗普“赢学”被打脸

“拯救美国大兵”,特朗普“赢学”被打脸

上观新闻
2026-04-04 17:27:38
美军突然不会打仗了!飞行员还没有找到,在伊朗度过艰难的24小时

美军突然不会打仗了!飞行员还没有找到,在伊朗度过艰难的24小时

Ck的蜜糖
2026-04-04 14:45:19
抛弃中国,伊朗为何选择日本作为中间调停者

抛弃中国,伊朗为何选择日本作为中间调停者

民间胡扯老哥
2026-04-03 02:20:49
19岁“失联”女孩露面,称因网恋自愿前往柬埔寨,绑架是演戏为向家里要钱!其父回应:确认是她

19岁“失联”女孩露面,称因网恋自愿前往柬埔寨,绑架是演戏为向家里要钱!其父回应:确认是她

大象新闻
2026-04-04 08:49:03
世界小姐的“丰满身材”!

世界小姐的“丰满身材”!

文刀万
2026-04-04 17:49:19
2026-04-05 05:28:49
新智元 incentive-icons
新智元
AI产业主平台领航智能+时代
14893文章数 66749关注度
往期回顾 全部

科技要闻

内存一年涨四倍!国产手机厂商集体涨价

头条要闻

伊朗发动第七轮导弹袭击 耶路撒冷拦截导弹升空

头条要闻

伊朗发动第七轮导弹袭击 耶路撒冷拦截导弹升空

体育要闻

刹不住的泰格·伍兹,口袋里的两粒药丸

娱乐要闻

Q女士反击,否认逼宋宁峰张婉婷离婚

财经要闻

中微董事长,给半导体泼点冷水

汽车要闻

17万级海豹07EV 不仅续航长还有9分钟满电的快乐

态度原创

艺术
数码
时尚
本地
军事航空

艺术要闻

你绝对不能错过的梦幻性感摄影作品!

数码要闻

今年新款AirPods Pro、Apple TV值得等吗?升级方向曝光

别再穿大一码了!遮肉根本不是靠宽松

本地新闻

跟着歌声游安徽,听古村回响

军事要闻

美军又一架战机坠毁 此前F-15E被击落

无障碍浏览 进入关怀版