网易首页 > 网易号 > 正文 申请入驻

AI智能体的炒作与现实:GPT-4都撑不起,现实任务成功率不到15%

0
分享至

在这个充满幻想的AI时代,我们被各种技术突破和未来预言所包围。自主AI智能体,这些被赋予了执行复杂任务能力的数字精灵,似乎成了科技界的新宠。它们被描绘成无所不能,能够独立完成多步骤工作流程的超级助手。然而,现实总是喜欢给过于乐观的预言家们一记响亮的耳光。

WebArena排行榜,这个被设计用来评估实用智能体性能的真实可复现网络环境,给了我们一个清醒的视角。它告诉我们,即使是那些被吹捧为最先进的模型,其在现实任务中的成功率也仅有.%。 这个数字,无疑给那些对AI智能体抱有无限憧憬的人们泼了一盆冷水。我们不禁要问,这究竟是技术的限制,还是我们期望过高?

让我们来深入分析一下这个现象。首先,AI智能体的构建并非易事。它们需要处理的是真实世界中的复杂问题,这些问题往往涉及到多模态、多任务和多领域。 然而,现有的LLMs似乎还未能完全适应这种复杂性。它们的综合能力,至少在目前,还不足以支撑起一个全能的AI智能体。

其次,AI智能体在实际应用中面临着诸多挑战。它们的输出不够精确,性能差强人意,成本高昂,且存在赔偿风险。 这些挑战不仅限制了AI智能体的实用性,也影响了用户对它们的信任。在涉及支付或个人信息的敏感任务中,赢得用户信任尤为困难。

再者,AI智能体的可靠性问题不容忽视。众所周知,LLMs容易产生幻觉和不一致性。 当多个AI步骤连接起来时,这些问题会被进一步放大。这对于需要精确输出的任务来说,无疑是一个巨大的障碍。

此外,我们还应该看到,尽管AI智能体的概念在宣传上被描绘得十分强大,但现实中的表现却远不如预期。这种差距提醒我们,无论是AI智能体初创公司还是大型科技巨头,都需要认清现实,脚踏实地地发展技术。

在这种背景下,一些初创公司和大公司正在尝试将AI功能集成到桌面和浏览器中,以期在系统层面上获得本地的AI集成。 然而,这些尝试大多还处于实验阶段或仅限邀请使用,距离真正的产品化还有很长的路要走。

那么,AI智能体的未来究竟在哪里?作者强调,AI智能体被过度炒作了,大多数还没有准备好用于关键任务。 但是,随着基础模型和架构的迅速进步,我们仍有理由期待看到更多成功的实际应用。AI智能体最有前途的前进道路可能是:近期的重点应放在利用AI增强现有工具,而不是提供广泛的全自主独立服务;人机协同的方法,让人类参与监督和处理边缘案例;根据当前的能力和局限,设定不脱离现实的期望。

通过结合严格约束的LLMs、良好的评估数据、人机协同监督和传统工程方法,我们可以实现在自动化等复杂任务方面的可靠且良好的结果。 对于AI智能体是否会自动化乏味重复的工作,例如网络抓取、填表和数据录入,答案是肯定的。 但是,至少在近期内,我们不太可能看到AI智能体在没有人类干预的情况下自动完成预订假期等复杂任务。

AI智能体的发展还有很长的路要走。我们需要正视现实,理性看待AI智能体的能力,同时也要看到它们的潜力和未来的发展方向。通过不断的技术进步和创新,我们有理由相信,AI智能体将在未来发挥越来越重要的作用。但在那之前,让我们保持清醒的头脑,不要被过度的炒作所迷惑。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
3比1!狂轰11:4!世界第一孙颖莎火力强劲,张本美和压力来了

3比1!狂轰11:4!世界第一孙颖莎火力强劲,张本美和压力来了

篮球看比赛
2026-02-26 16:12:14
两岸统一要多久?解放军中将透露具体时间,局势越来越清晰

两岸统一要多久?解放军中将透露具体时间,局势越来越清晰

Ck的蜜糖
2026-02-26 18:42:13
美团申请注册拼好房商标

美团申请注册拼好房商标

界面新闻
2026-02-26 10:16:16
反手对决完败!向鹏0-3不敌苦主林昀儒,遭遇交手4连败止步16强

反手对决完败!向鹏0-3不敌苦主林昀儒,遭遇交手4连败止步16强

钉钉陌上花开
2026-02-26 19:58:25
深夜十点!宏远陈老板宣布新决定,朱芳雨正式行动,徐杰最新伤情

深夜十点!宏远陈老板宣布新决定,朱芳雨正式行动,徐杰最新伤情

多特体育说
2026-02-25 22:03:36
状态终于回来了,中国男篮第三节开局打出13-0进攻高潮

状态终于回来了,中国男篮第三节开局打出13-0进攻高潮

懂球帝
2026-02-26 20:00:05
关于周深这个人,我一直有个事儿想不通。

关于周深这个人,我一直有个事儿想不通。

小光侃娱乐
2026-01-06 13:35:03
2026年正在崩盘的5个行业!聪明人早跑光了,傻子还在往里冲!

2026年正在崩盘的5个行业!聪明人早跑光了,傻子还在往里冲!

生活新鲜市
2026-02-17 10:37:00
抗战时期,有两个手握重兵的军阀始终没有出兵抗日,他们是谁?

抗战时期,有两个手握重兵的军阀始终没有出兵抗日,他们是谁?

李斄在北漂
2026-02-26 13:06:03
湖人输得不冤!三次漏判魔术两次吃亏:漏吹东契奇走步+打手犯规

湖人输得不冤!三次漏判魔术两次吃亏:漏吹东契奇走步+打手犯规

罗说NBA
2026-02-26 05:56:21
中国央企军工大省:江西境内布局4大军工城市,它们是谁?

中国央企军工大省:江西境内布局4大军工城市,它们是谁?

Ck的蜜糖
2026-02-26 06:58:35
你啥时候意识到钱的重要性?网友:钱能解决85%以上的鸡毛蒜皮事

你啥时候意识到钱的重要性?网友:钱能解决85%以上的鸡毛蒜皮事

带你感受人间冷暖
2026-02-23 01:22:30
李小璐写真生图高清

李小璐写真生图高清

翩翩明星
2025-11-14 09:39:36
奥运会为什么发避孕套?难道运动员都带伴侣吗?看完你就明白了!

奥运会为什么发避孕套?难道运动员都带伴侣吗?看完你就明白了!

南权先生
2026-02-13 15:17:51
最高升至2700余米!上海一摄影博主“黑飞”无人机50余次被抓

最高升至2700余米!上海一摄影博主“黑飞”无人机50余次被抓

上游新闻
2026-02-26 15:37:05
大家发现没有,这次中日冲突比历次都严重,却没有人喊抵制日货了

大家发现没有,这次中日冲突比历次都严重,却没有人喊抵制日货了

诗意世界
2025-12-15 08:30:02
银行信用卡业务深度调整

银行信用卡业务深度调整

证券时报
2026-02-26 07:51:03
演员王劲松发文怒斥:太可怕了!

演员王劲松发文怒斥:太可怕了!

环球网资讯
2026-02-26 17:12:55
张杰一家五口崇礼滑雪,请5个一对一教练,三个女儿全比他滑得好

张杰一家五口崇礼滑雪,请5个一对一教练,三个女儿全比他滑得好

孤城落日
2026-02-26 13:45:55
梅婷大年初九在北京别墅宴客,和德华刘琳同框,吃海鲜大口喝酒

梅婷大年初九在北京别墅宴客,和德华刘琳同框,吃海鲜大口喝酒

离离言几许
2026-02-26 16:19:11
2026-02-26 20:51:00
前沿科技学习分享圈 incentive-icons
前沿科技学习分享圈
朝看花开满树红,暮看花落树还空。若将花比人间事,花与人间事一同。
1624文章数 369关注度
往期回顾 全部

科技要闻

单季营收681亿净利429亿!英伟达再次炸裂

头条要闻

金与正"转正"了 戴着黑白色发箍坐在候补委员的第一位

头条要闻

金与正"转正"了 戴着黑白色发箍坐在候补委员的第一位

体育要闻

从排球少女到冰壶女神,她在米兰冬奥练出6块腹肌

娱乐要闻

向华强公开表态 财产留给儿媳妇郭碧婷

财经要闻

中国AI调用量超美国 4款大模型霸榜前5

汽车要闻

40岁的吉利,不惑于内外

态度原创

游戏
亲子
艺术
时尚
军事航空

新一代游戏主机根本毫无意义!外媒总结三大原因

亲子要闻

撒贝宁龙凤胎颜值引关注:基因与文化的奇妙交融

艺术要闻

2025第三届全国水粉画大展 | 入选作品选刊

冬天穿衣要避免老气横秋!这些穿搭简单不过时,适合普通人

军事要闻

美政府给新伊核协议设限内容遭披露

无障碍浏览 进入关怀版