网易首页 > 网易号 > 正文 申请入驻

AI Agent、传统聊天机器人有何区别?这篇30页综述讲明白了

0
分享至

论文作者包括来自上海交通大学的朱家琛、芮仁婷、单榕、郑琮珉、西云佳、林江浩、刘卫文、俞勇、张伟楠,以及华为诺亚研究所的朱梦辉、陈渤、唐睿明。

本文第一作者是朱家琛,上海交通大学博士生,主要研究兴趣集中在大模型推理,个性化 Agent。本文通讯作者是张伟楠,上海交通大学教授,研究方向包含强化学习、数据科学、机器人控制、推荐搜索等。

自从 Transformer 问世,NLP 领域发生了颠覆性变化。大语言模型极大提升了文本理解与生成能力,成为现代 AI 系统的基础。而今,AI 正不断向前,具备自主决策和复杂交互能力的新一代AI Agent也正加速崛起。

不同于以往只会对话的 LLM 机器人,AI Agent 能够接入互联网、调用各类 API,还能根据真实环境反馈灵活调整策略。AI Agent 因此具备了感知环境和自主决策的能力,已经突破了传统 “问答模式” 的限制,能够主动执行任务、应对各种复杂场景,真正成为用户身边可靠的智能助手。

在这股 AI Agent 浪潮中,每个人都可以有属于自己的 AI Agent。而如何衡量自己的 AI Agent 是否足够强大呢?海量的 Agent 评测方式层出不穷,你是否挑得眼花缭乱?如何在这千军万马中挑选出最适合你的测评方式呢?作为 AI Agent 的开发者,你是否也在思考该从哪个角度来提升你的 “秘密武器”,在这场激烈的 AI Agent 大战中脱颖而出?

因此,这引出了一个顺理成章的问题:

AI Agent 到底和传统聊天机器人有何本质区别?又该如何科学评测 AI Agent?

  • 论文标题:Evolutionary Perspectives on the Evaluation of LLM-Based AI Agents: A Comprehensive Survey
  • 论文链接:https://arxiv.org/pdf/2506.11102

一、从 LLM Chatbot 到 AI Agent

论文指出,AI Agent 的出现是 AI 发展的新阶段。它们不仅仅回复人类对话,还具备了五个维度的进化:

1.复杂环境:Agent 不再局限于单一对话场景,可以与代码库、网页、操作系统、移动端、科学实验等各类环境交互。

2.多源指令:Agent 不只接收人工输入,还能结合自我反思、智能体协作等多源指令。

3.动态反馈:Agent 运行于连续多样的反馈环境,可基于指标、奖励等动态反馈持续优化自身能力,不再局限于被动对话纠正。

4.多模态:Agent 拥有跨模态处理能力,能理解文本、视觉、听觉等多种数据。

5.高级能力:随着外部环境复杂化,Agent 具备了复杂规划、持久记忆、自主推理等能力,实现从被动响应到自主执行的跃迁。

图 1:AI Agent 与 LLM Chatbot 演化的五个维度。

LLM Chatbot 向 AI Agent 的演进,背后主要受两方面推动:一是外部环境的日益复杂,二是内部能力的不断提升。复杂的外部环境促使 Agent 不断成长,而 Agent 能力的提升又推动人们去探索更具挑战性的应用场景。正是这种内外循环、相互促进,成为现代 AI Agent 加速进化的根本动力。因此,论文的总体框架如图 2 所示:我们系统梳理了现有 AI Agent 评测基准,提出 “环境 - 能力” 两方面的分类学。随后进行趋势讨论,对 Agent 评测方法演化趋势的讨论,涉及环境角度,Agent 角度,评估者角度,指标角度,并最终提出基准选择的方法论。

图 2:论文框架总览

二、评测框架与基准盘点

面对 Agent 能力的指数级扩展,原有的聊天机器人评测方法已无法胜任。论文系统梳理了现有 AI Agent 评测基准,提出 “环境 - 能力” 两方面的分类:

1.环境维度:细分为代码、网页、操作系统、移动端、科学、游戏等环境。

2.能力维度:涵盖规划、自我反省、交互、记忆等高级能力。

针对每种环境与能力,论文整理了当前最具代表性的评测基准,并梳理出一套 “实用属性表”,帮助研究者在眼花缭乱的 benchmark 中挑选符合要求的。

以表 1 为例,我们列出了我们认为最重要的属性:真实性,离线 / 在线,评测者,输入模态,主要挑战。并将所有 web 环境的基准归到这些属性中。

表 1:Web 环境下的 Agent 基准以及其各类属性

三、AI Agent 评测方法的进化趋势

图 3:AI Agent 评测未来演化的四个视角。

论文深刻总结了 AI Agent 评测方法的未来趋势,不再只是 “比谁答得对”,而是从四个关键视角全面升级:

1. 环境视角:从单模态到多模态、从静态到动态、从少状态到多状态。

最初,Agent 评测只围绕文本展开,如今则逐渐扩展到图片、音频、视频等多种信息形式。静态的数据集已经不能满足需求,动态、实时更新的真实环境成为新常态。同时,评测方式也在转变,开始关注智能体在连续任务过程中的表现和调整,而不再只看最终结果。

2. 智能体视角:从单 Agent 到多 Agent、从单轮到多轮互动。

新一代评测不仅关注单个 Agent 的能力,更重视多个 Agent 间的协作与博弈。与此同时,任务由简单的一问一答,演化为多轮对话、持续推理和复杂任务链,考验 Agent 的全局规划与长期记忆。

3. 评测者视角:从人工到 AI 自动评测、从通用到个性化。

AI 不再只是被动接受人类评分,越来越多的 Agent 可以自动评判同行,实现规模化、自主化评测。同时,未来的评测将更加关注个性化,衡量 Agent 是否能针对不同用户给出个性化的服务。

4. 指标视角:从粗粒度到细粒度,从关注正确率到关注效率、安全与社会价值。

单一的正确率已无法反映 Agent 真实能力。未来评测更强调任务效率、细粒度决策的质量、安全性和伦理性,比如防止误操作、保障用户利益、促进社会善意等。

四、行动指南:

如何选择合适的 Agent 评测基准

面对 AI Agent 的快速发展,论文围绕 “如何用演化视角系统评估 AI Agent” 这一核心问题,提出了一套二阶段的基准选择方法论:

第一阶段:从当下出发。

根据实际任务环境和 Agent 能力,先锁定对应的环境和能力分类(图 2),从属性表(表 1)中精准匹配最适用的评测基准。例如,开发者 Z 开发了能预订航班和酒店的 Agent,应优先考虑 Web 环境和交互能力,选用如 WebVoyager 和 ComplexFuncBench 等基准进行测试。

第二阶段:为未来考虑。

结合评测进化趋势(图 3),开发者 Z 应持续关注环境变化、多模态挑战和社会价值等新维度。随着产品商业化,适时引入动态环境(如 BFCL)、安全性(如 ST WebAgentBench)和个性化(如 PeToolBench)等多样化评测基准,确保 Agent 持续优化与进化。

结语

AI Agent 正在从 “会对话” 进化为 “会行动”,推动人工智能迈向更智能、更自主、更有价值的下一个时代。而如何科学评测 AI Agent,是驱动这一切的关键。如果读者你也关心如何评测新颖的 AI Agent,我们的综述值得一读。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
局势失控?美国抓获马杜罗后,俄罗斯古巴强硬表态,拉美多国戒备

局势失控?美国抓获马杜罗后,俄罗斯古巴强硬表态,拉美多国戒备

荷兰豆爱健康
2026-01-03 21:51:06
两条荒唐新闻,都引起公愤了!

两条荒唐新闻,都引起公愤了!

胖胖说他不胖
2026-01-04 14:53:09
北京警方刑拘1名“荒野求生”爱好者

北京警方刑拘1名“荒野求生”爱好者

极目新闻
2026-01-04 17:57:27
美国通讯能力太强了!特朗普在家中随便找张桌子,就能实时观看马杜罗抓捕现场

美国通讯能力太强了!特朗普在家中随便找张桌子,就能实时观看马杜罗抓捕现场

回旋镖
2026-01-04 12:38:03
20岁中国籍女网红在柬埔寨街头流浪,面容憔悴,腿疑似受伤,母亲最新发声:一个柬埔寨的电话打来叫我们去接人

20岁中国籍女网红在柬埔寨街头流浪,面容憔悴,腿疑似受伤,母亲最新发声:一个柬埔寨的电话打来叫我们去接人

扬子晚报
2026-01-04 18:37:09
新年首个工作日,中纪委连打4“虎”,释放何种信号?

新年首个工作日,中纪委连打4“虎”,释放何种信号?

南方都市报
2026-01-04 17:30:14
间谍、隐形无人机和喷灯:美军对马杜罗动手始末

间谍、隐形无人机和喷灯:美军对马杜罗动手始末

澎湃新闻
2026-01-04 11:22:28
2026年物业新规1月1日施行!物业费、公共收益、维权全明确

2026年物业新规1月1日施行!物业费、公共收益、维权全明确

另子维爱读史
2026-01-03 21:36:56
如果事情属实,这将是巨大的底线溃败!

如果事情属实,这将是巨大的底线溃败!

胖胖说他不胖
2026-01-03 10:55:03
后续!柬埔寨流浪女网红父亲发声,曝女儿不堪一面,邻居透露更多

后续!柬埔寨流浪女网红父亲发声,曝女儿不堪一面,邻居透露更多

阿纂看事
2026-01-04 21:49:32
折磨人的生理反应有哪些?网友:排卵期就想穿性感一点

折磨人的生理反应有哪些?网友:排卵期就想穿性感一点

带你感受人间冷暖
2026-01-04 00:10:07
段子:特朗普说前俄罗斯军事顾问提供了马杜罗情报,只要价1美元

段子:特朗普说前俄罗斯军事顾问提供了马杜罗情报,只要价1美元

回旋镖
2026-01-04 13:03:41
亚历山大狂妄发言遭全网群嘲!难道你把掘金尼克斯火箭当空气?

亚历山大狂妄发言遭全网群嘲!难道你把掘金尼克斯火箭当空气?

田先生篮球
2026-01-04 10:28:43
委内瑞拉曾多次将美国石油公司“国有化”,无视国际仲裁补偿,终演变为军事冲突

委内瑞拉曾多次将美国石油公司“国有化”,无视国际仲裁补偿,终演变为军事冲突

回旋镖
2026-01-04 19:21:13
美国对中国下狠手!4400颗卫星集体降低轨道,目标直指中国空间站

美国对中国下狠手!4400颗卫星集体降低轨道,目标直指中国空间站

奉壹数码
2026-01-04 21:05:18
日媒:如何就美国突袭委内瑞拉表态,高市陷入两难

日媒:如何就美国突袭委内瑞拉表态,高市陷入两难

参考消息
2026-01-04 14:43:05
长沙同学聚会15秒亲吻视频:涉事男的妻子和女的丈夫,表示抗议

长沙同学聚会15秒亲吻视频:涉事男的妻子和女的丈夫,表示抗议

江山挥笔
2026-01-04 16:28:59
中共中央批准,开除许传智党籍

中共中央批准,开除许传智党籍

新京报政事儿
2026-01-04 16:16:14
为什么还要掳走马杜罗夫人?

为什么还要掳走马杜罗夫人?

扬子晚报
2026-01-04 22:11:21
中国唯一飞往委内瑞拉航班取消,客机将空机返委,航司称12天后委内瑞拉飞中国航班正常,在委华人近日可中转回国

中国唯一飞往委内瑞拉航班取消,客机将空机返委,航司称12天后委内瑞拉飞中国航班正常,在委华人近日可中转回国

极目新闻
2026-01-04 13:50:57
2026-01-05 03:07:00
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12052文章数 142528关注度
往期回顾 全部

科技要闻

雷军:骂小米汽车有流量,但别故意抹黑

头条要闻

拘押马杜罗的拘留中心"环境令人作呕" 内部画面披露

头条要闻

拘押马杜罗的拘留中心"环境令人作呕" 内部画面披露

体育要闻

女子世界第一,9年前在咖啡店洗碗

娱乐要闻

《小城大事》上星央八 热血筑梦正当时

财经要闻

李迅雷:扩内需必须把重心从"投"转向"消"

汽车要闻

最高续航310km 岚图泰山8或将上半年发布

态度原创

亲子
家居
手机
教育
公开课

亲子要闻

同学们注意了!已被列入“黑名单”的6种饮料,一口都别再喝了!

家居要闻

黑白碰撞 个性多元冷冽风

手机要闻

一加Turbo6参数公布,挑战Turbo档最强游戏体验

教育要闻

备考27新传研究生需要知道的50件事。

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版