网易首页 > 网易号 > 正文 申请入驻

颠覆现有 Agent 范式!清华&面壁提出新一代主动Agent交互范式

0
分享至

作者 | OpenBMB 社区

当前,哪怕是 ChatGPT 等最先进的 AI Agent 都是传统的被动式 Agent(下图 1 左侧所示),即需要用户通过明确的指令显示告诉 Agent 应该做什么,Agent 才能继续执行接下来的任务。

而近期清华大学联合面壁智能等团队提出了开创性的新一代主动 Agent 交互范式( ProActive Agent),为 AI 交互带来了突破性的解决方案(下图 1 右侧所示)。这一新范式下的 Agent 不再是简单的指令执行者,而是升级成为了具有"眼力见"的智能助手。它具备"眼中有活、主动帮助"的主动能动性,能够主动观察环境、预判用户需求,像"肚子里的蛔虫"一样,在未被明确指示的情况下主动帮用户排忧解难,主动 Agent 实现了从"被命令"到"会思考"的质的飞跃。

图 1:两种人类与智能体交互形式的比对。左侧的被动式 Agent 只能被动接受用户指令并生成回复,而右侧的主动式 Agent 可以通过观测环境主动推断与提出任务。

论文链接:https://arxiv.org/abs/2410.12361

Github 地址:https://github.com/thunlp/ProactiveAgent

为了更清晰地理解这一技术突破的意义,我们可以通过以下表格来详细分析对比两种范式的本质区别:

主动 Agent 交互范式在日常生活中有丰富的应用潜力,以下是一些近期预想可实现的场景

主动 Agent 交互范式

应用场景 demo 演示

场景 1:在一段情侣聊天的场景中,男生邀请女生一起要在周六去环球影城并于早上八点来接女生,当 Agent 获取用户授权之后随时保持在线的“候命状态”,当 Agent 通过上下文聊天内容实时识别到女生的需求,在没有用户明确下指令的情况下,Agent 主动帮女生定了一个周日早上七点的闹钟用来提醒起床。

场景 2:当用户在电脑上接收到一份重要文件(学习课件、发票等)时,Agent 主动帮用户把文件存到了本地,并自动识别出 PDF 文件第一页显示的标题然后帮用户把文件名进行了重命名。

该研究除了提出以上开创性的主动 Agent 之外,还通过采集不同场景下的人类活动数据构建了一个环境模拟器,进而构建了数据集 ProactiveBench,通过训练模型获得了与人类高度一致的奖励模型,并比对了不同模型在数据集下的性能。

主动 Agent 技术原理

下图展示了主动 Agent 技术原理的整体流程。为了让智能体能够主动提出任务,该研究设计了三个组件以模拟不同场景下的环境信息,用户行为和对智能体提出任务的反馈。

图 2 数据生成过程总览。该过程包含了初始环境与任务设置,事件生成,主动预测,用户判断和行动执行。

其中:

  1. 环境模拟器模拟了一个特定环境,并为智能体的交互提供了一个沙盒条件。模拟器通过使用基于 Activity Watcher 软件采集到的真实人类数据以提升生成事件的质量。环境模拟器的主要功能为事件生成与状态维护:通过使用 GPT-4o 从人类注释员处收集的种子事件以生成一个需要交互的具体环境,同时生成所有相关实体以让智能体执行任务。对于每个场景,环境模拟器接收用户活动并生成详细的,逻辑通顺合理的事件,环境模拟器将会持续生成事件,更新实体状态,产生特定反馈,直到当前环境下没有更多事件以供生成。

  2. 主动智能体将会通过环境模拟器提供的信息预测用户意图,生成预测任务。每当智能体接受一个新事件后,它将首先更新自己的记忆,结合用户之前的反馈和历史交互信息,主动智能体将能够结合用户性格提出可能的任务。如果主动智能体没有检测到需要,其将保持静默,反之将会提出一个任务。一旦此任务被用户接受,那么主动智能体将在环境模拟器中执行该任务,并进而产生后续的系列事件。

  3. 用户智能体将模拟用户行为并对主动智能体的任务做出反馈。用户智能体为经过提示的 GPT-4o, 在获取预测之后,用户智能体将会决定是否接受任务。该研究通过从人类标注员处收集判断,并训练一个奖励模型以模拟这一过程。人类标注员在研究开发的标注平台上进行标注,对特定时间下,9 个不同的大语言模型生成的多样化预测进行判断,并通过多数投票的方式决定某个回合用户是否具有需求,以及用户倾向于接受什么类型的任务。值得一提的是,人类标注员在测试集上达到了 91.67% 的一致性,充分说明了测试集的可靠性。

主动 Agent 实验研究

该研究提出了一套度量方式衡量奖励模型和人工标注员的一致性:

  • 需求遗落 (MN):人工标注认为需要帮助而奖励模型认为无需帮助。

  • 静默应答 (NR):人工标注和奖励模型都认为无需帮助。

  • 正确检测 (CD):人工标注和奖励模型都认为需要帮助。

  • 错误检测 (FD):人工标注认为无需帮助而奖励模型认为需要帮助。

在这四个度量方式上进行召回率、精确度、准确度和 F1 分数的计算,从结果上看,所有的现有模型都在正确检测上表现良好,但对于其他指标则性能较差。现有模型倾向于接受智能体的任务,尽管可能毫无助益。相对的,该研究训练的模型性能最优,因此被选为 ProactiveBench 的奖励模型。

图表 3 不同模型作为奖励模型的评测结果。研究展示了模型与人工标注员多数投票结果之间的一致性。在 LLaMA-3.1-instruct-8B 微调的模型取得了最好结果。

通过奖励模型,可以进一步衡量主动智能体的性能表现。该研究在不同的模型上进行了评估,并将模型预测的结果交由奖励模型进行评价。从结果上看,闭源模型会倾向于主动提出任务而不能在用户无需帮助时保持静默,模型提供的任务往往过于抽象或无用,以至于产生较高的误报率。对于开源模型,经过数据集训练的模型明显更优,这证实了研究数据合成流水线的有效性。同时,经过训练的模型也在误报率上有了明显的下降,尽管提供不必要的帮助的情况仍然存在。

图表 4 不同模型在 ProactiveBench 数据上的评测结果。GPT-4o 在闭源模型中脱颖而出,对于开源模型,基于 Qwen2-7B 微调的结果取得最好成果。

研究同样进行了消融学习以研究提出任务数量和用户反馈对于智能体性能的影响。通过让模型提出多个可能的任务并一一进行判断,所有的模型在指标上都有明显的上升。通过给予模型来自奖励模型的反馈,所有的模型误报率都有所下降,准确度有所上升,但在召回率的表现上有明显下降。通过结合奖励模型,主动智能体可以更好的检测用户需求,降低误报率。

图表 5 基准线,多任务预测,获取反馈之间的比较。结果表明所有的模型都有所提升。模型的误报率由于接受预测的可能性更高或被奖励模型改进而显著下降。

结 语

该研究提出了创新的人类 - 智能体交互方法即主动 Agent(ProActive Agent)范式,有望将 AI 从被动的工具转变为具有洞察力和主动帮助的智能协作,从而开启人机交互新范式。

这一技术革新不仅将改变我们与 AI 交互的方式,更有望为大众群体创造更加包容和便利的智能化生活环境。随着技术的不断进步,我们可以期待看到更自然的人机协作模式,更智能的场景适应能力,以及更深度的个性化服务。

InfoQ 老友!请留步!极客邦 1 号客服上线工作啦!

后续我将通过微信视频号,以视频的形式持续更新技术话题、未来发展趋势、创业经验、商业踩坑教训等精彩内容,和大家一同成长,开启知识交流之旅

会议推荐

就在 12 月 13 日 -14 日,AICon 将汇聚 70+ 位 AI 及技术领域的专家,深入探讨大模型与推理、AI Agent、多模态、具身智能等前沿话题。此外,还有丰富的圆桌论坛、以及展区活动,满足你对大模型实践的好奇与想象。现在正值 9 折倒计时,名额有限,快扫码咨询了解详情,别错过这次绝佳的学习与交流机会!

今日荐文

你也「在看」吗?

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
奚梦瑶婚礼被扒!场地费不超50万,婚纱赞助杂志宣传,全是生意?

奚梦瑶婚礼被扒!场地费不超50万,婚纱赞助杂志宣传,全是生意?

萌神木木
2026-06-02 11:07:12
5天3王炸!中国科技将进入大爆发周期,西方彻底看懵了

5天3王炸!中国科技将进入大爆发周期,西方彻底看懵了

瓦伦西亚月亮
2026-06-02 01:06:25
广厦三核79分拒横扫:胡金秋30分大爆发 双小外49+14+15制胜

广厦三核79分拒横扫:胡金秋30分大爆发 双小外49+14+15制胜

醉卧浮生
2026-06-02 21:32:14
再见,杨瀚森,8换1或去雄鹿

再见,杨瀚森,8换1或去雄鹿

体育新角度
2026-06-02 19:59:18
美伊临时停火以来 最戏剧化的一天

美伊临时停火以来 最戏剧化的一天

看看新闻Knews
2026-06-02 18:32:59
国乒完成新老交替!王皓宣布王楚钦任男队队长,马龙结束12年任期

国乒完成新老交替!王皓宣布王楚钦任男队队长,马龙结束12年任期

乒谈
2026-06-02 20:49:37
055和基洛夫并排的对比图,我才惊觉军舰设计已经隔了一个时代

055和基洛夫并排的对比图,我才惊觉军舰设计已经隔了一个时代

安安说
2026-06-02 12:46:29
挪威深海发现载有中国瓷器的18世纪沉船:大量青花瓷碗重见天日,文物达数千件,目前正开展船只溯源工作并努力还原历史真相

挪威深海发现载有中国瓷器的18世纪沉船:大量青花瓷碗重见天日,文物达数千件,目前正开展船只溯源工作并努力还原历史真相

大风新闻
2026-06-02 12:15:18
夏补钾,不疲惫,建议大家:夏天多吃这3种“补钾高手”,精神好

夏补钾,不疲惫,建议大家:夏天多吃这3种“补钾高手”,精神好

阿龙美食记
2026-05-31 20:23:07
KFC儿童门诊突然爆火,网友:还是西药见效快

KFC儿童门诊突然爆火,网友:还是西药见效快

4A广告网
2026-06-02 17:41:40
云南一博士生实名举报导师,对话录音曝光,导师声称:我只有一项国自然,你得自己掏钱做实验

云南一博士生实名举报导师,对话录音曝光,导师声称:我只有一项国自然,你得自己掏钱做实验

生物学霸
2026-06-01 17:18:39
女生为秀恩爱,偷偷在男友博士论文里编造了第 52 条参考文献,网友:博士男友秒变硕士前男友

女生为秀恩爱,偷偷在男友博士论文里编造了第 52 条参考文献,网友:博士男友秒变硕士前男友

生物学霸
2026-06-02 17:13:59
22岁男子入室杀害前女友,曾称“你不过是长得漂亮,你凭啥?”

22岁男子入室杀害前女友,曾称“你不过是长得漂亮,你凭啥?”

中国新闻周刊
2026-06-02 18:00:54
外卖大战的“炮灰”,过剩的1600万骑手

外卖大战的“炮灰”,过剩的1600万骑手

深水财经社
2026-05-31 12:14:09
六神新包装撞脸人民币!网友不淡定了

六神新包装撞脸人民币!网友不淡定了

李东阳朋友圈
2026-06-02 18:16:17
上海队开出了巨额奖金!

上海队开出了巨额奖金!

体育哲人
2026-06-02 13:41:18
CBA总决赛还没结束!上海已提前开卖冠军衫:广厦被直接无视了?

CBA总决赛还没结束!上海已提前开卖冠军衫:广厦被直接无视了?

篮球快餐车
2026-06-02 18:14:36
以色列总理扬言伊朗政权将覆灭

以色列总理扬言伊朗政权将覆灭

界面新闻
2026-06-02 20:42:10
女选手泳衣移位被无码直播,近万人围观!主办方道歉,摄影师封杀

女选手泳衣移位被无码直播,近万人围观!主办方道歉,摄影师封杀

酷侃体坛
2026-06-02 09:09:51
宇树科技IPO通过,研发占比低得吓人!原来是靠社区Build?

宇树科技IPO通过,研发占比低得吓人!原来是靠社区Build?

小星球探索
2026-06-02 13:56:15
2026-06-02 21:47:00
AI前线 incentive-icons
AI前线
面向AI爱好者、开发者和科学家,提供AI领域技术资讯。
1537文章数 152关注度
往期回顾 全部

科技要闻

烧掉千亿后,美团、阿里、京东谁先止血?

头条要闻

准新小区数百户业主自筹1750万改造外立面 系杭州首例

头条要闻

准新小区数百户业主自筹1750万改造外立面 系杭州首例

体育要闻

1米74的业余联赛替补,在英超踢中卫

娱乐要闻

奚梦瑶何猷君补办婚礼超幸福

财经要闻

智元和宇树的“暗战”愈演愈烈

汽车要闻

星途神秘新车轮廓曝光 又一款性能SUV要来了?

态度原创

亲子
教育
手机
数码
健康

亲子要闻

六一平安出院,恰逢科室节日活动,欣欣尽兴玩耍

教育要闻

事关中考命题,南京一些老师被“关起来了”?

手机要闻

爆苹果iPhone Ultra敲定本月量产!定价破万,你真考虑好入手了?

数码要闻

华为nova 16系列发布:2999元起 全系配备后置红枫原色镜头

违规干细胞应用,暗藏致命隐患!

无障碍浏览 进入关怀版