网易首页 > 网易号 > 正文 申请入驻

大模型乱试错、盲调用?KnowSelf让智能体有「知识边界感知」能力

0
分享至


在 AI 领域,大模型智能体的发展日新月异。我们今天要介绍的这篇 ACL 2025 论文——《Agentic Knowledgeable Self-awareness》,聚焦于如何提升智能体的「知识边界感知」能力,使其在复杂任务规划中更加得心应手,为智能体的可靠应用提供了新思路。

  • 论文标题:Agentic Knowledgeable Self-awareness
  • 论文链接:https://arxiv.org/abs/2504.03553
  • 代码链接:https://github.com/zjunlp/KnowSelf

30 秒速读版本

KnowSelf 聚焦于大模型智能体在决策过程中所面临的「知识边界感知」问题。受人类决策机制启发,本文指出智能体应具备三类行为模式的自主决策能力:快速反应(快思考)、深度推理(慢思考),以及主动调用外部工具(本文以外部知识增强为例)。

KnowSelf 通过学习自身的知识边界,使智能体能在不同情境下自主判断是否具备足够知识进行生成和推理,以减少无效试错与知识滥用。实验表明,KnowSelf 可提升智能体的知识调用准确率、任务规划效率和跨任务泛化能力。

研究背景:智能体规划的困境

大模型智能体在诸多领域展现出巨大潜力,但现有智能体规划方法存在弊端。传统方法多采用「盲目灌输」模式,将标准轨迹、外部反馈和领域知识无差别地注入智能体模型,完全忽视了人类决策过程中至关重要的「自我认知」原则。

这种「无脑式」灌输导致智能体在面对意外信号时极易崩溃,陷入模式崩塌困境,且过度试错与盲目知识融合在实际场景中往往不可行,还会大幅推高模型推理成本。

人类在决策时,会根据面临的情境动态评估自身状态,灵活调整策略。比如,当我们遇到简单问题时,能迅速做出判断并行动;遇到棘手问题,会放慢思考节奏,深入分析;而面对超出自身能力范围的问题,会主动寻求外部知识或帮助。

然而,当前大模型智能体普遍缺乏这种「知识边界感知」能力,导致规划行为低效且脆弱。

核心方法:KnowSelf 框架

为破解这一难题,论文提出了智能体「知识边界感知」的思路,并基于此设计了数据驱动 KnowSelf 方法,让大模型智能体能够自主调节知识的运用。

  • 知识系统构建

对于外部工具(知识),并采用了一种简单高效知识收集方法,以极低成本完成知识库的离线构建。该知识系统由知识库和知识选择模块组成,其中知识库包含一系列知识条目,知识选择模块能依据智能体历史轨迹从知识库中精准挑选所需知识。这种设计兼顾了知识系统的实用性和高效性。

  • 情境判断标准

论文基于智能体的能力,将情境划分为三类:快速思考(Fast Thinking)、慢速思考(Slow Thinking)和知识型思考(Knowledgeable Thinking)。并提出了启发式情境判断标准,用于标记智能体自我探索轨迹中的特殊标记,从而针对智能体的能力构建出训练数据,为后续训练奠定基础。

  • 快思考:智能体无需多虑,能直接给出正确行动
  • 慢思考:智能体虽能给出正确行动,但需经过多步思考与反思
  • 知识型思考:智能体自身无法提供正确行动,必须借助外部知识辅助思考
  • 自我认知训练

KnowSelf 采用双阶段训练过程,先通过监督式微调(SFT),让智能体模型初步掌握自我认知规划模式;再引入 RPO 损失函数,进一步强化自我认知能力。在这一体系下,智能体会生成特定特殊标记,表明其对情境的判断,在推理过程中实现知识查询与反思的精准调控。

实验成果

本文在两个模拟大模型智能体规划数据集 ALFWorld 和 WebShop 上,对 KnowSelf 进行了全面评估,涵盖 Llama-8B 和 Gemma-2B 两个不同规模的模型。实验结果显示,KnowSelf 凭借极少的反思和知识使用,性能优于多种基线方法。

与无知识基线方法对比,KnowSelf 在 Llama-8B 和 Gemma-2B 模型上均展现出卓越性能。与知识增强型基线方法相比,KnowSelf 仅用少量知识,就超越了所有的 100% 知识增强基线方法,充分证明了并非知识越多越好,精准的知识引入机制才是关键。

进一步分析:深入探索智能体自我认知

  • 智能体规划模式过拟合

本文通过消融实验,发现仅在标准轨迹上训练的模型更易陷入模式拟合,而引入反思和知识边界感知后,智能体规划能力提升。这表明,在许多情况下,智能体并非不能做出正确决策,而是受限于规划模式。此外,过度引入知识可能会对性能产生负面影响,因此凸显了精准知识引入机制的重要性。

  • 智能体规划泛化能力

在泛化能力测试中,KnowSelf 在 ALFWorld 的三项挑战性任务上表现优异,优于基于提示的基线方法 Reflexion。这表明 KnowSelf 能有效打破传统规划轨迹训练的局限,使模型具备跨任务情境感知能力,在未见过的任务上能灵活运用反思和知识引入策略。

  • 模型与数据规模影响

随着模型规模扩大和自我认知训练数据量增加,KnowSelf 性能稳步提升。当自我认知训练数据相对比例低于 40% 时,模型性能可能出现波动甚至下降,推测模型需达到一定自我认知水平才能稳定发挥效能。

  • 智能体自我认知机制机理

本文在 Transformer 模型的各层计算不同情境标记的平均概率,发现 Reflection 标记概率始终为零,Knowledge 标记和 Action 标记在模型最后几层才出现。这表明智能体在内部决策时,仅在最后几层隐藏层才决定是否调用外部知识,且调用知识的决策可能更晚出现,暗示智能体在 Token 空间内通过隐式奖励引导进行探索,最终做出决策。

结论与展望

本文提出的 KnowSelf 方法为智能体规划提供了新思路,初步探索了智能体知识边界感知这一问题。在后 R1 时代,随着 Search-R1、ReSearch、Deep Researcher 等工作的出现,基于 RL 的智能体自主知识获取工作展现了巨大的前景,KnowSelf 还只是在这个时代之前的初步产物,相信随着技术的发展,基于 RL 的智能体自我认知能迸发更大的活力。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
你以为麻豆传媒是卖片的,其实它是卖人的

你以为麻豆传媒是卖片的,其实它是卖人的

创始人笔记
2026-04-23 21:44:50
花掉三亿人民币,打捞一艘800年沉船,打开船舱后,所有人都懵了

花掉三亿人民币,打捞一艘800年沉船,打开船舱后,所有人都懵了

海佑讲史
2026-04-30 17:15:12
穿着短裤闯伦敦,无视国乒前辈!19岁松岛辉空,你的狂妄能撑多久

穿着短裤闯伦敦,无视国乒前辈!19岁松岛辉空,你的狂妄能撑多久

曹老师评球
2026-04-30 15:09:42
花了42亿美元,却是NBA最抠老板

花了42亿美元,却是NBA最抠老板

刺猬篮球
2026-04-30 22:35:35
张雪峰的团队快散了

张雪峰的团队快散了

犀利强哥
2026-04-29 21:07:20
彻底失败了!卡米拉王后国宴造型太拉胯,顶配身份珠宝尽显廉价感

彻底失败了!卡米拉王后国宴造型太拉胯,顶配身份珠宝尽显廉价感

深析古今
2026-04-29 20:58:17
姜伟泽和女友近照,小角色逆袭,年薪275万,女友是性感美女

姜伟泽和女友近照,小角色逆袭,年薪275万,女友是性感美女

大西体育
2026-04-30 19:21:09
东莞口腔医院拒绝改名!

东莞口腔医院拒绝改名!

听心堂
2026-04-29 10:35:17
为什么明明失业的人越来越多,整体社会依旧平稳安定?

为什么明明失业的人越来越多,整体社会依旧平稳安定?

玉辞心
2026-04-23 13:25:37
去世老师女儿跟后妈争遗产

去世老师女儿跟后妈争遗产

毒舌扒姨太
2026-04-30 22:43:18
iPad今年就这两台,苹果在挤什么牙膏

iPad今年就这两台,苹果在挤什么牙膏

摸鱼算法
2026-04-30 22:26:26
中国将迎来首艘核动力航母?国防部回应

中国将迎来首艘核动力航母?国防部回应

澎湃新闻
2026-04-30 15:40:26
新娘确实漂亮,但我更喜欢戴眼镜那个。

新娘确实漂亮,但我更喜欢戴眼镜那个。

动物奇奇怪怪
2026-04-12 12:44:36
重磅突发!美伊战局再次失控,特朗普彻底慌了!

重磅突发!美伊战局再次失控,特朗普彻底慌了!

大嘴说天下
2026-04-30 22:45:03
王腾高调力挺老东家!加仓小米股票 直接晒出购买交易截图

王腾高调力挺老东家!加仓小米股票 直接晒出购买交易截图

快科技
2026-04-30 14:56:24
华晨宇抚仙湖演唱会被取消的真实原因!

华晨宇抚仙湖演唱会被取消的真实原因!

谣谈乡村振兴
2026-04-30 13:42:50
53岁罗永浩罕见聊老婆:自曝生理性喜欢,丁克无娃,给她存钱养老

53岁罗永浩罕见聊老婆:自曝生理性喜欢,丁克无娃,给她存钱养老

橙星文娱
2026-04-30 09:36:30
从奥斯卡提名演员到终身监禁:一个"精神领袖"的26年骗局

从奥斯卡提名演员到终身监禁:一个"精神领袖"的26年骗局

追星雷达站
2026-04-29 02:09:13
各科医生最想跟你说的大实话,很有用!收藏好常看看

各科医生最想跟你说的大实话,很有用!收藏好常看看

华人星光
2026-04-23 12:00:20
密谋取代普京?克宫内部“秘密反水”,莫斯科或迎来史上最强政变

密谋取代普京?克宫内部“秘密反水”,莫斯科或迎来史上最强政变

凉了时光人
2026-04-30 13:41:08
2026-04-30 23:19:00
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12898文章数 142640关注度
往期回顾 全部

科技要闻

9000亿美元估值,Anthropic即将反超OpenAI

头条要闻

搞权色、钱色交易 被"双开"的易会满通过上市审批谋利

头条要闻

搞权色、钱色交易 被"双开"的易会满通过上市审批谋利

体育要闻

季后赛场均5.4分,他凭啥在骑士打首发?

娱乐要闻

孙杨博士学历有问题?官方含糊其辞

财经要闻

易会满被“双开”!

汽车要闻

专访捷途汪如生:捷途双线作战 全球化全面落地

态度原创

房产
教育
艺术
时尚
家居

房产要闻

熬了6年,涨了2亿,三亚核心区这块地再次上架

教育要闻

北京第二实验小学永定分校:体育文化节里话“健康第一”

艺术要闻

安东·爱德华·基尔德鲁普:19世纪丹麦风景画家

衣服不一定要买贵的,看看下面这些春季穿搭,轻盈舒适又不单调

家居要闻

灵动实用 生活艺术场

无障碍浏览 进入关怀版