网易首页 > 网易号 > 正文 申请入驻

智能体卷王诞生!干活自动配结项报告,1.5张截图就把事说清了

0
分享至

Youtu-Agent团队 投稿
量子位 | 公众号 QbitAI

在学校里做实验的时候,老师如何确定我们做了实验并且达到了预期效果呢?——最常见的做法是让学生写一份实验报告交上来。

现在,AI智能体拿到一个任务以后如何检验执行的效果有没有达到预期呢?我们也可以让AI在执行任务的同时主动提交一份证据链报告,边做边收集任务完成的证据,自我检查是否符合预期,不符合就继续做。



在LLM/VLM驱动的智能体(Agent)的强化学习(RL)研究中,一直面临一个巨大的挑战:

你交给智能体一个任务,它干完了,但你不知道完成度如何。



为了确认它是否真的准确完成了任务,我们不得不建立庞大的“监督系统”来复核它的每一步操作。这种“被动验证”往往需要:

  1. 手工设计的复杂校验机制(比如:完全匹配的输出内容);
  2. 强大的轨迹级验证方法(比如:LLM/VLM-as-a-Judge众投决策)。

这两种常见的先完成任务(task completion)再校验轨迹(outcome verification)的机制有以下缺点:

  1. 效率较低,人工设计的准则依赖预先编写好的评估脚本,难以简单泛化到新的任务(比如新的APP);
  2. 轨迹带噪且上下文冗长,将整条轨迹送给LLM/VLM来评判很容易被无关的环境信息干扰,降低评分的可靠性;
  3. 依赖持续可观测环境的反馈信息,部分操作往往因为环境变化
  4. (如页面刷新、操作过期)而导致验证失败。

针对以上问题,我们提出了一种简单的RL训练方法,让智能体自己成为“质检员”,在尽可能减少校验器(Verifier)审核压力的同时,让智能体学会主动分解子目标并且留痕存证。

什么是SmartSnap?

SmartSnap的核心思想是将GUI智能体从“被动的执行者”转变为“主动的自证者”。

简单来说,智能体在完成任务的同时,还会主动收集、筛选并提交一份“证据快照集”。

这份证据就像是任务的“结项报告”,让验证者只需看一眼快照,就能确认任务是否成功。



三大核心突破:从“执行”到“自证”

1. 角色升级:双重使命的“自证代理”

传统的智能体只负责“做(Execute)”,而SmartSnap提出了“自证智能体”(Self-Verifying Agent),赋予了它“自我验证(Verify)”的第二使命。

它在操作过程中会像人类一样思考:“为了证明我已经改好了设置,我需要把对开关状态截图并作为证据提交。”

2. “3C原则”:高效率的证据美学

为了避免给验证者造成信息过载,SmartSnap提出了证据策展的3C原则

  • 完整性(Completeness)
  • 证据必须足以证明任务已闭环。
  • 简洁性(Conciseness)
  • 不要冗长的视频,只要最关键的几张“定格”瞬间。
  • 创造性(Creativity)
  • 为了拿到证据,智能体甚至会主动执行“额外操作”。例如,订完票后主动跳回订单页截图。

3. 强化学习驱动:GRPO+内在奖励反馈

我们利用GRPO算法对智能体进行了训练。通过精心设计的奖励机制(Intrinsic Reward Shaping),引导智能体在保证任务成功率的同时,不断提升证据的质量,尽可能减少奖励黑客行为(reward hacking)。

战绩显赫:小模型也不错

SmartSnap的表现令人惊艳,它在AndroidLab等复杂的任务上提升显著:



  • 性能飞跃
  • 在不同规模的模型上,均实现了显著的性能提升(最高提升达26.08%)。
  • 以小博大
  • 经过SmartSnap训练的中等参数模型(如Qwen3-32B),在自证能力的加持下,其表现甚至持平DeepSeek-V3/Qwen3-235B等开源大模型

通过感性分析,我们还观察到以下特点:

  • 举证效率
  • 平均每个任务只需提交1.5张快照证据,极大地降低了后端的验证成本。
  • 高效交互
  • 智能体在训练过程中由于拟合少量的训练集而变得游刃有余,交互轮数不断减少。
  • 知识欠缺
  • 在部分APP上,我们观察到智能体存在反复、没有显著增益的表现,其领域知识的欠缺导致无法收敛到有效的解决方案(比如地图APP的各项复杂路径规划任务)。这表明模型需要依赖更多知识注入来指导探索。

为什么这简化了智能体RL训练的准备工作?

在手机端、OS端这类环境的操作中,由于其时效性特点,传统的外部验证器很难精准捕捉瞬时的成功信号。

SmartSnap就像是给智能体配上了一台取证相机。它不再需要事先对环境所有状态有一个预期的变化感知来撰写校验脚本,或者让裁判员模型盯着全程轨迹来仔细推敲,而是让智能体自己边做边收集必要的证据。

这允许我们基于合成的任务轻松拓展其训练场景,并针对有限的证据链来判断成功与否,让RL训练更加便捷。

面向未来

SmartSnap的出现,标志着GUI智能体正从“蛮力执行”走向“认知协同”。这种主动寻找证据的能力,不仅提升了AI的可靠性,更为未来大规模、低成本的AI部署铺平了道路。

未来的AI,不仅要“能干”,更要“可信”。

论文标题:

SmartSnap: Proactive Evidence Seeking for Self-Verifying Agents
论文地址:

https://arxiv.org/abs/2512.22322
代码地址:

https://github.com/TencentYoutuResearch/SmartSnap

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
关之琳为53岁弟弟庆生,姐弟罕同框长得很像,弟弟浓眉大眼的

关之琳为53岁弟弟庆生,姐弟罕同框长得很像,弟弟浓眉大眼的

阿废冷眼观察所
2026-05-15 01:16:51
浙江检察机关依法对高以忱涉嫌受贿、利用影响力受贿案提起公诉

浙江检察机关依法对高以忱涉嫌受贿、利用影响力受贿案提起公诉

界面新闻
2026-05-15 10:02:32
FIFA妥协?世界杯转播权谈判迎进展,央视坚守底线,球迷松口气

FIFA妥协?世界杯转播权谈判迎进展,央视坚守底线,球迷松口气

祥谈体育
2026-05-14 11:13:18
小学生“老干部风”穿搭火了,家长无奈吐槽:儿子周岁13,虚岁40

小学生“老干部风”穿搭火了,家长无奈吐槽:儿子周岁13,虚岁40

妍妍教育日记
2026-05-15 08:20:14
日本乒协没想到,被骂惨的张本智和,如今一句话在中国逆转了口碑

日本乒协没想到,被骂惨的张本智和,如今一句话在中国逆转了口碑

天天热点见闻
2026-05-15 06:26:40
多地国央企发侮辱性工资!

多地国央企发侮辱性工资!

黯泉
2026-05-14 21:32:42
中央巡视组进驻山东,59岁副书记曹军落马被查

中央巡视组进驻山东,59岁副书记曹军落马被查

辛苦的啊欣啊
2026-05-15 08:06:43
它是“菜中人参”5月遇到别手软,全身是宝,随手一泡,随吃随取

它是“菜中人参”5月遇到别手软,全身是宝,随手一泡,随吃随取

阿龙美食记
2026-05-14 14:55:22
重情重义,马刺CEO:邓肯每天都陪伴中风的波波维奇进行康复训练

重情重义,马刺CEO:邓肯每天都陪伴中风的波波维奇进行康复训练

懂球帝
2026-05-15 10:22:31
争议!法国仅带5中场踢世界杯 主帅弃用皇马5千万巨星:让他恨我

争议!法国仅带5中场踢世界杯 主帅弃用皇马5千万巨星:让他恨我

我爱英超
2026-05-15 07:45:16
特朗普在北京握手言欢,《纽约时报》却在背后拆台?列举三大罪状

特朗普在北京握手言欢,《纽约时报》却在背后拆台?列举三大罪状

刘振起观点
2026-05-15 09:51:23
22岁银行女生惨遭前男友杀害,男方伪装快递员骗开门,妈妈曝细节

22岁银行女生惨遭前男友杀害,男方伪装快递员骗开门,妈妈曝细节

180视角
2026-05-15 08:52:13
4-3晋级!3-2逆天改命,东部最大黑马诞生,2换1交易赚大了

4-3晋级!3-2逆天改命,东部最大黑马诞生,2换1交易赚大了

生活新鲜市
2026-05-14 19:10:52
黄仁勋这次为什么不穿皮夹克?

黄仁勋这次为什么不穿皮夹克?

麦杰逊
2026-05-14 18:07:51
售罄!女歌手演唱会门票低至40元!网友热议

售罄!女歌手演唱会门票低至40元!网友热议

深圳晚报
2026-05-14 18:32:02
宁愿用早田希娜,也不用横扫王曼昱的她,中泽锐这步险棋实在太妙

宁愿用早田希娜,也不用横扫王曼昱的她,中泽锐这步险棋实在太妙

以茶带书
2026-05-14 13:39:59
“钱车两空”!男子以租代购跑网约车,三年还清13.5万,过户前一夜车被拖走

“钱车两空”!男子以租代购跑网约车,三年还清13.5万,过户前一夜车被拖走

网约车观察室
2026-05-14 10:00:49
踏进人民大会堂前,特朗普对华提出第一个要求,中国:愿扩大合作

踏进人民大会堂前,特朗普对华提出第一个要求,中国:愿扩大合作

铁锤侃侃而谈
2026-05-15 09:50:13
最新排名出炉!第五座2000万人口城市,要来了

最新排名出炉!第五座2000万人口城市,要来了

西部城市
2026-05-14 19:18:23
DeepSeek 融资后,大模型领域会有什么新格局?

DeepSeek 融资后,大模型领域会有什么新格局?

极客公园
2026-05-14 19:57:27
2026-05-15 10:44:49
量子位 incentive-icons
量子位
追踪人工智能动态
12626文章数 176463关注度
往期回顾 全部

科技要闻

两年联姻一地鸡毛,传苹果OpenAI濒临决裂

头条要闻

媒体:特朗普访华举世瞩目 又一次使用“最高级用语”

头条要闻

媒体:特朗普访华举世瞩目 又一次使用“最高级用语”

体育要闻

德约科维奇买的球队,从第6级联赛升入法甲

娱乐要闻

方媛回应住男生单人间:女孩的配得感

财经要闻

特朗普的北京时刻

汽车要闻

双零重力座椅/AI智能体/调光天幕 启境GT7内饰发布

态度原创

教育
时尚
亲子
数码
手机

教育要闻

美国商务签 真的假不了假的真不了 看看什么叫真正的商务人士办的商务签

看《给阿嬷的情书》,带纸巾,别带懂王

亲子要闻

我和7个月女娃的晚间规律【周六野Zoey】

数码要闻

Mag7都在疯狂烧钱 苹果却在白嫖谷歌Gemini 分析师:这招真高!

手机要闻

对标大疆Pocket!OPPO、vivo年底齐推云台相机

无障碍浏览 进入关怀版