网易首页 > 网易号 > 正文 申请入驻

智能体卷王诞生!干活自动配结项报告,1.5张截图就把事说清了

0
分享至

Youtu-Agent团队 投稿
量子位 | 公众号 QbitAI

在学校里做实验的时候,老师如何确定我们做了实验并且达到了预期效果呢?——最常见的做法是让学生写一份实验报告交上来。

现在,AI智能体拿到一个任务以后如何检验执行的效果有没有达到预期呢?我们也可以让AI在执行任务的同时主动提交一份证据链报告,边做边收集任务完成的证据,自我检查是否符合预期,不符合就继续做。



在LLM/VLM驱动的智能体(Agent)的强化学习(RL)研究中,一直面临一个巨大的挑战:

你交给智能体一个任务,它干完了,但你不知道完成度如何。



为了确认它是否真的准确完成了任务,我们不得不建立庞大的“监督系统”来复核它的每一步操作。这种“被动验证”往往需要:

  1. 手工设计的复杂校验机制(比如:完全匹配的输出内容);
  2. 强大的轨迹级验证方法(比如:LLM/VLM-as-a-Judge众投决策)。

这两种常见的先完成任务(task completion)再校验轨迹(outcome verification)的机制有以下缺点:

  1. 效率较低,人工设计的准则依赖预先编写好的评估脚本,难以简单泛化到新的任务(比如新的APP);
  2. 轨迹带噪且上下文冗长,将整条轨迹送给LLM/VLM来评判很容易被无关的环境信息干扰,降低评分的可靠性;
  3. 依赖持续可观测环境的反馈信息,部分操作往往因为环境变化
  4. (如页面刷新、操作过期)而导致验证失败。

针对以上问题,我们提出了一种简单的RL训练方法,让智能体自己成为“质检员”,在尽可能减少校验器(Verifier)审核压力的同时,让智能体学会主动分解子目标并且留痕存证。

什么是SmartSnap?

SmartSnap的核心思想是将GUI智能体从“被动的执行者”转变为“主动的自证者”。

简单来说,智能体在完成任务的同时,还会主动收集、筛选并提交一份“证据快照集”。

这份证据就像是任务的“结项报告”,让验证者只需看一眼快照,就能确认任务是否成功。



三大核心突破:从“执行”到“自证”

1. 角色升级:双重使命的“自证代理”

传统的智能体只负责“做(Execute)”,而SmartSnap提出了“自证智能体”(Self-Verifying Agent),赋予了它“自我验证(Verify)”的第二使命。

它在操作过程中会像人类一样思考:“为了证明我已经改好了设置,我需要把对开关状态截图并作为证据提交。”

2. “3C原则”:高效率的证据美学

为了避免给验证者造成信息过载,SmartSnap提出了证据策展的3C原则

  • 完整性(Completeness)
  • 证据必须足以证明任务已闭环。
  • 简洁性(Conciseness)
  • 不要冗长的视频,只要最关键的几张“定格”瞬间。
  • 创造性(Creativity)
  • 为了拿到证据,智能体甚至会主动执行“额外操作”。例如,订完票后主动跳回订单页截图。

3. 强化学习驱动:GRPO+内在奖励反馈

我们利用GRPO算法对智能体进行了训练。通过精心设计的奖励机制(Intrinsic Reward Shaping),引导智能体在保证任务成功率的同时,不断提升证据的质量,尽可能减少奖励黑客行为(reward hacking)。

战绩显赫:小模型也不错

SmartSnap的表现令人惊艳,它在AndroidLab等复杂的任务上提升显著:



  • 性能飞跃
  • 在不同规模的模型上,均实现了显著的性能提升(最高提升达26.08%)。
  • 以小博大
  • 经过SmartSnap训练的中等参数模型(如Qwen3-32B),在自证能力的加持下,其表现甚至持平DeepSeek-V3/Qwen3-235B等开源大模型

通过感性分析,我们还观察到以下特点:

  • 举证效率
  • 平均每个任务只需提交1.5张快照证据,极大地降低了后端的验证成本。
  • 高效交互
  • 智能体在训练过程中由于拟合少量的训练集而变得游刃有余,交互轮数不断减少。
  • 知识欠缺
  • 在部分APP上,我们观察到智能体存在反复、没有显著增益的表现,其领域知识的欠缺导致无法收敛到有效的解决方案(比如地图APP的各项复杂路径规划任务)。这表明模型需要依赖更多知识注入来指导探索。

为什么这简化了智能体RL训练的准备工作?

在手机端、OS端这类环境的操作中,由于其时效性特点,传统的外部验证器很难精准捕捉瞬时的成功信号。

SmartSnap就像是给智能体配上了一台取证相机。它不再需要事先对环境所有状态有一个预期的变化感知来撰写校验脚本,或者让裁判员模型盯着全程轨迹来仔细推敲,而是让智能体自己边做边收集必要的证据。

这允许我们基于合成的任务轻松拓展其训练场景,并针对有限的证据链来判断成功与否,让RL训练更加便捷。

面向未来

SmartSnap的出现,标志着GUI智能体正从“蛮力执行”走向“认知协同”。这种主动寻找证据的能力,不仅提升了AI的可靠性,更为未来大规模、低成本的AI部署铺平了道路。

未来的AI,不仅要“能干”,更要“可信”。

论文标题:

SmartSnap: Proactive Evidence Seeking for Self-Verifying Agents
论文地址:

https://arxiv.org/abs/2512.22322
代码地址:

https://github.com/TencentYoutuResearch/SmartSnap

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
晚年毛主席原谅了很多人,为何唯独不原谅潘汉年?主席对他寒了心

晚年毛主席原谅了很多人,为何唯独不原谅潘汉年?主席对他寒了心

温读
2025-03-13 18:28:10
堂哥卷走我家50万,20年后他儿子大婚,我给亲家寄了一份“贺礼”

堂哥卷走我家50万,20年后他儿子大婚,我给亲家寄了一份“贺礼”

萧竹轻语
2025-12-15 16:09:01
前夫再婚,只邀请我女儿去,婚礼现场,女儿突然上台发言

前夫再婚,只邀请我女儿去,婚礼现场,女儿突然上台发言

朝暮书屋
2026-01-14 19:50:18
婆婆硬塞两个侄子住我家,还说我们工资高养得起,小叔却潇洒再婚

婆婆硬塞两个侄子住我家,还说我们工资高养得起,小叔却潇洒再婚

半夏解语
2026-01-24 07:00:03
找了老伴,儿子一家3口一周来三次,大爷:一不买菜二不干活,滚

找了老伴,儿子一家3口一周来三次,大爷:一不买菜二不干活,滚

秀秀情感课堂
2026-01-24 16:15:02
房子遍地1万出头的兴隆湖

房子遍地1万出头的兴隆湖

不鱼
2026-01-24 22:56:47
《人民日报》:70%的病跟情绪有关!很多人被亲人给慢性折磨死的

《人民日报》:70%的病跟情绪有关!很多人被亲人给慢性折磨死的

诗词中国
2026-01-23 18:47:36
20岁李嫣近况全解锁:天后基因焊牢气场,恋爱疑云把老父拉黑

20岁李嫣近况全解锁:天后基因焊牢气场,恋爱疑云把老父拉黑

动物奇奇怪怪
2026-01-22 00:23:24
江苏发布雨雪预报 中东部迎降温雨雪

江苏发布雨雪预报 中东部迎降温雨雪

现代快报
2026-01-25 11:57:06
我擦!杨瀚森“失宠”了,无球可打

我擦!杨瀚森“失宠”了,无球可打

体育新角度
2026-01-24 21:11:52
博主吐槽亲哥给农村来的老妈立11条规矩,把妈当保姆!评论反转了

博主吐槽亲哥给农村来的老妈立11条规矩,把妈当保姆!评论反转了

墙头草
2026-01-15 07:31:36
中国哪个城市的水质最好?经评比:这10个城市上榜,快来看看,有你的家乡吗?

中国哪个城市的水质最好?经评比:这10个城市上榜,快来看看,有你的家乡吗?

美食格物
2026-01-23 17:04:10
台军女飞行员郭文静:只要长官敢下令,我会毫不犹豫的击落歼20!

台军女飞行员郭文静:只要长官敢下令,我会毫不犹豫的击落歼20!

顾史
2026-01-21 21:04:39
悲催!27岁女子猝死,家中除了直播的衣服,就全是外卖和奶茶口袋

悲催!27岁女子猝死,家中除了直播的衣服,就全是外卖和奶茶口袋

火山诗话
2026-01-24 10:49:32
故事:大伯排污口对准我鱼塘,我不吭声,连夜抽干水种五十株桉树

故事:大伯排污口对准我鱼塘,我不吭声,连夜抽干水种五十株桉树

二十一号故事铺
2026-01-19 22:40:04
到底什么叫洗钱?网友"完美闭环"式回答,感觉错过了一个亿

到底什么叫洗钱?网友"完美闭环"式回答,感觉错过了一个亿

另子维爱读史
2026-01-09 22:18:04
孔子第76代孙在美国结婚,妻子厚唇大眼是大马名媛,两人网上认识

孔子第76代孙在美国结婚,妻子厚唇大眼是大马名媛,两人网上认识

老范谈史
2026-01-22 18:11:28
三位大人物骨灰被移出八宝山,他们分别是谁?其中一人是开国上将

三位大人物骨灰被移出八宝山,他们分别是谁?其中一人是开国上将

文史达观
2025-09-08 20:13:26
金价上涨的第一批受害者出现了。

金价上涨的第一批受害者出现了。

爱吃糖的猫cat
2026-01-25 10:28:59
俄罗斯人自己先捅破了窗户纸:外蒙古和远东,怕不是要“回家”了

俄罗斯人自己先捅破了窗户纸:外蒙古和远东,怕不是要“回家”了

福建平子
2026-01-20 06:52:46
2026-01-25 12:36:49
量子位 incentive-icons
量子位
追踪人工智能动态
12058文章数 176362关注度
往期回顾 全部

科技要闻

马斯克SpaceX背后的她:现实版钢铁侠小辣椒

头条要闻

黑龙江农民工被拖欠35万工资 总包方想用甘肃房子抵薪

头条要闻

黑龙江农民工被拖欠35万工资 总包方想用甘肃房子抵薪

体育要闻

中国足球不会一夜变强,但他们已经创造历史

娱乐要闻

王玉雯方严正声明 剧方回应:涉事人员已被开除

财经要闻

隋广义等80人被公诉 千亿骗局进入末路

汽车要闻

别克至境E7内饰图曝光 新车将于一季度正式发布

态度原创

教育
家居
旅游
艺术
健康

教育要闻

马年特色寒假作业清单来了!各科全覆盖,老师一定用得上!

家居要闻

在家度假 160平南洋混搭宅

旅游要闻

心有归处,风行龙门!石窟、古街双摘时尚旅游金榜重磅荣誉

艺术要闻

全认识这13个字的人,能否复印王羲之的作品?

耳石脱落为何让人天旋地转+恶心?

无障碍浏览 进入关怀版