网易首页 > 网易号 > 正文 申请入驻

智能体卷王诞生!干活自动配结项报告,1.5张截图就把事说清了

0
分享至

来源:市场资讯

(来源:量子位)

在学校里做实验的时候,老师如何确定我们做了实验并且达到了预期效果呢?——最常见的做法是让学生写一份实验报告交上来。

现在,AI智能体拿到一个任务以后如何检验执行的效果有没有达到预期呢?我们也可以让AI在执行任务的同时主动提交一份证据链报告,边做边收集任务完成的证据,自我检查是否符合预期,不符合就继续做。


在LLM/VLM驱动的智能体(Agent)的强化学习(RL)研究中,一直面临一个巨大的挑战:

你交给智能体一个任务,它干完了,但你不知道完成度如何。


为了确认它是否真的准确完成了任务,我们不得不建立庞大的“监督系统”来复核它的每一步操作。这种“被动验证”往往需要:

这两种常见的先完成任务(task completion)再校验轨迹(outcome verification)的机制有以下缺点:

针对以上问题,我们提出了一种简单的RL训练方法,让智能体自己成为“质检员”,在尽可能减少校验器(Verifier)审核压力的同时,让智能体学会主动分解子目标并且留痕存证。

什么是SmartSnap?

SmartSnap的核心思想是将GUI智能体从“被动的执行者”转变为“主动的自证者”。

简单来说,智能体在完成任务的同时,还会主动收集、筛选并提交一份“证据快照集”。

这份证据就像是任务的“结项报告”,让验证者只需看一眼快照,就能确认任务是否成功。


三大核心突破:从“执行”到“自证”

1. 角色升级:双重使命的“自证代理”

传统的智能体只负责“做(Execute)”,而SmartSnap提出了“自证智能体”(Self-Verifying Agent),赋予了它“自我验证(Verify)”的第二使命。

它在操作过程中会像人类一样思考:“为了证明我已经改好了设置,我需要把对开关状态截图并作为证据提交。”

2. “3C原则”:高效率的证据美学

为了避免给验证者造成信息过载,SmartSnap提出了证据策展的3C原则

3. 强化学习驱动:GRPO+内在奖励反馈

我们利用GRPO算法对智能体进行了训练。通过精心设计的奖励机制(Intrinsic Reward Shaping),引导智能体在保证任务成功率的同时,不断提升证据的质量,尽可能减少奖励黑客行为(reward hacking)。

战绩显赫:小模型也不错

SmartSnap的表现令人惊艳,它在AndroidLab等复杂的任务上提升显著:


通过感性分析,我们还观察到以下特点:

为什么这简化了智能体RL训练的准备工作?

在手机端、OS端这类环境的操作中,由于其时效性特点,传统的外部验证器很难精准捕捉瞬时的成功信号。

SmartSnap就像是给智能体配上了一台取证相机。它不再需要事先对环境所有状态有一个预期的变化感知来撰写校验脚本,或者让裁判员模型盯着全程轨迹来仔细推敲,而是让智能体自己边做边收集必要的证据。

这允许我们基于合成的任务轻松拓展其训练场景,并针对有限的证据链来判断成功与否,让RL训练更加便捷。

面向未来

SmartSnap的出现,标志着GUI智能体正从“蛮力执行”走向“认知协同”。这种主动寻找证据的能力,不仅提升了AI的可靠性,更为未来大规模、低成本的AI部署铺平了道路。

未来的AI,不仅要“能干”,更要“可信”。

论文标题:

SmartSnap: Proactive Evidence Seeking for Self-Verifying Agents

论文地址:

https://arxiv.org/abs/2512.22322

代码地址:

https://github.com/TencentYoutuResearch/SmartSnap

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
日本前官房长官窜访台湾,外交部:别向“台独”发出任何错误信号

日本前官房长官窜访台湾,外交部:别向“台独”发出任何错误信号

澎湃新闻
2026-01-16 15:24:29
40岁董方卓拒执教U23国足:除了高血压我能得到啥 我还想多活几年

40岁董方卓拒执教U23国足:除了高血压我能得到啥 我还想多活几年

风过乡
2026-01-16 12:53:25
升西部第二!文班22+10受伤惊魂 马刺最多领先39分大胜雄鹿

升西部第二!文班22+10受伤惊魂 马刺最多领先39分大胜雄鹿

醉卧浮生
2026-01-16 11:23:40
特朗普提名的驻冰岛大使笑称该岛将成美国第52个州引众怒 冰岛有什么让美国看上了?

特朗普提名的驻冰岛大使笑称该岛将成美国第52个州引众怒 冰岛有什么让美国看上了?

红星新闻
2026-01-16 13:10:25
安徽一殡仪馆处理逝者遗物时,竟在被子里发现41万存款单……

安徽一殡仪馆处理逝者遗物时,竟在被子里发现41万存款单……

环球网资讯
2026-01-15 15:33:07
德国重大转向,“俄罗斯是一个欧洲国家”

德国重大转向,“俄罗斯是一个欧洲国家”

观察者网
2026-01-16 13:31:05
真闯祸了!中方发出“讨贼檄文”后,马科斯面临弹劾,恐要逃亡了

真闯祸了!中方发出“讨贼檄文”后,马科斯面临弹劾,恐要逃亡了

青青子衿
2026-01-15 19:20:16
广州幼儿园 “关停潮” 蔓延!又有40多所扛不下去了

广州幼儿园 “关停潮” 蔓延!又有40多所扛不下去了

风向观察
2026-01-15 21:39:09
詹姆斯29+9+6湖人爆冷惨负黄蜂 东契奇39分三球30+11+9三分

詹姆斯29+9+6湖人爆冷惨负黄蜂 东契奇39分三球30+11+9三分

醉卧浮生
2026-01-16 13:52:19
内部群截图疯传,追觅员工怒怼CEO俞浩:“药磕多了?”

内部群截图疯传,追觅员工怒怼CEO俞浩:“药磕多了?”

穿透
2026-01-15 15:29:41
本该发给媳妇的信息,却发到了工作群,后续让人没想到……

本该发给媳妇的信息,却发到了工作群,后续让人没想到……

环球网资讯
2026-01-15 14:50:09
央视八套:20260116播出闫学晶林傲霏母子俩主演的《故乡的泥土》

央视八套:20260116播出闫学晶林傲霏母子俩主演的《故乡的泥土》

晓今娱
2026-01-16 11:03:57
马斯克警告中国在AI计算和电力上大幅领先美国:中国电力产能2026年达到美国的3倍

马斯克警告中国在AI计算和电力上大幅领先美国:中国电力产能2026年达到美国的3倍

知识圈
2026-01-15 16:49:27
一个被炸成废墟的国家,靠什么在20年内重返巅峰?

一个被炸成废墟的国家,靠什么在20年内重返巅峰?

苏格拉高
2026-01-16 14:51:28
风向不对!网上现大量“美国只斩首,不伤平民”言论,值得警惕

风向不对!网上现大量“美国只斩首,不伤平民”言论,值得警惕

深度报
2026-01-15 23:03:13
飙升到166万亿!中国人民的存款,太多了

飙升到166万亿!中国人民的存款,太多了

说财猫
2026-01-15 19:39:32
中国证监会召开2026年系统工作会议

中国证监会召开2026年系统工作会议

界面新闻
2026-01-16 15:34:22
美国与台湾当局就“投资换关税”达成协议,外交部回应

美国与台湾当局就“投资换关税”达成协议,外交部回应

澎湃新闻
2026-01-16 15:24:26
第三轮中日争端打响,日本要登岛调查,简直强词夺理,中方表态了

第三轮中日争端打响,日本要登岛调查,简直强词夺理,中方表态了

时时有聊
2026-01-15 20:34:48
检察官之子强奸幼女被判8年,家属坚称无罪

检察官之子强奸幼女被判8年,家属坚称无罪

中国新闻周刊
2026-01-16 12:22:53
2026-01-16 15:48:49
新浪财经 incentive-icons
新浪财经
新浪财经是一家创建于1999年8月的财经平台
2054754文章数 5275关注度
往期回顾 全部

科技要闻

被网友"催"着走,小米紧急"抄"了特斯拉

头条要闻

洪秀柱:既然早晚要统一 不如赶快统一吧

头条要闻

洪秀柱:既然早晚要统一 不如赶快统一吧

体育要闻

全队身价=登贝莱,他们凭什么领跑法甲?

娱乐要闻

黄慧颐手撕保剑锋 曾黎意外卷入风波

财经要闻

深圳有白银商家爆雷 维权群超350人

汽车要闻

方程豹品牌销量突破30万辆 2026年还将推出轿跑系列

态度原创

房产
本地
亲子
时尚
公开课

房产要闻

突发!商业用房购房贷款最低首付比例下调至30%

本地新闻

云游内蒙|黄沙与碧波撞色,乌海天生会“混搭”

亲子要闻

当何美延开始亲自带孩子,世界都变得和谐了

年度最扎心电影,看得中年男女坐立难安

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版