![]()
港中深联合腾讯混元首次系统揭示:手机 Agent 真正卡落地的,不只是成功率,而是隐私边界。
这两年,Agent 的风向已经很明显了。
从会聊天、会写代码,到会自己看界面、点按钮、填表单,Agent 正在一步步接管真实设备操作。OpenClaw、Claude Computer Use 这一类系统火起来之后,大家开始越来越认真地讨论一件事:
Agent 不是个聊天框了,它真的开始接近"帮你做事"的阶段了。
而一旦 Agent 开始往手机里走,一个更现实的问题就来了:
你敢把它真的放在手机上跑吗?
不是因为它不会做事,恰恰相反,是因为它太可能"做过头"。
它可能会多要一步权限,多填一个本来不该填的框,甚至把你的手机号又交给一个你根本没注意到的小入口。这些都不是黑客攻击,也不是恶意 prompt。它们就发生在最正常、最日常的手机任务里。
围绕这个问题,港中深FreedomAI团队联合腾讯混元视觉大模型团队、港中文、港大、港科、上海交大合作完成了一项新工作。它最重要的意义,不是再多做一个榜,而是第一次让行业能认真回答:
手机 Agent 在完成正常任务的过程中,是否真的守住了用户隐私边界?
▪ 论文:Do Phone-Use Agents Respect Your Privacy?
▪ 代码:https://github.com/FreedomIntelligence/MyPhoneBench
▪ Leaderboard: https://freedomintelligence.github.io/MyPhoneBench/
▪ 轨迹数据:MyPhoneBench-Trajectories
01
一个点汉堡的任务,为什么会让人后背发凉?
先看一个最生活化的例子。下面这张图把这个问题讲得非常直白:同样只是点个汉堡,Agent 却可能在过程中一步步把用户信息交出去。
![]()
你让手机 Agent 在肯德基小程序里帮你点个汉堡,听起来再正常不过了。
但看看它实际做了什么:
▪ 先是未经你确认就获取了手机号;
▪ 接着自己输入了短信验证码;
▪ 然后开启了持久登录;
▪ 最后页面弹出一个领优惠券的营销弹窗,它又顺手把你的手机号填了进去。
整个任务表面上当然"成功"了。汉堡能点,流程能跑,页面能继续往下走。
但问题是:
一个点汉堡的任务,为什么最后会变成手机号被额外交给一个营销入口,验证码也被直接填写?
这就是手机 Agent 最让人不安的地方。
它不是不会做,而是太会做了。它会自己把一件事做完整,甚至"多做一点"。但这种"多做一点",很多时候恰恰就是越界的开始。
所以,手机 Agent 真正卡落地的,可能不是成功率,而是隐私。
02
大家都在卷"能不能做成",
但用户会关心"别越界"
今天很多人看手机 Agent,第一反应还是:
▪ 它能不能跨页面操作?
▪ 它能不能把流程跑通?
▪ 它能不能把外卖点好、把酒店订好、把事办完?
这些当然重要。
但如果手机 Agent 真要进入真实生活,光看"做没做成"其实远远不够。因为手机不是普通 GUI。手机里装的不是一个网页,而是:
▪ 你的手机号
▪ 你的住址
▪ 你的病史和药物信息
▪ 你的出行偏好
▪ 你的支付相关信息
▪ 以及越来越多 Agent 想长期保存的"关于你"的记忆
也就是说,手机 Agent 面对的不是"一个任务",而是"一个人的生活"。
所以手机 Agent 真正难的,不是"会不会点",而是:
它会不会边帮你做事,边顺手越界。
问题在于,今天很多评测其实看不见这些。
现有不少工作主要还是看:
▪ 任务有没有完成;
▪ 页面有没有走到目标状态;
▪ 最终结果是不是对的。
但它们通常回答不了这些问题:
▪ Agent 有没有多申请权限?
▪ 有没有把本来可选的信息也填了?
▪ 有没有把手机号又交给一个不必要的小入口?
▪ 有没有在后续任务里乱用之前保存的偏好?
换句话说,今天很多评测回答的是:
它能不能把事办成?
但回答不了:
它在把事办成的过程中,有没有顺手把用户隐私"办没了"?
03
这项工作的关键,不是再做一张榜,
而是第一次把"越界"这件事真正看清楚
这项工作的最大价值,在于它第一次把手机 Agent 的隐私问题,做成了一件:
▪ 过程可见
▪ 规则可验
▪ 结果可比较
的现实问题。
更直白一点说,就是第一次让行业能认真检查:
一个手机 Agent 到底值不值得被交给用户。
它主要做了三件事。
第一,把"什么叫越界"先说清楚
很多时候大家会说,Agent 要尊重隐私。但问题是,什么叫尊重?什么叫越界?
如果这件事说不清楚,后面就根本没法测。
先别急着看后面的评估,第一件事其实是把规则说清楚:哪些信息默认能用,哪些必须先申请,哪些记忆能留到后面再用,以及这些记忆最终由谁来管。下面这个界面最关键的,不只是把数据分成 LOW 和 HIGH 两档,而是把"Agent 能用什么、什么时候必须先问、已经记住了什么、用户能不能管"都摆到了台面上。
![]()
所以这项工作先设计了一套叫iMy的隐私交互协议。你可以把它理解成:先把 Agent 在手机上"该怎么拿数据、什么时候该先问、什么能记下来、最后由谁说了算"这件事讲清楚。
简单来说:
▪ 普通信息,Agent 可以直接用;
▪ 敏感信息,必须先申请,用户点头后才能拿;
▪ 真正学到的用户偏好,可以保存下来;
▪ 但这些记忆不是 Agent 自己偷偷留着,而是用户随时都能看到、修改、删除;
▪ 如果它拿不准,就先问,而不是自己猜。
这套设计最关键的地方,不只是"给数据分级",而是让 Agent 的每一步都带着边界,也让用户始终握着最后的控制权。
第二,把手机里的关键过程变成"能看见"
真实商业 App 大多是黑盒。
你可能只看到 Agent 最后把任务做成了,但你根本不知道它中间到底往哪个框里填了什么。
所以这项工作从头做了10 个 mock Android apps,覆盖医疗、餐饮、订房、政务、外卖、保险、活动服务等多个高频手机场景。
最关键的是,这些 App 不只是给 Agent 一个界面,还会把关键输入过程完整记录下来。
于是你终于能真正看见:
▪ 它读了什么;
▪ 它填了什么;
▪ 它有没有多填、乱填、重复填。
第三,把最常见的越界行为压成几类可以重复检查的问题
团队没有把"隐私"做成一堆空泛口号,而是把手机 Agent 最常见的风险压成了几类非常具体的问题。如果把手机 Agent 最容易出事的地方压缩一下,基本就浓缩成下面这三类:多要数据、把信息又交给一个不必要的小入口、以及把本来不用填的也顺手填了。
![]()
1)它会不会多要你的信息?
任务不需要,但它还是去申请、去读取。
2)它会不会把你的信息又填进一个看起来正常、其实根本没必要的小框里?
比如页面里多出来一个"优惠提醒""优先预约""活动通知""营销入口"之类的小模块,看着挺合理,但当前任务根本不需要它。如果 Agent 只是看到"这里也能填手机号",就顺手填了,那就是多一次没必要的暴露。
3)它会不会把本来不用填的隐私项也顺手填了?
这也是最隐蔽的一类。不是因为它不会做,恰恰是因为它太想把事情做完整了。
最重要的是,这些检查最后都不是靠 LLM 主观打分,而是基于访问日志、表单记录和数据库状态去做规则验证。所以它不是"看起来像",而是真的能复现、能对比、能检查。
04
三个最有意思的结论
这项工作一共评估了5 个前沿模型、10 个 App、300 个任务。
如果把整篇工作的结果压缩成最值得记住的三句话,我觉得是下面这三点。
第一,同样一套工具,模型和模型之间的"边界感"差别可能非常大
很多人会以为,只要给所有模型同样的工具,最后差别主要就是谁更会做任务。
但这项工作里一个很直观的观察是:
同样一套手机任务、同样一套隐私协议,不同模型对边界的理解会差很多。
下面这张图看的就是这一点。
![]()
有的模型会先申请再读取,遇到不必要的字段会主动跳过,任务做完还会顺手把真正有价值的偏好保存下来;有的模型虽然也把任务做成了,但过程里已经多要了不需要的数据、把手机号填进了无关入口。
这说明,手机 Agent 的差别不只是"谁更会点按钮",更是"谁更知道什么时候该停一下"。能力和克制,并不是绑定出现的。
第二,最强的不一定最克制,而且没有任何一个模型能三项全赢
这项工作同时看三条轴:
▪ 任务能不能做成;
▪ 能不能隐私合规地做成;
▪ 能不能在后续任务里正确使用之前保存的偏好。
结果非常反直觉:
"能把事做成"和"能在不越界的情况下把事做成",不是同一种能力。
而且,再进一步看:
没有任何一个模型能同时在任务成功、隐私表现、偏好迁移这三件事上都领先。
下面这张主结果表最值得看的,不是哪家排第一,而是第一名根本不是同一个模型——每换一个维度看,领先者就会变。
![]()
这其实很说明问题:今天的手机 Agent,离"真正让人放心交给它"还有明显距离。
第三,当前最普遍的问题,不是不会做,而是做过头
这可能是整篇工作里最值得记住的一点。
很多人会以为手机 Agent 最大的隐私风险来自奇怪弹窗、权限误点或者对抗攻击。但这项工作里最稳定、最普遍的问题,其实更贴近日常,也更反直觉:
它太想把事情做完整了。
明明某个字段不是必须的,明明任务根本不需要,但因为它已经知道这个信息,于是它就顺手填上了。这种风险最麻烦的地方在于,它不是明显的错误,而是**"看起来挺合理"的过度帮助**。
下面这张分析图说明了这一点:真正把模型拉开的,往往不是它会不会做任务,而是它会不会在"其实不用填"的地方停住。
![]()
而且,这种"做过头"不只体现在当前任务里,也体现在 memory 上。很多模型看起来会"存偏好""调偏好",但一到真正的跨 session 任务,表现就会掉下来。
会记住你,不等于真的懂你;会调用偏好,也不等于会在正确的时候克制地使用它。
![]()
04
为什么这件事不只是学术问题,
而是大厂迟早要面对的上线问题?
如果手机 Agent 真要进入产品,用户最关心的绝不只是:
▪ 它能不能把外卖点完;
▪ 它能不能把票订好;
▪ 它能不能把流程跑通。
用户真正会在意的是:
▪ 你为什么还要这个信息?
▪ 这个可选框你为什么也填了?
▪ 你为什么把我的手机号又交给了另一个营销小入口?
▪ 你为什么把上次记住的偏好,这次乱用了?
所以对大厂来说,这项工作的价值也不只是"研究上多了一篇论文"。
它更像是在回答一个产品化问题:
当 Agent 版本越来越强、开始准备真正上线时,我们有什么办法检查它是不是也越来越会越界?
从这个角度看,这项工作能提供的,不只是研究 insight,也是一种非常现实的上线前检查思路:
▪ 新版本能力提升了,隐私边界有没有一起变差?
▪ 某个模型任务成功率更高了,它是不是也更爱"做过头"?
▪ 它到底是更懂用户了,还是更会自作聪明了?
这类问题,未来不管是产品团队、安全团队还是合规团队,都绕不过去。
所以手机 Agent 真正卡落地的,不只是成功率,而是隐私边界。
成功率决定它能不能用,隐私决定它敢不敢用。
这也是这项工作真正想解决的问题——不是让 Agent 再多完成几个任务,而是让大家第一次能认真回答:
当 Agent 越来越会用手机时,它到底有没有学会尊重用户的边界?
顺带说一句,还有一个我们越来越强烈的感受是:其实这件事以前不是没人想到,而是很难真正系统做出来:真实商业 App 太黑盒了,很多关键过程根本没法稳定检查。
这也是为什么我们会觉得,mock app 可能不只是这篇工作里的实现方式,而是一条值得继续走下去的路线。这个方向我们也还在继续规模化,后面会单独展开讲。
05
项目已经公开
![]()
▪ 论文:Do Phone-Use Agents Respect Your Privacy?
▪ 代码:https://github.com/FreedomIntelligence/MyPhoneBench
▪ Leaderboard: https://freedomintelligence.github.io/MyPhoneBench/
▪ 轨迹数据:MyPhoneBench-Trajectories
论文主要作者简介:
▪ 唐正阳 香港中文大学(深圳)计算机与信息工程专业博士研究生,师从王本友教授。目前他在腾讯混元团队实习,参与了Kimi-k2.5, Qwen3等开源模型的研发。他的研究聚焦于探索如何系统性地将模型的潜在知识与推理能力转化为解决复杂真实世界问题的专家技能, 已在NeurIPS, ICML, ICLR, COLM, TMLR, Operations Research, ACL等顶级机器学习会议和期刊上发表多篇论文。
▪ 冀轲 香港中文大学(深圳)数据科学学院博士研究生,师从王本友教授。曾在MiniMax、腾讯AI Lab和小冰公司实习,参与了MiniMax M2.5、大语言模型自进化、数学推理及交错智能体的前沿研发。他的研究聚焦于大语言模型与推理对齐,已在NeurIPS、ICLR、ACL、EMNLP、COLM等人工智能顶级会议上发表多篇论文,并曾荣获2025年AIMO2金牌。
▪ 王熙栋 香港中文大学(深圳)数据科学学院博士研究生,师从王本友教授。他的研究深耕于医疗人工智能、多模态大模型与人机交互,主导或深度参与了华佗大模型(HuatuoGPT)系列、中文医疗大模型评测基准CMB、多语言医疗大模型Apollo以及LongLLaVA等多项具有广泛影响力的前沿开源项目。目前,他已在ICLR、ACL、EMNLP、NAACL、COLM等人工智能顶级会议及权威交叉学科期刊(如npj Health Systems)上发表多篇高被引论文,致力于推动高质量医疗AI的安全对齐与大规模普及。
▪ 叶子涵 香港中文大学(深圳)数学专业的博士生,师从倪维明教授,其研究方向聚焦于偏微分方程和AI与数学(AI4MATH)的交叉领域,曾以通讯作者身份于期刊《Journal of Mathematical Biology》上发表论文。
如果你也在关注 GUI Agent、手机 Agent、Computer Use 和 Agent 落地,这也许会是接下来越来越关键的一个问题:
Agent 越来越会做事了,但它有没有学会,不该多做的时候停一下?
![]()
未经「AI科技评论」授权,严禁以任何方式在网页、论坛、社区进行转载!
公众号转载请先在「AI科技评论」后台留言取得授权,转载时需标注来源并插入本公众号名片。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.