网易首页 > 网易号 > 正文 申请入驻

蚂蚁集团推出"地狱级"手机AI考试,现有智能助手集体翻车

0
分享至


这项由蚂蚁集团Venus团队主导的研究于2026年2月发表,论文编号为arXiv:2604.06182,感兴趣的读者可通过该编号查询完整论文原文。

手机里的AI助手,你真的信得过吗?

每天早上,你拿起手机叫AI助手帮你订一张下午三点的火车票,或者问它"能帮我把这份文件压缩一下发给老王吗?"这听起来再普通不过。然而,当你真的依赖这类助手处理日常事务时,它究竟靠不靠谱,是个没人认真考过的问题——至少,没有人用真实、复杂的场景认真考过。

蚂蚁集团的研究团队意识到了这个问题。现有的AI手机助手测评,更像是只考了学生"默写课文"的能力,却从没考过"在嘈杂的图书馆里完成一篇有截止时间的报告"这样的真实任务。于是,他们设计了一套全新的考试系统,名叫VenusBench-Mobile,专门用来测评那些能自动帮你操作手机的AI智能体(也就是业内说的"移动端GUI智能体")。考试结果相当令人警醒:就连当前最顶尖的AI系统,也只能完成不到四成的任务。

这项研究的核心贡献在于两件事:一是重新定义"考什么",把考题从"能不能操作某个App"升级为"能不能真正帮到用户";二是重新定义"怎么考",设计了一套能精确诊断AI哪里出了问题的能力分析框架。

一、为什么现有的考试都在"放水"

要理解这套新考试为什么重要,得先明白旧考试哪里出了问题。

现有的AI手机助手评测基准,大多遵循同一个套路:选几款App,然后针对每个App出一批操作题。比如选了"备忘录"这个App,就出题"创建一个新笔记"或者"把某条笔记加粗"。这种设计思路叫做"以App为中心"——App是考试的主角,所有题目都围绕App能做什么来出。

问题在于,真实世界里用手机的人,从来不是围着App转的。你打开手机的出发点是"我要解决一件事",比如"我想找到上个月花在外卖上的总金额",而不是"我想测试一下Pro Expense这款记账App的功能"。App只是实现目的的工具,用户才是主角。

当考题全都是"打开某某App,点这里,填那里"这种预设好路径的操作时,AI要做的不过是按图索骥,跟着确定的脚本走。但现实中,用户说的话往往是模糊的、带有上下文的,甚至是不完整的。"帮我把那个压缩包里的文件找出来发给老王"——这句话里没有说用哪个App解压,没有说发送方式,甚至"老王"是谁也得AI自己去联系人里找。

更棘手的是,现有考试还有另一个缺陷:当AI答错了,你不知道它到底哪里错了。是它没看清屏幕?还是没理解你说的话?还是走到一半忘了你叫它干什么?就好比一个学生考试考了60分,老师只知道他没及格,却不知道他是数学题不会做、还是阅读理解没看懂、还是最后几道题时间来不及了。这种粗糙的评分方式,对改进AI几乎没有指导意义。

正是针对这两个核心痛点——"考的内容不够真实"和"考完了不知道问题在哪"——蚂蚁集团的研究团队设计了VenusBench-Mobile。

二、这套考试到底考什么:十种真实用户需求

VenusBench-Mobile的题库共包含149道主要题目,横跨十大类用户需求场景,全部在真实的安卓模拟器环境中运行,涵盖27款开源Android应用。

第一大类叫做"功能辅助",针对的是一个很普遍的现实:大多数人并不完全了解手机里每款App能做什么。这类题目包括三种形式。第一种是操作说明,比如"告诉我怎么用ZipXtract这个App解压文件",AI需要自己去探索这款App,然后把操作步骤完整地告诉用户。第二种是功能探索,比如"我想在Markor里新建一个LaTeX文件并编译成PDF,这个App支持吗?"AI需要自己去查清楚再回答。第三种是界面导航,比如"帮我找到Fitbook里可以添加体重记录的那个界面",AI要把用户带到对的地方。

第二大类叫做"冲突处理"。用户给了一个指令,但实际情况和指令对不上。比如用户说"删掉Markor的Algo文件夹里所有3条笔记",但实际上这个文件夹里有4条。这时AI应该察觉到矛盾,主动联系用户确认,而不是自作主张地删掉3条就算完事。

第三大类叫做"模糊指令"。用户表达的意思清楚,但省略了关键信息,比如没说用哪个App。"帮我把这个zip文件里的内容找出来",用户心里是明白的,但AI要能自己判断出用ZipXtract来解压,而不是一脸懵地不知道从何下手。

第四大类叫做"多轮对话"。真实的用户交互往往不是一次性的。用户先让AI"创建一条笔记",然后说"把标题改一下",再说"把刚才加的那行字加粗",最后说"通过短信分享给朋友"。AI需要记住每一轮的上下文,把一系列零散的指令串成一个完整的任务。

第五大类叫做"界面状态感知"。手机屏幕上的内容是动态变化的,不是静止等AI去读的。比如一道题要求AI打开番茄计时器App,等长休息计时跑到18到20秒的时候按下暂停。AI要像真人一样盯着屏幕上的数字变化,在对的时间做出反应。

第六大类叫做"视觉操作"。有些任务需要在手机屏幕上做精细的图形操作,比如"打开Draw这个绘图App,用蓝色笔圈出橡皮擦,用红色笔圈出卷笔刀"。AI必须能准确识别图片里的具体物体,并在正确位置进行精确的绘制操作。

第七大类叫做"复杂信息浏览"。用户需要在多个页面、多个来源之间查找并比较信息。这类题目的难度远超"在搜索框里查个关键词"——比如要求AI阅读Gallery里存储的一张外卖截图,在多个商家的多款饮品中找出30分钟内能送达的最便宜的美式咖啡,并返回商家名称和商品全名。

第八大类叫做"噪声抵抗"。现实中用手机时,随时可能有电话打进来、App崩溃、弹出一个无关的广告窗口。AI在执行任务的途中遭遇这些干扰,能不能处理完干扰后继续完成原来的任务?这类题目专门测试这种抗干扰能力。研究团队模拟了四种干扰类型:来电、App崩溃、操作失败、无关弹窗。

第九大类叫做"超难浏览题",灵感来自斯坦福大学专门用来难倒网络搜索AI的BrowseComp基准。这类题目把多个约束条件叠加在一起,比如"在这7款App里,找出图标是蓝色的、而且主界面没有搜索栏的那一款"。AI必须逐一检查每个App,同时满足所有条件才能得分。

第十大类叫做"稳定性评测",这是一个独立的子集,包含20道基础题,每道题衍生出四个变体版本:把指令翻译成中文、换一种语气但意思相同的英文表达、把手机界面切换成深色模式、把设备换成平板横屏模式。一道题只有在全部五种条件下都答对,才算真正稳定通过。

三、怎么衡量AI哪里出了问题:五维能力雷达图

出完题,还需要一套精密的评分体系。VenusBench-Mobile提出了"PUDAM"能力分类框架,把AI需要具备的核心能力拆分成五个维度,每个维度又分四个难度等级。

第一个维度是感知能力,衡量的是AI看懂手机屏幕的水平。最基础的一级是认识文字和图标,第二级是理解整体界面的布局和逻辑关系,第三级是精确定位细小的视觉元素,比如一个角落里只有几个像素大的感叹号按钮,第四级是追踪动态变化,比如实时读取一个倒计时数字。

第二个维度是理解能力,衡量的是AI读懂用户意图的水平。从理解"点击确认按钮"这样最简单的单步指令,到处理带有多个限定条件的复杂指令,再到识别出指令里的隐含矛盾或者信息缺失。

第三个维度是决策能力,衡量的是AI在执行过程中临机应变的水平。最基础的是照着既定路线走,不需要临时调整;高一级的是遇到弹窗、广告、意外情况时能灵活绕过;最高级的是遇到冲突时主动反思、自我纠错、评估风险。

第四个维度是操作能力,衡量的是AI在屏幕上执行动作的精准度。从点击、长按这类基础操作,到需要拖拽轨迹控制的复杂手势,再到精确调整滑块到特定位置,最高级是像人手一样实时根据视觉反馈调整动作轨迹。

第五个维度是记忆能力,衡量的是AI跨步骤、跨页面保持任务上下文的能力。最基础的是在多个步骤中记住自己要干什么;高一级的是在浏览多个页面时积累并记录信息;再高一级是在整个长任务中追踪不断变化的状态;最高级的是跨越多个独立任务保留记忆,比如"删掉我刚才创建的前两条笔记"。

当AI在某道题上失败时,研究团队可以对照这张能力矩阵,精确地找到是哪个维度、哪个难度级别出了问题,而不只是记录一个"失败"的结果。

四、考试结果:全军覆没的成绩单

研究团队找来了目前业界最强的一批AI手机助手来应考,包括蚂蚁集团自家的UI-Venus系列、阿里的Qwen3-VL系列、专门为手机操作训练的GUI-Owl和MAI-UI等开源模型,以及用谷歌Gemini-3-Pro和OpenAI GPT-5.1作为"大脑"、配合UI-Venus-72B执行操作的商业级方案。

成绩出来,场面相当难看。最强的商业方案Gemini-3-Pro加UI-Venus-72B的组合,总体成功率只有36.9%。也就是说,接近三分之二的任务都没有完成。其余的开源模型更是惨烈,大多数成功率低于15%,Qwen3-VL-8B和GUI-Owl-7B只有6.7%。

这个数字和同一批AI在AndroidWorld(目前业界最主流的旧式评测基准)上的成绩相比,差距触目惊心——平均成功率下降了约50个百分点。换句话说,同一个AI,在旧考试里考了七八十分,在这套新考试里只能考二三十分甚至更低。这说明旧考试确实存在严重的"放水"问题,高分并不代表真正有用。

从具体题目类型来看,界面状态感知和视觉操作是最难攻克的两类,所有模型的平均成功率分别只有2.5%和4.2%,几乎全军覆没。噪声抵抗类题目表现稍好,但也只有32.1%的平均成功率,而且高度依赖模型规模——Gemini-3-Pro能达到75%,而小模型们却普遍跌到个位数。

通过PUDAM框架的细粒度分析,研究团队找到了失败的根本原因所在。在所有能力维度中,记忆能力是最致命的瓶颈。几乎所有的开源小模型,在需要长期追踪状态的高难度记忆任务中,成功率接近于零。即使是体量更大的Gemini-3-Pro,记忆维度的成功率也从基础任务的41%跌到了高难度任务的31%。这说明问题不仅仅是模型不够大,而是现有的AI在架构层面就缺少持续追踪信息的机制——单纯地扩大"上下文窗口"(也就是AI一次性能记住的内容长度)是不够的,需要专门设计的状态追踪机制。

感知能力是第二个明显瓶颈,从基础任务到高难度任务,平均成功率从17.5%跌到10.3%。特别是动态画面感知——当屏幕上有内容在实时变化时,几乎所有AI都不知所措。决策能力在高难度场景中也出现了崩溃,大多数开源模型在需要反思和纠错的任务中跌入个位数,说明它们本质上还是在执行预设脚本,一旦遭遇意外情况就束手无策。

五、稳定性测试:换个皮肤就不认识了

稳定性评测子集的结果揭示了另一个令人不安的现实。

研究团队给20道基础题分别出了四种变体,最终统计每个AI能否在全部五种条件下都答对同一道题。这个叫做"稳定通过率"的指标,代表的是AI在轻微的条件变化下是否依然可靠。结果是:绝大多数模型的稳定通过率为零。即使是最强的Gemini-3-Pro组合,稳定通过率也只有15%。GPT-5.1组合是5%,其余全部是0%。

这意味着,哪怕只是把指令从英文翻成中文,或者把手机界面切换成深色模式,又或者换成平板横屏显示,本来就有不稳定通过概率的任务,就彻底做不到了。其中影响最大的是平板横屏模式——很多AI在竖屏手机布局上训练出来,一换成横版平板布局,界面元素的位置关系完全变了,AI就彻底迷路。这暴露出一个根本问题:现有AI的"能力"更像是对特定视觉模式的记忆,而不是真正理解了界面背后的逻辑。

六、算力开销:多想一步要付出多大代价

研究团队还测量了每个AI在完成任务时消耗的计算资源,用输出的文字令牌数量来衡量(这也是决定使用商业AI时API费用高低的关键指标)。

在单模型方案里,UI-Venus-72B(720亿参数的大模型)消耗了85万个令牌,而GPT-5.1只消耗了16.75万个令牌,每一步平均只用54.6个令牌,是所有模型里最经济的,暗示它在处理视觉输入时用了更高效的压缩方式。

最引人注目的开销来自"多智能体框架"——这是一种让AI通过内部多轮讨论和反思来提升效果的方案,由Mobile-Agent-v3加GUI-Owl-7B实现。这套方案消耗了164万个令牌,每步平均438.7个,是单独使用GUI-Owl-7B的三倍。这说明"让AI多想几步"会带来巨大的计算开销,对于需要在手机上实时运行的边缘部署场景来说,这是一个必须认真对待的工程挑战。

说到底,这项研究戳穿了一个流行的神话:那些在测评排行榜上大放异彩的AI手机助手,其实并没有我们想象的那么能干。旧式考试太简单,太像教科书上的标准题,而真实的用户需求复杂、模糊、充满干扰和意外。蚂蚁集团这套考试框架,相当于第一次把AI助手放到了接近真实的"工作场景"里来考核,结果自然原形毕露。

更有价值的是能力诊断框架。知道AI"考了15分"不如知道AI"在记忆和感知方面存在根本性缺陷"——后者才能告诉研究者下一步该怎么改进。这就像是从"你这次考试不及格"升级到"你的阅读理解和长篇综合题需要重点补强",指导意义天壤之别。

对于普通用户来说,这项研究传递的信息很实际:目前市面上的AI手机助手,在简单的单步操作上确实有用,但如果你指望它帮你完成一件跨越多个步骤、需要在不同App之间来回切换的复杂任务,出错的概率相当高。在AI手机助手真正可靠地进入我们的日常生活之前,还有相当长的路要走。

Q&A

Q1:VenusBench-Mobile和AndroidWorld这类老测评基准的区别是什么?

A:AndroidWorld等旧基准主要围绕某款App的具体功能出题,题目路径固定,AI只要按预设步骤操作就能得高分,但这和真实用户的使用场景差距很大。VenusBench-Mobile从用户真实需求出发设计题目,涵盖模糊指令、冲突处理、多轮对话、动态界面感知等十大类场景,并加入了深色模式、平板横屏、中文指令等变体测试,更贴近实际使用中的复杂情况。

Q2:PUDAM框架具体是如何帮助诊断AI问题的?

A:PUDAM把AI需要的核心能力拆分成感知、理解、决策、操作、记忆五个维度,每个维度分四个难度级别。当AI做某道题失败时,可以对照这个框架判断是哪个维度出了问题。比如AI在浏览多页信息后忘记之前读到的内容,就属于记忆维度的高难度级别缺陷,而不只是笼统地"失败了"。这种诊断方式能给AI研究者提供明确的改进方向。

Q3:为什么AI手机助手在平板横屏模式下成功率会大幅下降?

A:现有的AI手机助手大多在竖屏手机的界面截图上训练,学到的更多是对特定视觉布局的记忆,而非对界面逻辑的真正理解。一旦切换到平板横屏模式,同样的App界面元素位置、比例和排列方式都会发生变化,AI就像在一个重新摆放了家具的房间里找东西,很容易迷路。这暴露出当前AI缺乏对界面结构的抽象理解能力。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
郑丽文回应“大陆武统”,作出满分回答,还给民进党指了一条明路

郑丽文回应“大陆武统”,作出满分回答,还给民进党指了一条明路

头条爆料007
2026-04-19 20:27:52
7.5级地震, 海啸抵达日本! 日媒提醒: 立即逃生

7.5级地震, 海啸抵达日本! 日媒提醒: 立即逃生

每日经济新闻
2026-04-20 17:47:38
为什么全国人民都在拒接电话?

为什么全国人民都在拒接电话?

黯泉
2026-04-18 17:00:56
到底得有多坏,才能做出这么丧尽天良的事!

到底得有多坏,才能做出这么丧尽天良的事!

胖胖说他不胖
2026-04-19 09:00:30
“最难对付的敌人”:周末,真主党消灭以军超过一个排!

“最难对付的敌人”:周末,真主党消灭以军超过一个排!

胜研集
2026-04-20 18:04:11
特朗普:如未能达成协议“几无可能”再延长停火

特朗普:如未能达成协议“几无可能”再延长停火

界面新闻
2026-04-20 23:21:47
空姐的圈子真的乱吗?我做了7年空姐,告诉大家最真实的行业现状

空姐的圈子真的乱吗?我做了7年空姐,告诉大家最真实的行业现状

千秋文化
2026-04-17 20:01:45
MVP选票结果流出!!他居然才1票啊!!!

MVP选票结果流出!!他居然才1票啊!!!

柚子说球
2026-04-20 22:29:11
052D穿过日本横当水道!这步棋有多狠?

052D穿过日本横当水道!这步棋有多狠?

牲产队
2026-04-20 22:21:15
世锦赛:希金斯逆转卡特晋级,吴宜泽大胜晋级16强

世锦赛:希金斯逆转卡特晋级,吴宜泽大胜晋级16强

余蹮搞笑段子
2026-04-21 01:25:36
最新:曝俄军败退扎波罗热!丢失几年来占领的全部土地

最新:曝俄军败退扎波罗热!丢失几年来占领的全部土地

项鹏飞
2026-04-20 20:13:15
ASML总裁炮轰中国:若再继续自主研究光刻机,将会破坏全球产业链

ASML总裁炮轰中国:若再继续自主研究光刻机,将会破坏全球产业链

泠泠说史
2026-04-20 17:52:42
《我在故宫修文物》导演去世,享年43岁

《我在故宫修文物》导演去世,享年43岁

界面新闻
2026-04-20 12:37:14
国际油价飙涨7%,黄金白银、美股期指全线下挫,加密货币16万人爆仓,美军向伊朗商船开火

国际油价飙涨7%,黄金白银、美股期指全线下挫,加密货币16万人爆仓,美军向伊朗商船开火

21世纪经济报道
2026-04-20 06:46:08
官宣!台州两大知名景区免费开放,取消门票收费

官宣!台州两大知名景区免费开放,取消门票收费

台州交通广播
2026-04-20 19:26:23
李亚鹏,官宣了!4月17日晚,嫣然天使儿童医院告别14年租房模式

李亚鹏,官宣了!4月17日晚,嫣然天使儿童医院告别14年租房模式

一盅情怀
2026-04-20 14:38:27
55岁上海炒股冠军罕见发声:如果本金有20W,建议死磕这五条铁律

55岁上海炒股冠军罕见发声:如果本金有20W,建议死磕这五条铁律

股经纵横谈
2026-04-19 19:03:09
伊朗媒体:伊朗不参加谈判的决定尚未改变

伊朗媒体:伊朗不参加谈判的决定尚未改变

财联社
2026-04-20 23:03:06
台湾回归新方案浮出水面:国民党若同意,解放军或无需动武

台湾回归新方案浮出水面:国民党若同意,解放军或无需动武

老范谈史
2026-04-20 22:13:51
5月1日起物业行业彻底大变天!新规落地,业主终于不用再忍气吞声

5月1日起物业行业彻底大变天!新规落地,业主终于不用再忍气吞声

另子维爱读史
2026-04-19 19:37:43
2026-04-21 05:56:49
科技行者 incentive-icons
科技行者
科技正在如何变革商业世界
8068文章数 562关注度
往期回顾 全部

科技要闻

HUAWEI Pura X Max发布 售价10999元起

头条要闻

19岁女孩挪用自家1700万当"榜一大姐" 亲爹带女儿自首

头条要闻

19岁女孩挪用自家1700万当"榜一大姐" 亲爹带女儿自首

体育要闻

阿森纳已拼尽全力,但你早干嘛去了...

娱乐要闻

《八千里路云和月》田家泰暗杀

财经要闻

利润暴跌7成,字节到底在做什么

汽车要闻

把天门山搬进厂?开仰望U8冲上45度坡的那刻 我腿软了

态度原创

家居
本地
艺术
时尚
军事航空

家居要闻

自然慢调 慢享时光

本地新闻

12吨巧克力有难,全网化身超级侦探添乱

艺术要闻

春天最适合小住三五天的地方

春天衣服不用准备太多!这几大单品提前备好,百搭实用又不过时

军事要闻

特朗普:美舰向伊朗货船开火炸出个洞

无障碍浏览 进入关怀版