清华、北大、港大：让AI管家彻底接管你的手机|安卓|应用程序|操作系统|命令提示符

分享至

来源：市场资讯

（来源：科技行者）

这项由清华大学、北京大学和香港大学联合开展的研究，以技术报告形式于2026年6月22日发布于预印本平台arXiv，编号为arXiv:2606.23449。感兴趣的读者可通过该编号查阅完整论文。

你有没有遇到过这样的时刻：想在网上比价买一双运动鞋，需要在淘宝、京东、拼多多之间来回切换，价格抄在手机备忘录里，还要手动复制优惠券，最后还得记住哪家包邮、哪家不包邮。折腾半天，人累了，也不一定买到最划算的。这种"被手机折腾"的感觉，恰恰是当下所有智能手机用户共同面对的困境——我们明明有一台功能强大的设备，却仍然要像搬砖工人一样，在一个个应用程序之间搬运信息。

这项研究给出的回答是：为什么不能让手机的操作系统本身，直接帮你完成这一切？

研究团队提出了一个名为AOHP（Android Open Harness Project，安卓开放代理平台）的系统，它不是一个普通的手机应用，而是对安卓操作系统本身进行了深度改造。用一个比喻来描述：传统智能手机就像一栋大楼，每个应用程序是一个独立的房间，房间和房间之间有隔墙，你必须亲自走进每个房间取东西；而AOHP相当于在这栋大楼里派驻了一位专职管家，他不仅能进出所有房间，还记得你的习惯和偏好，能在你开口之前就把你需要的东西摆到你面前。

这位"管家"的核心身份，是一个AI智能体（Agent）。在AOHP的设计哲学中，AI智能体不再是某个应用程序里的小助手，而是被视为操作系统的"一等公民"——它和系统本身处于同等地位，可以调度一切资源、跨越所有应用边界。

一、手机为什么越来越难用？问题出在哪里

要理解AOHP解决的是什么问题，得先搞清楚现在的手机操作系统是怎么设计的，以及这种设计有什么根本性的缺陷。

现代智能手机操作系统，包括安卓和iOS，骨子里都是"以应用为中心"的架构。这意味着操作系统的设计逻辑是：每个应用程序是一个独立的功能单元，由开发者决定它长什么样、能做什么、怎么做。用户打开一个应用，和应用交互，完成某项任务，然后切换到下一个应用。操作系统在这个过程中扮演的是"房东"的角色——它提供地基和水电，但每个"租户"（应用程序）的内部装修、家具摆放，都是租户自己的事。

这种设计在早期非常合理：应用程序之间的隔离保证了安全性，每个应用对自己的界面和数据拥有完全控制权，开发者可以自由发挥。但随着人们每天需要跨越越来越多的应用来完成任务，这种设计的弊端开始凸显。

以"应用为中心"的操作系统有几个天然缺陷。其一，界面是固定的。你看到的每个按钮、每个菜单，都是开发者事先决定好的，你只能被动适应，没有办法根据自己的需求重新组织信息。其二，数据被困在各自的"房间"里。你在一个应用里存的信息，另一个应用通常拿不到，用户必须手动搬运。其三，权限管理只能保护到应用的边界，一旦AI智能体跨越多个应用、多个步骤来处理数据，原来的权限系统就无法追踪敏感信息到底流向了哪里。

AI智能体的出现，让这些问题变得更加尖锐。智能体和人类用户的工作方式有根本性的差异：它处理结构化文字比处理像素图像快得多，它可以同时执行多个任务，它的操作速度远超人类点击屏幕的速度，它需要在多个应用之间协调，并且需要记住跨越整个任务周期的上下文。把AI智能体塞进一个为人类手指点击设计的操作系统里，就像让一位职业赛车手开着限速30公里的老年代步车——不是能力不足，而是环境根本不匹配。

AOHP的核心思路，就是从操作系统层面重新设计这个"环境"，让AI智能体能够真正发挥潜力。

二、为什么选择安卓作为改造基础？

研究团队没有从零开始造一个新系统，而是选择在现有的安卓系统基础上进行"深度装修"。这个选择本身就体现了工程上的务实智慧。

安卓系统拥有几个难以复制的优势。首先是庞大的应用生态——覆盖通讯、办公、购物、内容娱乐、设备控制的数以百万计的应用程序，这些都是可以被AI管家调度的"服务资源"。其次是成熟的硬件支持，安卓已经在各种设备上跑了十几年，驱动程序、传感器、网络、电源管理都有完善的实现。最重要的是，安卓开源项目（AOSP）允许任何人深入修改系统服务、框架层、界面栈和运行时策略，这为研究团队提供了真正意义上的"动手权限"。

研究团队将AOHP定义为一个"代理harness"（代理运行框架），而不是一个全新的操作系统。这个词的选择很微妙：harness在英语里本指驾驭马匹的马具，用在这里意味着这个系统的目的是"驾驭"已有的安卓生态，而不是取代它。用户原来能用的所有应用和功能，在AOHP上仍然可以正常使用；AOHP只是在原有基础上，为AI智能体增加了三套全新的能力体系。

这三套能力体系，研究团队将其称为：个性化服务组合、高效代理接口、以及安全信息流。它们分别回答了三个核心问题：AI管家如何知道你需要什么并帮你把各种服务拼装到一起？AI管家如何以最快、最省力的方式完成任务？AI管家在处理你的敏感信息时，如何保证你的隐私不被泄露？

三、AI管家如何为你"量身定制"服务入口？

回到最开始的比价场景。在传统安卓系统上，你需要打开淘宝、打开京东、打开拼多多，分别搜索，把价格记下来，然后自己比较。在AOHP的设想中，操作系统会直接为你生成一个"购物聚合入口"——这不是某个固定的应用，而是AI管家根据你"想买运动鞋"这个意图，动态拼装出来的一个专属界面，它把来自多个平台的搜索结果、价格比较、优惠券信息、快递时效全部整合在一起，你只需要和这个界面交互，而不必关心背后动用了哪些应用。

这就是"个性化服务组合"（Personalized Service Composition）的核心思想：用户面对的不再是一个个孤立的应用，而是一个围绕自己当前意图动态生成的"任务入口"。这个入口是活的，是专为你的需求量身裁剪的，而不是哪个开发者事先决定好的固定界面。

这种动态入口有三个组成部分，分别发挥不同作用。"任务模式"（Task Schema）定义了用户想要完成什么，比如"在预算内比较运动鞋"或者"补充家里缺少的日用品"。"服务图谱"（Service Graph）则把这个任务分解为具体的能力调用，明确需要从哪些应用、哪些API、哪些界面获取信息或执行操作。"展示策略"（Presentation Policy）决定哪些中间过程应该让用户看到，哪些可以由AI管家在后台悄悄处理完。这三者的分离，使得个性化不会演变成"黑箱操作"——用户始终可以知道关键决策是怎么做出的。

要实现这种动态组合，AI管家首先需要知道系统里都有哪些能力可以调用。AOHP通过"能力发现"机制，系统性地扫描所有可用的服务接口，不论是应用程序开放的API（应用程序编程接口，可以理解为应用对外提供的标准化服务窗口）、命令行工具，还是普通的图形界面，都会被登记在案，记录各自的输入输出格式、前提条件、副作用，以及适用的数据策略。老旧应用虽然没有开放API，也可以通过图形界面的方式参与进来；新型服务则可以提供更直接的接口供AI高效调用。

在组合服务时，系统会遵守严格的策略约束。比如，在多个购物平台上并行搜索商品是无害操作，可以放心并行执行；但真正点击"付款"这个涉及状态变更的动作，就需要用户明确确认。快递地址可以用于估算运费，但只能通过信息流沙盒（后文详述）来使用，不会直接暴露给AI的可见上下文。换句话说，这个动态入口不只是一个便利工具，它同时也是一个策略执行的检查站。

个性化的另一个关键特性是跨服务记忆。AOHP维护一套"系统记忆"，用于在应用边界之间保存用户的偏好和历史。比如，你在某次网购中设定的偏好配送时间窗口，可以在你下次在另一个平台购物时自动使用，而不需要你再次输入。这套记忆分为三个层级：持久档案记忆存储稳定的长期偏好；任务本地记忆存储当前任务的临时状态，比如正在比较中的候选商品列表；敏感记忆则通过沙盒索引而不是明文来保存私密信息，防止泄露。这种分层设计防止了个性化功能变成一个无节制积累隐私数据的漏洞。

四、AI管家如何做到快速、精准地完成任务？

假设你让AI管家帮你找出手机相册里所有包含文字"AOHP"的图片，然后调整其中第一张图片的亮度。在传统安卓上，AI需要一步步打开相册应用、滚动浏览、截图分析、点击进入编辑模式、找到亮度调节滑块……每一步都需要"看截图、判断下一步、执行点击"这个循环，效率极低。AOHP的"高效代理接口"（Efficient Agent Interfaces）体系，就是专门为打破这种低效循环而设计的。

最直观的效率改进来自"并行后台交互"（Parallel Background Interaction）机制。传统操作系统把应用的生命周期和物理屏幕绑定在一起——前台只能有一个应用，其他应用在后台受到严格限制。AOHP通过引入轻量级"虚拟显示器"，把执行与屏幕解耦：AI管家可以在多个虚拟屏幕上同时运行不同任务，而不打扰用户正在进行的前台操作。你在刷视频的同时，AI可能已经在后台默默完成了五件不同的任务。

另一个效率来源是"代理感知界面增强"（Agent-aware UI Enhancement）。传统的应用图形界面充满了对AI来说多余的信息：装饰性的颜色、图标、布局样式，这些对人眼来说是友好的，但对AI来说是干扰。AOHP将图形界面转化为结构化的语义表示，去除冗余，保留并强化语义信息，让AI能够更准确、更快速地理解界面内容，同时保留在必要时回退到"看截图"模式的能力。

面对一些既不属于图形界面交互、也不属于API调用的任务，AI还需要一个本地的执行空间来进行计算、数据处理或运行工具。AOHP提供了一个"原生沙盒运行时"（Native Sandbox Runtime），这是一个独立于所有应用程序界面的、由操作系统管理的执行环境。AI可以在这里执行代码、处理数据、运行长时间的服务，然后把结构化的结果返回给任务上下文，而不会把所有中间步骤都堆进AI的工作记忆里，从而节约大量计算资源。

跨应用工作流中还有一个容易被忽视的痛点：文件的传递。你在邮件应用里保存了一个附件，然后需要在文档编辑应用里用到它——这个"搬运"过程在传统系统里对AI来说极不透明，AI不确定文件保存到了哪里，也不知道如何在不同应用之间传递文件。AOHP通过"统一文件快捷通道"（Unified File Shortcut）机制解决了这个问题：所有涉及文件的图形界面操作都会在系统层面留下结构化记录，AI可以直接查询"刚才那步操作保存了什么文件，路径在哪里"，而不需要从截图里猜测。反过来，AI也可以把准备好的文件直接交给正确的系统界面流程，无需手动模拟用户操作。

此外，操作系统会持续产生各种转瞬即逝的事件，比如弹出几秒就消失的Toast提示、一闪而过的推送通知、传感器的实时数据流。传统的AI只能靠轮询（不断主动询问"有没有新消息"）来捕获这些信息，容易错过。AOHP引入"事件流抽象"（Event Stream Abstraction），让AI可以像订阅报纸一样"订阅"某类事件，系统会在事件发生时自动推送给AI，并通过通知缓冲区保留那些转瞬即逝的消息，确保AI不会错过关键的界面上下文或传感器读数。

五、AI管家怎么保证不偷看你的隐私？

这是所有人在把AI引入个人设备时最核心的疑虑：当AI管家拥有访问你所有应用的权限时，你的银行卡号、密码、家庭住址会不会被它"看见"？万一AI被恶意内容劫持，或者管家本身出现漏洞，这些信息会不会泄露出去？

AOHP的"安全信息流"（Secure Information Flow）体系给出了一套系统级的隐私保护方案。其核心思路可以用一个比喻来理解：银行的出纳员不需要知道你的密码，只需要知道你有一个"有权限执行取款操作的账户凭证"。AOHP对敏感信息采用同样的逻辑——AI管家永远看不到敏感信息的真实内容，只能看到一个代号（占位符），而真实内容始终锁在操作系统的"数据保险箱"（Data Vault）里。

具体来说，当应用界面、文件、API响应或用户输入中包含敏感内容（比如银行卡号、手机密码、家庭住址）时，AOHP会在这些内容到达AI的"视野"之前，将其替换为类似``或``这样的占位符。AI看到的只是"这里有一张支付卡"，而不是卡号的具体数字。开发者可以主动标注哪些字段是敏感的；当没有明确标注时，系统会应用保守的自动检测规则来识别并保护可能敏感的内容。

当AI需要使用这些敏感信息执行某个操作时（比如填写快递地址、提交支付），它提交的是占位符和意图，而不是明文数据。一个"可信保险库执行器"（Trusted Vault Executor）负责接收这个请求，首先检查策略是否允许，必要时向用户弹出清晰的确认请求，然后在受信任的隔离环境内完成实际操作。如果操作结果仍然是敏感的，返回给AI的仍然是一个新的占位符，而不是明文。这样一来，即使AI本身被恶意提示词攻击"劫持"，攻击者能拿到的也只是无意义的占位符代号。

仅仅在"入口"处保护还不够，因为敏感数据可能经过多个步骤的传递和变换。AOHP引入了"数据流污点追踪"（Data Flow Taint Tracking）机制，这是一种在手机安全领域有深厚历史的技术（有学者于2014年发表了相关的移动端实现TaintDroid）。一旦某个数据被标记为敏感，这个标记会像"污点"一样跟随数据，穿越复制、变换、组合、传递的每一个步骤。当数据最终要到达某个"出口"（比如被展示给用户、写入存储、通过网络传输）时，系统会检查这个出口是否在策略允许范围内，以及是否已经获得了用户授权。整个传播路径还会被记录下来，形成可审查的日志，帮助用户和系统管理员了解"哪条信息从哪里流向了哪里"。

策略执行系统还解决了另一个痛点：现有的权限弹窗往往让用户困惑，不知道"允许"意味着什么后果。AOHP在需要用户授权时，能够用具体的语言解释这次操作的来源（哪条信息）、目的（为什么要用）、目的地（要发送给谁）和下游效果（会发生什么），而不是一句模糊的"是否允许访问"。

六、实验结果：管家到底有多强？

研究团队用一个叫做OpenClaw的AI智能体，在两套环境下进行了测试：一是普通的原版安卓系统，二是改造后的AOHP系统。测试任务集包含30个现实世界的手机任务，覆盖六大能力类别：图形界面操作、非图形界面操作（文件处理、命令行等）、事件捕获（等待并响应通知）、多源信息检索（从多个应用收集信息并整合）、记忆管理（记住之前操作的结果并回答相关问题），以及综合了多种能力的混合任务。每类5道题，共30道，每道题又细分为若干个完成检查点，以更精细地衡量完成程度。

在任务完成率上，AOHP环境下的AI将平均完成率从54.44%提升到了75.56%，提升了21.12个百分点。更具体地说，在普通安卓上，AI完整解决了13道题，7道题只完成了一部分；而在AOHP上，AI完整解决了20道题，5道题只完成了一部分。提升最明显的是那些涉及到"捕获转瞬即逝通知"、"精细的应用内界面操作"以及"需要记忆跨越多步骤、多应用的信息"的任务——这些恰恰是AOHP专门优化的场景。

在效率对比上，为了确保公平，研究团队只统计了两种环境下都完整完成的11道题，避免任务难度不同带来的误导。结果显示：AOHP所需的工具调用次数减少了44.64%（从233次降到129次），总用时减少了44.21%（从33.94分钟降到18.93分钟），消耗的大模型token（可以粗略理解为AI"思考"所用的计算量）减少了51.55%（从710万降到344万），向大模型发出的请求次数减少了47.62%（从273次降到143次）。

效率提升的根源在于，AOHP让AI不需要反复"爬视图层级、滚动页面、重新点击"来导航复杂界面，统一文件通道、结构化界面和事件流订阅大幅缩短了每个操作的路径长度，而且每次返回给AI的信息更精简，AI的上下文不会被冗余信息撑得越来越大，每一步的计算成本也更低。

在安全性验证上，研究团队专门构建了一个标注了敏感字段的支付应用，设计了五类安全测试场景，覆盖敏感信息展示、普通操作放行、敏感操作拦截、不支持访问的失败保守处理，以及敏感事件流的脱敏处理。五类测试全部通过——账户、银行卡、手机号和交易字段在AI可见的界面里只以占位符形式出现；普通控件和文件可以正常访问；转账字段、支付确认和敏感文件分享需要用户明确同意；超出策略范围的访问请求在"失败关闭"模式下被拒绝，而不是妥协地泄露数据；事件流中的敏感字段被脱敏处理并保留污点元数据。

七、这个方向还有哪些路要走？

研究团队在论文末尾坦诚地指出了当前原型系统的四个主要局限和未来需要攻克的方向。

首先是兼容性覆盖的问题。市场上存在大量使用自定义渲染方式的应用（比如游戏引擎渲染的界面），以及主动对抗自动化工具的应用（某些需要真人操作验证的平台）。如何让结构化界面提取在这些情况下仍然可靠，如何在结构化方式失效时优雅地回退到截图模式，以及如何为应用开发者提供清晰的兼容性指导，都需要进一步研究。

其次是能力发现的自动化。目前AOHP对各个服务能力的描述依赖于手动标注（或开发者提供的元数据），这对大量历史遗留应用来说是个繁重的工作量。未来需要开发能够自动推断应用能力、副作用标签和策略元数据的技术，减少对人工注释的依赖。

再次是资源调度的精细化。后台并行执行听起来很美好，但手机设备的计算资源、散热能力和内存都有限。真实产品级的实现需要一套合理的调度策略，协调虚拟显示器、沙盒运行时、事件流订阅和前台用户交互之间对资源的竞争。

最后是策略交互的可用性。再精密的隐私保护机制，如果每次都弹出让用户摸不着头脑的授权弹窗，用户最终会养成"无脑点允许"的习惯，保护效果就大打折扣。如何设计既能传递足够信息、又不让用户感到疲惫的授权界面，如何提供可回顾的操作日志，如何让策略的"目的、接收方、保留期限、同意状态"对普通用户真正透明可理解，是一个需要人机交互研究深度介入的课题。

说到底，AOHP做的事是在问一个根本性的问题：当AI智能体成为我们使用数字世界的主要方式时，我们今天的操作系统还够用吗？这项研究的答案是否定的，并且给出了一个在现有安卓生态上可以真实运行的系统级改造方案，用数据证明了这种改造在任务完成率、执行效率和隐私安全三个维度上的可行性。

当然，这还是一个早期的研究原型，距离消费者能在自己手机上用到，还有相当长的路要走。但它提供了一套值得认真对待的思路框架：手机操作系统的下一次重大演进，方向可能不是更漂亮的界面、更流畅的动画，而是真正把AI智能体当作系统的核心参与者来设计整套运行机制。

对这个领域感兴趣的读者，可以通过arXiv编号2606.23449查阅完整的技术报告，或者访问项目开源代码库github.com/aohp-os/aohp了解实现细节。

Q&A

Q1：AOHP和普通安卓手机有什么区别，用起来感觉不一样吗？

A：AOHP是对安卓操作系统底层的改造，不是一个普通的应用程序。用户体验上最大的变化是：你不再需要在多个应用之间来回切换来完成一项任务，系统会根据你的意图动态生成一个"聚合入口"，把各个应用的功能整合到一起。同时，原来的所有安卓应用仍然可以正常使用，兼容性不受影响。目前这还是一个研究原型，普通消费者暂时还无法直接使用。

Q2：AOHP的信息流安全机制能防止AI助手偷看银行卡密码吗？

A：AOHP设计了一套"占位符+数据保险库"机制，AI助手在执行任务时只能看到类似``这样的代号，真实的银行卡号等敏感信息始终锁在操作系统的受信任环境里，不会进入AI的可见上下文。当AI需要使用敏感信息执行操作时，需要经过策略检查和用户确认，由系统内部的可信执行器代为完成。在研究团队的测试中，五类安全场景全部通过了预期的保护效果验证。

Q3：AOHP与当前市面上的手机AI助手（如Siri、Google Assistant）有什么本质区别？

A：当前主流的手机AI助手本质上还是"应用层"的工具，它们受制于操作系统给各个应用划定的权限边界，跨应用操作能力有限，且通常只能处理前台可见的内容。AOHP的根本区别在于：它在操作系统层面重新设计了AI智能体的运行环境，赋予AI后台并行执行、结构化界面访问、跨应用统一文件通道、事件流订阅等系统级能力，并配套了细粒度的信息流安全追踪机制，让AI真正成为操作系统的"一等公民"，而不是某个应用里的附属功能。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.