网易首页 > 网易号 > 正文 申请入驻

AI手机:光明的前景和布满荆棘的路途丨端侧AI战事

0
分享至

文/ Rainbow主流终端厂商合规负责人

塑造一个智能体作为人类的助手,在AI时代具有光明的前景。

这也是智能手机、智能设备,甚至软件厂商都在尝试的布局。

2024年,荣耀发布首款搭载AI Agent的荣耀Magic7,推出YOYO智能体;小米15搭载澎湃OS 2,并升级“小爱”为“超级小爱”;vivo也发布了PhoneGPT。

大模型走进端侧让设备具备了“大脑”,智能体则具象化成为链接用户的最佳入口。

但是,智能体作为一个“新兴物种”,落地应用有很多问题仍需厘清,什么称得上智能体?其如何实现人类助手的功能?在处理庞大的数据量的情况下,如何保障数据合规?终端AI智能体可能冲击第三方应用流量乃至App生态模式,接下来如何促进健康的产业发展?

本文将就此展开讨论。

一、AI Agents 的崛起与未来趋势

(一)从自动化到通用智能:AI Agents 的演进脉络

人工智能(Artificial Intelligence)经过数十年的发展,已从早期注重逻辑推理、专家系统,逐步演进到基于深度学习、大规模预训练模型(LLMs)的时代。随着模型规模的指数级扩张以及多模态技术的兴起,AI Agents(也可称为智能体)开始具备更强的交互与决策能力,不再局限于单一任务的自动化,而是能够在更复杂的环境下自主地进行规划、执行、纠错。

近年来,OpenAI、DeepMind、谷歌、微软、Meta、智谱AI等研究机构和企业,纷纷在智能体技术上取得显著突破。多数智能体都强调对环境的感知与操作,既包括文字、语音,也涵盖了视觉、甚至物理环境。部分学者将这类增强能力的系统称为具身智能AI(Embodied AI),而其中的GUI(Graphical User Interface) Agent即专门针对人机图形交互界面进行理解和操作的智能体。

(二)AI智能体对 AGI 实现的价值

1. 近未来场景:2025 年的预测

●Sam Altman 对 2025 年“AI智能体员工”上岗的预言

OpenAI首席执行官山姆·奥特曼(Sam Altman)周日晚发表题为《反思》的新年博客文章,其中预言,“在2025年,我们可能会看到第一批人工智能智能体“加入劳动力市场”,并实质性地改变公司的产出。”【1】

●斯坦福 HAI 专家对于“协作AI”大范围发展的预期

斯坦福大学人类中心 AI(HAI)的一些研究者亦指出,2025 年左右,协作型 AI 智能体将在医疗、金融、教育、政务等多个行业大规模铺开。这些智能体不仅能与人类合作,还可以相互协作以完成更复杂的任务。其根本意义在于:AI 从单一工具上升为“合作者”,人机协同与多AI智能体协同将成为常态。【2】

2. 终端AI智能体对通用智能(AGI)的启示

AGI(Artificial General Intelligence)即通用人工智能,旨在让 AI 拥有类似人类的广泛认知能力和自适应能力。当前在终端设备上进行跨应用操作的 AI智能体,虽称不上 AGI,却为AGI提供了重要试验场:

1. 多模态交互:GUI 智能体通过视觉理解屏幕元素,文本识别文字内容,甚至可能结合语音来进行命令执行,这让 AI 更加接近人类的多感官信息获取方式。

2. 自主规划与执行:能够“看屏幕”并模拟点击或调用官方接口完成任务,意味着 AI 真正具备一定的“动手能力”,而不只是“动口”或“动脑”。

3. 自我纠错(反思能力):一些方案引入“反思智能体”,使得系统可以根据执行结果进行评估和修正。这正是走向通用智能必经的“自我反馈回路”。

总之,终端AI智能体的快速发展,为 AGI 带来了更丰富的场景实践,也为后续更高层次智能的落地奠定了基础。

二、当前终端 AI Agent的主要技术方案

终端 AI智能体的趋势愈发显著,主要体现在手机和电脑上对智能理解和自动化操作能力的渴望。核心思路是让 AI 像人类一样,不仅能“理解”屏幕,还能“点击”或“调用”各种应用功能,从而完成复杂任务。概括而言,行业中有两大主流方案:

(一)屏幕识别 + 模拟点击

利用光学字符识别(OCR)和图像检测,系统可以识别当前屏幕上的文字、图标和控件,并通过模拟用户点击或键盘输入完成操作。例如,智谱AI的CogAgent-Chat支持高分辨率图像输入,配合多智能体协作来执行任务【3】;Mobile-Agent-v2也通过“规划、决策、反思”三部分智能体,在移动端实现了更高成功率的跨应用执行。【4】

(二)屏幕识别+意图框架执行官方接口(或类API)调用

另一种思路是由平台(如iOS)提供官方API或意图框架,让AI可以直接调取应用功能而无须模拟点击。苹果便是借助Onscreen Awareness功能让Siri理解屏幕内容,再通过开发者配置的Assistant Schemas查询数据类型以及可执行功能,整体由Apple Intelligence来理解任务、规划行动并进行执行。【5】

微软提供的UFO (UI-Focused Agent for Windows OS Interaction) 采用了多种方式来操作Windows应用程序,包括模拟点击和API调用:

1. UI控制:UFO可以通过模拟鼠标点击和键盘输入来操作应用程序的用户界面。它使用Microsoft提供的UI自动化工具来检测应用程序界面上可用的UI控件,并为每个控件分配编号。智能体观察这些编号和控件截图后,可以选择特定控件进行点击或输入操作。

2. 原生API:UFO能够利用应用程序提供的原生API来执行操作。这种方法可能比模拟UI操作更高效和可靠。

3. AI工具:UFO还可以使用如"Copilot"等AI工具来完成某些任务。

4. 代码API:对于某些应用程序,UFO可以利用它们提供的代码API来执行操作。【6】

三、多角度思考与综合治理的路径

AI技术发展带来的影响复杂而深远,如何在终端 AI Agent浪潮中实现技术发展与法律合规、创新与安全、效率与公平之间的动态平衡,正是我们当下需要面对和解决的问题。本节我们将从几个核心维度切入,并最终提出一个“综合思考象限”或“多主体、多维度”的分析框架,以便在法律层面给出可行的治理思路。

(一)多角度思考

1. 技术与AI进化

模拟点击更贴近人类使用方式,覆盖度更广;官方接口则更安全高效。二者都在推动AI向多模态和更高自主性的方向前进。

2. 用户体验与隐私安全

用户可通过跨应用操作获得便利,同时也要明白在哪些场合下共享了屏幕信息。平台须建立完善的权限与授权机制,缓解用户对隐私泄露的顾虑。

3. 法律合规与监管

屏幕识别和API调用都可能涉及个人信息保护与数据安全。各国个人信息保护法等均强调知情同意与最小化收集原则,要求平台或AI服务需对潜在风险做好管控。

4. 竞争与生态

终端AI智能体可能冲击了第三方应用流量乃至于App生态模式。需要重新梳理AI介入后的产业链变化,形成新的产业格局,促进更健康的产业发展。

5. 社会与未来影响

随着更多智能体承担任务,必然带来新的就业模式或职业配置;伦理规范、行业标准也需要同步跟进,避免技术被不当利用。

(二)综合思考象限:多主体、多维度的平衡

若要将上述维度融为一体,可采用“多主体—多维度交叉”的分析框架。主体包括用户、开发者、平台/系统厂商、监管机构、AI 技术提供方;维度则涵盖技术进化、用户体验/隐私、安全/合规、竞争/生态以及社会影响。

通过这张矩阵,我们不仅能看到单一维度的冲突与协同,也能发现各主体在不同维度的潜在需求或矛盾,从而寻求平衡方案。

(三)从具体方案到综合治理

从智谱CogAgent-Chat、微软UFO、Mobile-Agent-v2 到苹果的 Onscreen Awareness + App Intents,这些技术路线看似各不相同,却都在解决同一个核心问题:“如何让AI真正模仿人类在操作系统或应用中的各种复杂点击、输入、跨应用切换等动作?”

1. 多智能体、分工协作:在技术架构上,不少方案都导入规划/决策/反思这类思路,提升可控性与成功率。

2. 接口与模拟点击两条路径并存:有的倾向“模拟点击”,有的强调“官方意图框架”;这是对现实生态和长尾需求的妥协。

3. 安全合规与生态平衡是关键:不管是哪种技术实现,都绕不开隐私保护、授权机制、数据安全、生态竞争等现实问题。

4. 对未来AGI的意义:让AI真正“能看到、能思考、能操作”,把理论研究与真实操作环境结合起来,这正是 AGI 路上的重要实践之一。

终端AI智能体既带来技术与效率上的提升,也在用户体验、法律合规和行业竞争中提出新课题。要实现更健康的发展,有必要从多个层面着手。

AI产业链中的主体应继续加强系统级权限管理与数据最小化收集。无论是屏幕识别还是API调用,都需尽量为用户提供可理解的操作界面和授权提示,让用户在使用AI执行自动化功能时更有安全感。对平台与开发者而言,可以考虑建立“官方接口+模拟点击”两条路径并存的方式:一方面为用户提供通用化体验,另一方面也让应用开发者有机会更好地控制其核心功能或敏感数据。

与此同时,也应看到,AI技术进步在带来便利的同时,也会引发较为深远的社会变革。随着更多AI智能体逐渐走向日常应用,产业分工可能会因自动化程度的提高而发生新的调整,部分行业和岗位的工作内容可能需要重新定位。如何在技术变革的同时,兼顾个人权益和产业活力,将是长期议程。

AI时代,生态格局将有哪些变化?软硬件厂商如何寻求最大公约数?我们将持续推出报道,敬请期待......

注:

【1】郝博阳 无忌:《奥特曼新年发文:OpenAI周活破3亿,我们已找到通往AGI之路》,载于公众号腾讯科技。

【2】Stanford HAI:《Predictions for AI in 2025: Collaborative Agents, AI Skepticism, and New Risks》

【3】Wenyi Hong等:《CogAgent: A Visual Language Model for GUI Agents》

【4】Junyang Wang等:《Mobile-Agent-v2: Mobile Device Operation Assistant with Effective Navigation via Multi-Agent Collaboration》

【5】Apple:《Bring your app to Siri-WWDC24》

【6】Chaoyun Zhang等:《UFO: A UI-Focused Agent for Windows OS Interaction》

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
张凌赫新剧热恋孙千,他凭2大理由,火速挤走原定男主敖瑞鹏

张凌赫新剧热恋孙千,他凭2大理由,火速挤走原定男主敖瑞鹏

陈意小可爱
2026-03-26 14:09:51
卷来卷去,工资重回3000元时代!为什么这次大家不再抱怨了?

卷来卷去,工资重回3000元时代!为什么这次大家不再抱怨了?

另子维爱读史
2026-01-26 20:08:00
“贞洁是女孩最高贵的嫁妆”,公交广告别变公害广告|新京报快评

“贞洁是女孩最高贵的嫁妆”,公交广告别变公害广告|新京报快评

新京报
2026-03-25 13:18:07
跌宕起伏,火箭加时13-0一度占优,森林狼15-0逆转创历史纪录

跌宕起伏,火箭加时13-0一度占优,森林狼15-0逆转创历史纪录

懂球帝
2026-03-26 13:21:12
杨鸣谈广东现状:外援持球过多,让球队丢失了拿手的进攻组织

杨鸣谈广东现状:外援持球过多,让球队丢失了拿手的进攻组织

懂球帝
2026-03-26 12:27:11
为何美国敢打伊朗,却不敢打朝鲜?因为朝鲜成功学到了中国精髓

为何美国敢打伊朗,却不敢打朝鲜?因为朝鲜成功学到了中国精髓

鉴史录
2026-03-25 18:19:06
提醒:这“5种”东西千万别从网上买,全是套路,再便宜也不行

提醒:这“5种”东西千万别从网上买,全是套路,再便宜也不行

美食格物
2026-03-14 01:05:06
马筱梅晒儿子满月宴!六菜一汤连家宴都不算,婆婆没表示也不重视

马筱梅晒儿子满月宴!六菜一汤连家宴都不算,婆婆没表示也不重视

手工制作阿歼
2026-03-26 14:04:28
192国收到通知,中国支持巴勒斯坦独立,以色列面临审判

192国收到通知,中国支持巴勒斯坦独立,以色列面临审判

菲儿爱蛋糕
2026-03-26 13:09:00
越扒越有!张雪峰去世早有预兆,他的2个不良爱好,或成催命符

越扒越有!张雪峰去世早有预兆,他的2个不良爱好,或成催命符

潮鹿逐梦
2026-03-26 11:34:46
东契奇:六连客最满意的是从不放弃,布朗尼相比去年进步很大

东契奇:六连客最满意的是从不放弃,布朗尼相比去年进步很大

懂球帝
2026-03-26 11:13:10
雷迪克谈父子同台:对布朗尼很有信心 他在聚光灯外默默进步

雷迪克谈父子同台:对布朗尼很有信心 他在聚光灯外默默进步

北青网-北京青年报
2026-03-26 13:55:05
1982年血色使馆:中国外交官唐健生为了生存杀光了所有同事

1982年血色使馆:中国外交官唐健生为了生存杀光了所有同事

阿校谈史
2026-03-20 11:03:27
赖清德“返核”让绿营崩溃?谢寒冰酸:苗博雅、黄捷精神错乱了

赖清德“返核”让绿营崩溃?谢寒冰酸:苗博雅、黄捷精神错乱了

海峡导报社
2026-03-25 08:17:03
马云预言应验了?未来5年,把存款换成4个资产,或将衣食无忧?

马云预言应验了?未来5年,把存款换成4个资产,或将衣食无忧?

璀璨幻行者
2026-01-31 18:59:25
原来她是张雪峰妻子,高校副教授历史博士,相差7岁认识40天闪婚

原来她是张雪峰妻子,高校副教授历史博士,相差7岁认识40天闪婚

奇思妙想草叶君
2026-03-26 14:01:49
1965年,毛主席点名让彭德怀复出,背后有人拼命阻挠,这人后来判了18年

1965年,毛主席点名让彭德怀复出,背后有人拼命阻挠,这人后来判了18年

史海孤雁
2026-03-25 18:31:11
玄学提醒:如果一个人还在穿着10年前的衣服,只说明3个问题

玄学提醒:如果一个人还在穿着10年前的衣服,只说明3个问题

洞读君
2026-03-04 14:30:12
毛新宇参观祖宅时突然发现家谱记载:原来毛主席是毛太华第20代孙

毛新宇参观祖宅时突然发现家谱记载:原来毛主席是毛太华第20代孙

老杉说历史
2026-03-14 20:54:20
你永远不知道勤快起来能闯多大祸!网友:想好怎么挨揍了吗

你永远不知道勤快起来能闯多大祸!网友:想好怎么挨揍了吗

另子维爱读史
2026-03-25 21:27:45
2026-03-26 14:47:00
21世纪经济报道 incentive-icons
21世纪经济报道
中国商业新闻领导者
239695文章数 743878关注度
往期回顾 全部

科技要闻

Meta高管狂分百亿期权,700名员工却下岗

头条要闻

担心特朗普突然停战 以总理下令48小时尽力摧毁伊设施

头条要闻

担心特朗普突然停战 以总理下令48小时尽力摧毁伊设施

体育要闻

35岁替补门将,凭什么入选英格兰队?

娱乐要闻

张雪峰家人首发声 不设追思会丧事从简

财经要闻

黄仁勋:芯片公司的时代已经结束了

汽车要闻

一汽奥迪A6L e-tron开启预售 CLTC最大续航815km

态度原创

艺术
教育
手机
游戏
健康

艺术要闻

哪一座桥不是风景?

教育要闻

高考地理中的花海经济

手机要闻

存储涨价苦了国产品牌、普通消费者,苹果却不受影响

外媒锐评PS去年错得离谱!发行商排名21 被微软甩开

转头就晕的耳石症,能开车上班吗?

无障碍浏览 进入关怀版