你是个成熟的 AI 了,该学会自己干活了。
这已经不是一句破梗,最近,越来越多的 AI 产品,可以让我们的手机和电脑自己跑起来。
![]()
Anthropic 的「computer use」,像人一样操纵电脑,工程师让它帮忙点外卖,它思考了一分钟,选择了披萨。
荣耀的 YOYO 智能体,听到 CEO 说困了,直接在发布会现场点了一杯咖啡饮品。
智谱的 AutoGLM 应用,更是将我们常用的 app 一网打尽,打车、点外卖、发微信,它都能代劳。
等等,这不是去年就火了的 agent(智能体)吗?人类一句话,AI 自己干活。想法惊艳,但模型能力没跟上,慢慢就没了水花。
挖了一年的坑,今年有望填上了,以后真的可以说:听我解释,是手机自己干的!
让 AI 代发微信、加购物车,都能用嘴说
智谱正在内测的应用 AutoGLM,是使用门槛较低的一款 agent,已经可以让我们动嘴玩手机了。
你尽管说话,AI 语音转文字,然后按部就班完成任务,当然,如果不方便说话,也可以打字发送命令。
先发条微信消息给好友吧,我们几秒搞定的事情,AI 花了 20 多秒。
发送微信消息
但第一次亲眼看到 AI 玩手机,实在新鲜。因为「涉及敏感操作」,AI 还知道请示一下我的意见。
AutoGLM 也能发起语音通话,就是路径有点绕。等着页面一次次跳转,考验急性子本人。
发起语音通话
帮忙打车、购物,AutoGLM 也没问题,它还会给出追问,主动对齐需求。举个例子,当我要求打车到广州南站,AutoGLM 会问我是哪个站口。
![]()
至于下单,还是我们自己来。你或许担心,我们的银行卡会不会任 AI 宰割,但 AutoGLM 不会帮你「立即打车」。
类似的,在淘宝下单一条优衣库黑色 m 号工装裤,AutoGLM 会停留在确认订单的页面,不会代我们支付。
在淘宝下单
一些 app 的图标、菜单、按钮,AutoGLM 用得比我都熟练。当我要求在大众点评找到海珠区三家评价最好的披萨店,AutoGLM 听懂了,先搜索「披萨店」,然后选择地点,按好评优先排序,最后给出了一个小结。
懂交互的 AutoGLM,也能做一些文字工作,我让它找到公众号「爱范儿」最近的一篇文章,点赞并总结内容,或者在小红书找广西旅游攻略,收藏三篇并总结内容,虽然速度有些慢,但每个需求都没有敷衍。
为公众号文章点赞和评论
这对大模型来说不算什么,重点在于,我们可以看到手机自主完成整个过程,AI 让你切身体会「你别做,我来做」的霸总发言。
![]()
AutoGLM 的能力范围
目前,AutoGLM 能做的并不算多,但确实有了 agent 的模样,规划任务,代人类执行操作,解决日常生活中的问题。
以前我们要教长辈玩手机,一步步截图并加备注、用录屏记录操作过程,甚至手绘使用说明书,但 AI 可以直接帮我们玩手机,一步到位,怎么不算一种很新的无障碍体验?
人和手机的交互,AI 要学的还有很多
当然,作为一个内测产品,AutoGLM 肯定是不成熟的。
不少放上来的例子,我其实试了很多次才成功,失败的原因主要是任务中断,其中有不少失败得很搞笑的素材。
我请 AutoGLM 评论微信好友的最新朋友圈,虽然完成了任务,它却保留了自证 AI 身份的开头,措辞也满满的机器味。有些智能,但不那么多。
![]()
所以,先别指望让 AI 帮我们一键维护人脉了,友谊的小船很难不翻。
语音识别虽然方便,但可能因为个人的普通话水平所限,不够准确,比如,AutoGLM 把「爱范儿」听成了「f2」,需要手动修改。
![]()
稍微复杂的、涉及多步思考的任务,AutoGLM 可能完不成。
我让 AutoGLM 点鸡蛋瘦肉肠粉和豆浆的外卖,AI 试图添加冰冻豆浆的时候,触发了验证码提示,可能是平台监测到了机器人行为,然后任务就结束了。
更啼笑皆非的事情发生了,它说鸡蛋瘦肉肠粉售罄了,我看了下,这家有肉蛋肠粉,差不多的商品,换个说法就不能理解了,AI 还不够变通。
在美团触发验证码
努力努力白努力的情况也有,要求 AutoGLM 在携程找到周四广州飞北京最低价机票,眼睁睁看着它胡乱操作一通,最后搜索到一些北京美食,大言不惭地说自己完成了。
最让人共情 AI 的是,AutoGLM 跳不过广告弹窗,需要我们手动操作,但哪怕我们帮了 AI,任务也很容易中断。AI就像每个被软件开屏霸凌的用户一样,被困在广告里。
![]()
毕竟,AutoGLM 还在萌芽,问题虽多,却让我们直观地看到了一种新的交互形态。
我们早已习惯了用手指点击图标、按钮、菜单,自己完成操作,但现在,我们可以通过自然语言、语音指令等方式,直接表达意图,AI 自动执行操作。
从门槛较高的命令行界面,到更直观的用户图形界面,再到更符合人类沟通习惯的自然语言界面,人机交互的进化方向,是变得更自然。不久的未来,除了对话,说不定还可以让 AI 直接看我眼色行事。
手机的自动驾驶,只有 AI 是不够的
让 AutoGLM 在手机跑起来,要在手机设置里授权「无障碍」「悬浮球」等权限,它才能获取当前页面信息,与本地应用进行交互。
![]()
这也说明,实现 agent,只有大模型是不够的,AI 需要适配不同设备和应用、获取上下文的信息,才能执行具体的操作。
兜兜转转,大模型应用的战场,回归了传统的平台和硬件。渠道在哪里,用户信息在哪里,用户惯性在哪里,他们也往哪里去,智谱和荣耀合作加强端侧 AI 就是一个例子。
除了大模型公司,手机厂商也可能需要和应用厂商搞好关系。荣耀 CEO 赵明说过,agent 可以分为两种,有些不需要第三方,比如点咖啡、打微信电话,但有些就需要介入,比如充值手机话费,调用运营商的大模型进行接管。
除了生态,agent 在今年能遍地开花,当然离不开技术的进步。

去年有个很火的 agent 项目 AutoGPT,可以操纵电脑、上网查资料、使用第三方工具,但英伟达 AI 科学家 Jim Fan 并不看好,认为 AutoGPT 只能解决一些简单的、明确的任务,这本质是因为 GPT-4 有局限性,就像没有任何提示词可以把 GPT-3 变成 GPT-4。
今年就不一样了,多模态大语言模型成熟了,同时,各家厂商还在研究相关的架构,让大模型学习大量的 UI 数据,更好地理解手机和电脑屏幕。
苹果在 4 月发布了多模态大语言模型 Ferret-UI 的论文,为的就是移动端。训练 Ferret-UI 时,苹果收集了大量基础 UI 任务的训练样本,为了增强模型的推理能力,还编制了一个用于高级任务的数据集。
![]()
为什么要学习这些数据?苹果给出了几个原因:手机屏幕长宽比与大多数图像不同,图标、按钮等图像的尺寸都非常小,以及,模型需要与 app 交互,不能像解释静态图像那样,一次性理解信息。
这么一说,当前的苹果 AI 应该只是前菜,siri 可能真的会迎来「史诗级更新」,而不是能力不够 GPT 来凑。
最近,Google 也传出开发 agent 的消息,项目干脆就叫贾维斯,由 Gemini 驱动,可以截取屏幕截图后解析内容,将网页任务自动化,执行收集研究、购买产品、预定航班等任务。
微软应该和 Google 很有共鸣,旗下 AI PC 的 Recall,也是每隔几秒钟截取一次屏幕截图,最近还低调开源了 OmniParser,一个基于大模型的屏幕解析工具。
![]()
OmniParser,将用户界面屏幕截图解析为结构化元素
不过,agent 目前的水平,只是让人对技术有了实感,不能捧杀,完全自动操作不可靠,仍然需要人类下判断。
而且,一些简单的操作,AI 仍然完成得很吃力,Anthropic 就实话实说,操作计算机时,滚动、拖动、缩放,人类像呼吸一样自然的事情,对 Claude 来说依然是个不小的挑战。
我也在使用 AutoGLM 时发现,跨应用的任务完成得磕磕绊绊,让它在小红书找到一条帖子,分享链接给微信好友,前面很顺利,但卡在最后一步「返回小红书还是留在微信」不动弹了,没有像往常一样,给出「完成任务」的提示。
小红书跳转微信
任务其实已经完成,这一步本就不在它的指令范畴之内,卡住了也无可厚非,继续学吧,学无止境。
比起「智能体」这种略显抽象的翻译,以「主驾驶」理解 agent,和「copilot」(副驾驶)相对,或许会让我们更心生期待。
汽车驾驶自动化通常分为六个级别,0-2 级为驾驶辅助,3-5 级为自动驾驶,其实,agent 就像手机的「自动驾驶」。
10 月,信通院联合荣耀,为 AI 手机的智能化,提出了一个类似驾驶自动化的分级标准,分为 L1 到 L5。
![]()
目前,agent 的水平更接近 L3,AI 助理,理解并完成用户的很多指令。
荣耀 CEO 赵明之前在发布会演示了一个场景,他对着 YOYO 智能体说:「我有些困了,帮我点杯喝的」,提问有些模糊,但智能体可以根据过往的记录和话中的信息,判断他需要喝咖啡,加购物车,等待结算确认。
但更多、更复杂的指令还待开发,更多人类干预的地方等待消除,达到 L4 的水平,AI 还得理解我们的潜台词,具备一定的反思和自我纠正的能力。
![]()
L5 应该长什么样子?可以联想到的就是漫威宇宙的贾维斯了,不只是 AI,也是家人,控制盔甲和各种设备,经常秀出幽默感吐槽托尼,又能在钢铁侠生死攸关的时刻镇定地告诉他「先生,请深呼吸」。
毕竟,人类对自己的造物总有一种情结,更懂我,更像我,甚至超越我,又忠诚于我,就像在钢铁侠问「你在吗」的时候,贾维斯回答得那样:「为你,先生,永远都在」 。
![]()
![]()
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.