网易首页 > 网易号 > 正文 申请入驻

一手实测 | 智谱AutoGLM开源: AI手机的「安卓时刻」正式到来

0
分享至



机器之心报道

编辑:冷猫、Panda

「安静!吵到我用 TNT 了!」



长期关注科技圈的朋友们都知道,罗永浩的锤子科技落幕已经七年。七年间,仍有无数锤科粉丝保留着旧手机备用,怀念手机圈当年的「锐利异类」,以至于锤子手机仍然有百万日活用户。

而锤子科技,罗永浩最大的愿景和遗憾,莫过于号称「重新定义下个十年的个人电脑」,以及闹出了科技圈永生梗「理解万岁」的 TNT。

给不熟悉的读者朋友们简单介绍下:TNT 全称 Touch&Talk,通过触控 + 语音的方式操作设备。

在那个 AI 尚显稚嫩的年代,这被视为一种激进的赌博;但在大模型爆发的今天,我们惊讶地发现:最高效的手机操作方式,恰恰就是 TNT 构想的那样:按住屏幕把需求说出来,设备自动完成一切。

近些天,豆包手机(豆包手机助手技术预览版)爆火,让能够操作手机的 AI Agent 走入了大众视野。Agent 借助大模型和自动操作系统的设计,让用户凭借自然语言和语音输入,就能自然实现通用的、跨任务的复杂操作。

也因此,人们在震惊于现今大模型 GUI Agent 能力强大之余,也不禁担心个人数据上云的隐私权限问题,几大国民级 App 也都限制了豆包手机助手的访问,再加上搭载豆包的手机一机难求……

除了被大厂生态裹挟,我们有没有另一种选择?有没有一个既能一句话搞定繁杂任务,又能将隐私握在自己手里,甚至人人都能 DIY 的 GUI Agent?

有的兄弟,有的,而且是来自深耕智能体的智谱的明星项目:AutoGLM

就在前天,AutoGLM 正式全面开源

豆包手机之所以遭到所有大厂围剿,因为 AI 手机很可能是下一个时代的流量入口。智谱这波开源直接把能力交给了所有人手上,一己之力把 AI 原生手机的门槛给打平了。

为开源精神点赞!

具体来说,Open-AutoGLM 由一个手机端智能助手框架Phone Agent和一个 9B 大小的模型AutoGLM-Phone-9B共同组成。



开源地址:https://github.com/zai-org/Open-AutoGLM

从第一个 AI 发出的红包说起

这次开源对行业的影响力,核心来自这次智谱开源的不是一个普通的 GUI agent 模型,而可能是行业最好的模型。

智谱是第一个开始可操作智能体研究的厂商。

时间回到 32 个月前的 2023 年 4 月,智谱就已经开始从零探索 AutoGLM,目标是打造一个不仅能「说」,还能「做」的智能体模型。

2024 年 10 月,AutoGLM 面世爆火,被业界公认为是全球第一个可以真正操控手机的 Agent,迄今也是全球完成度最高的 GUI Phone Use 模型。不是模拟,不是脚本,而是像人一样去「看屏幕」,去分析 UI 布局,然后模拟手指进行点击与滑动。AutoGLM 这个 Phone Use 能力的诞生,是「AI 会用工具」的关键里程碑。

一个月后,它做了一件前所未有的事情:AutoGLM 完成了人类历史上第一个由 AI 全自动发出的红包。



这个红包意味着大模型「从 Chat 到 Act」的范式转变,语言不再停留在语言本身,而能驱动行动、执行任务。

但我们很快意识到:会动手的 AI,就像刚拿到第一部智能手机的小孩 —— 强大,但也危险。如果它在不该点的地方乱点怎么办?如果某个用户的真实手机被误触隐私应用怎么办?

于是到了 2025 年 8 月,智谱做了一个关键决定:先把 AutoGLM 放进云端的「虚拟手机」里

AutoGLM 2.0 云机版,把 AI 的行动舞台与用户真实手机完全隔离。它看到的屏幕、能执行的点击,都发生在一台安全的虚拟设备上。涉及隐私的 App,比如微信,则选择不开放 —— 不是做不到,而是智谱希望它「先学会规则,再学本事」。

Phone Agent 的实现,依赖于 AutoGLM 的视觉-语言模型。通过理解手机屏幕内容、解析 UI 状态,结合智能规划能力,它能自主完成整套操作流程。

这背后的实现说简单也简单,说复杂也复杂。它由三大核心技术组成:

1.ADB(Android Debug Bridge):手机的「控制器」

AutoGLM 接入安卓系统的 ADB 开发者调试,负责把控制信号送到设备上,实现基本的点按滑动等操作。

2.视觉-语言模型(VLM):AI 的「眼睛 + 大脑」

它能理解手机屏幕上的文本、按钮、图标,识别,操作和实时反馈。

3.智能规划:任务拆解的「策划师」

它能将自然语言任务拆解为可执行步骤,你说一句「发红包给小李」,AI 会自动补全背后的十几步操作链:打开 App、找到联系人、选择金额、确认支付……

AutoGLM 把这三项能力打包成一个完整执行框架,「AI 会用手机」的概念已经在诸多测试中保证了稳定和实用。

一手实测

Open-AutoGLM 究竟有多强?

理论说得再多,不如实战。下面我们就来看看开源版的 AutoGLM 表现究竟如何。

首先,来一个简单任务:发微信。发送以下指令:

给 wupan 发个微信,就说 Panda 的生日快到了,准备个蛋糕,多点水果。



可以看到,系统启动后,Open-AutoGLM 首先进行了一波「自检」,确认 API 和系统权限无误。在这里,我们可以看到智谱给 Phone Agent 的描述:「AI-powered phone automation」,即「AI 赋能的手机自动化」。

接下来,AutoGLM 会回到任务本身。思考为了完成这个任务,第一步应该执行什么。在终端界面,我们能清晰地看到它的思维链(CoT):

  • 观察:当前在桌面。
  • 思考:任务是发微信,第一步需要找到并打开微信。
  • 行动:点击微信图标。
  • 观察:进入微信列表页。
  • 思考:需要找到 wupan,点击搜索框……

如此迭代进行,直到完成任务。整个过程行云流水,最后它还会像模像样地汇报:「任务已完成」。

而在以上任务执行的同时,我们的手机端则经历了以下过程。很显然,AutoGLM 非常出色地完成了这个初始任务。



下面,为了更好地展示,我们将使用 scrcpy 将手机投屏到 PC 上,将前后端情况一并录制。此外,为了方便,我们将上面略显繁琐的命令定义为一个 Function,并把它放进 PowerShell 配置文件 (Profile) 里。下面我们只需简单地输出「run "提示词"」即可向 AutoGLM 发送指令。(当然,你也可以 Vibe Code 一个更好看或直观的交互 UI。)

接下来试试 AutoGLM 与小红书的交互。

run "打开小红书,看看有什么有趣的疯狂动物城周边"



同样,执行非常顺畅,并且在执行过程中,我们还看到 AutoGLM 能够正确地识别和处理弹窗提醒。更让人惊喜的是它的总结能力。它没有机械地罗列标题,而是像个真正的浏览者一样,理解了屏幕上的内容。在最终的反馈中,它汇总了前四个结果:发圈、毛绒公仔、圆珠笔、泡泡玛特盲盒。这说明它不仅「看」到了像素,还「懂」了商品。

AutoGLM 还可以根据用户指令执行连续多步操作,比如你可以让它「先打开维基百科找到五月天的第一张专辑是什么,然后打开 QQ 音乐播放它」:



我们还能让 AutoGLM 帮助完成一些重复性的繁琐任务,比如应用宝软件更新。当你有一大堆软件需要更新时,加上不时的弹窗,这会变成一个几乎让人有些火大的过程。而如果你有 AutoGLM 这样的 AI 助手,也就是一句话的事儿。

run "打开应用宝,把我的软件更新一下"



哇哦!真省心。简直是「懒人福音」。面对一大堆待更新的 App 和时不时的弹窗,AutoGLM 耐心地一个个点击。

有趣的是,在更新过程中,AutoGLM 还遭遇了一次「误触」。根据对话记录可以看出,当时弹出了请求更新哔哩哔哩的许可申请,而此时百度地图又刚刚更新完成,于是 AutoGLM 本来打算点击的「更新」变成了「打开」,它也因此意外打开了百度地图。

如果是传统的自动化脚本,这时候已经卡死报错了。但 AutoGLM 展现出了惊人的临场反应:

  • 感知错误:它发现屏幕画面变成了地图,而不是应用宝。
  • 自我修正:它没有由于结果超出预期而自乱阵脚,而是分析当前状况,执行了「返回/退出」操作。
  • 回到正轨:重新回到应用宝界面,继续未完成的更新任务。

这种稳健性才是 Agent 走向实用的关键。

实测过程中,我们发现 AutoGLM 的执行逻辑是通过分析屏幕截图来确定下一步。也因此,AutoGLM 具有非常高的通用性和普适性,并不局限于智谱官方推荐的应用。事实上,只要它能理解手机屏幕截图,便能够执行一步步地完成任务。

举个例子,我们甚至能让 AutoGLM 调用其它 AI 助手来帮助完成更加复杂的任务。

run "打开 Gemini,让它搜索并整理一下智谱的发展历史,最后出具一份深度报告"



结果堪称完美!Open-AutoGLM 成功打开了 Gemini ,将我们的自然语言指令输入进去,等待 Gemini 生成长文报告,最后将报告内容提取回来。

这一刻,手机里的 App 不再是孤岛。AutoGLM 像是一层「超级胶水」,将本地应用、云端大模型无缝粘合在了一起。这或许就是未来「超级 App」的雏形 ——App 本身不再重要,服务才是核心。

全面开源

人手一个 AI 手机

智谱选择了和封闭生态完全不同的方向。

Open-AutoGLM 的全面开源,意味着开发者、研究者与个人爱好者,都可以沿用 AutoGLM 的执行框架,在自己的产品中复现或延展这个「能动手的 AI」。

此次开源显得诚意十足:

  • 核心模型与推理代码:毫无保留。
  • 工具链:完整的 Phone-Use 框架。
  • 开箱即用:支持 50 多款常用中文 App 的 Demo。
  • 协议友好:模型采用 MIT 协议,代码采用 Apache-2.0 协议。
  • 完善的文档和快速上手指南。

无需担忧的隐私问题

开源彻底改变了隐私的博弈关系。当模型、框架、适配层全部公开后,我们能做的最重要一件事,就是把 AI 完整地搬回到用户的本地设备上运行。

数据无需上云,所有操作记录、App 使用习惯甚至输入内容都能在本机完成处理 —— 没有上传,自然也就没有泄露风险。同时,代码完全透明,任何人都可以验证它是否联网、是否收集数据、是否写入日志,比任何口头承诺都更可靠。

在 AI 手机的概念被炒得火热的今天,我们需要的不是又一个窃取数据的云端黑盒,而是一个透明、可控、私有的智能管家。

行业平等的模型底座

在不远的未来,AI 助手最终会普及到每个用户。而没有人希望,这个能够帮助人们操作手机的助手,一个能够掌控各大应用的入口,是某一个平台独占的资源。豆包手机助手目前被各大 App 限制的现状,已经给出了信号。

这是一次新的人机交互革命,AutoGLM 开源,把 AI 助手的能力彻底开放,变成全行业的公共底座。

Open-AutoGLM 的出现,或许就是 AI Agent 领域的「安卓时刻」:它为那个罗永浩曾梦想过的、动动嘴就能搞定一切的 TNT 时代,铺下了第一块坚实的开源基石。

正如智谱所言:「把我们已经走过的路,变成接下来 Agent 爆发时代大家的起跑线。

未来已来,而且这次,它听你的。

文中视频链接:https://mp.weixin.qq.com/s/ub9_3OETxNjA7NbSrXdW6Q

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
管晨辰:只有练过体育的人才懂发福;成为奥运冠军后常被网暴

管晨辰:只有练过体育的人才懂发福;成为奥运冠军后常被网暴

懂球帝
2026-01-31 22:10:09
善恶有报,移居英国仅2年,57岁吴秀波再迎噩耗,步入李易峰后尘

善恶有报,移居英国仅2年,57岁吴秀波再迎噩耗,步入李易峰后尘

有范又有料
2025-12-17 14:54:06
马国强,履新职

马国强,履新职

上观新闻
2026-02-01 06:29:14
宁夏银川警方:一男子因琐事发生口角持刀将同小区居民捅伤致死,已被刑拘

宁夏银川警方:一男子因琐事发生口角持刀将同小区居民捅伤致死,已被刑拘

环球网资讯
2026-02-01 11:55:40
周末信息如何影响市场?明天是红色星期一?还是黑色星期一?

周末信息如何影响市场?明天是红色星期一?还是黑色星期一?

春江财富
2026-02-01 09:46:38
到了初中,你会发现数学考试低于110分,则完全跟智商没关系

到了初中,你会发现数学考试低于110分,则完全跟智商没关系

好爸育儿
2026-01-27 17:24:54
“一个月做5次,超过就按50万一次收费!”泽尻英龙华逼丈夫签下

“一个月做5次,超过就按50万一次收费!”泽尻英龙华逼丈夫签下

忠于法纪
2025-12-03 11:35:03
父亲工龄48年,退休金每月才880元,我找去社保局,工作人员却愣了:他15年前就是高级工程师,特殊津贴每月16480

父亲工龄48年,退休金每月才880元,我找去社保局,工作人员却愣了:他15年前就是高级工程师,特殊津贴每月16480

起飞做故事
2026-01-28 18:56:29
千万不要过度体检?医生再三提醒:55岁后,这5种体检能不做就不做

千万不要过度体检?医生再三提醒:55岁后,这5种体检能不做就不做

神奇故事
2025-12-30 23:09:45
北大女学霸与清华丈夫相约丁克,10年后看到他日记,一怒将其毒死

北大女学霸与清华丈夫相约丁克,10年后看到他日记,一怒将其毒死

历来都很现实
2024-06-07 23:50:40
哈梅内伊亲临督战,伊朗已按下复仇核按钮,中东大战一触即发?

哈梅内伊亲临督战,伊朗已按下复仇核按钮,中东大战一触即发?

解锁世界风云
2026-02-01 16:38:17
女子刚买新能源车,70公里充了3次电,4S店:没问题,就电没充满

女子刚买新能源车,70公里充了3次电,4S店:没问题,就电没充满

趣味萌宠的日常
2026-02-01 16:02:24
红楼梦:秦可卿为何不反抗公公贾珍?一个耳熟能详的绰号里有答案

红楼梦:秦可卿为何不反抗公公贾珍?一个耳熟能详的绰号里有答案

谈史论天地
2026-02-01 10:55:06
上海黄浦江中发现人棍女尸,四肢头颅都被砍断,腹中怀有九月男胎

上海黄浦江中发现人棍女尸,四肢头颅都被砍断,腹中怀有九月男胎

奇闻故事汇1989
2024-11-15 21:35:03
大姑姐离婚回娘家给嫂子立规矩,婆婆1巴掌打出门:活该你没人要

大姑姐离婚回娘家给嫂子立规矩,婆婆1巴掌打出门:活该你没人要

秀秀情感课堂
2026-02-01 13:01:16
皇马内讧实锤!伯纳乌真核炮轰贝林厄姆,建议主帅直接雪藏

皇马内讧实锤!伯纳乌真核炮轰贝林厄姆,建议主帅直接雪藏

澜归序
2026-02-01 05:52:07
陈赓把战壕挖到2米深,刘伯承怒斥不懂战术,陈:这就是战术

陈赓把战壕挖到2米深,刘伯承怒斥不懂战术,陈:这就是战术

史之铭
2026-01-23 05:29:59
破局与融合:一汽奥迪Q6L e-tron的豪华纯电答卷

破局与融合:一汽奥迪Q6L e-tron的豪华纯电答卷

Report汽车
2025-08-04 15:04:45
解放军战机为何敢直闯菲军演禁区?这3个信号让南海各国坐不住了

解放军战机为何敢直闯菲军演禁区?这3个信号让南海各国坐不住了

历史滴温度
2026-01-31 20:11:11
炸裂!台媒曝赵薇离婚内幕:前夫出轨女儿老师 生私子要她净身出户

炸裂!台媒曝赵薇离婚内幕:前夫出轨女儿老师 生私子要她净身出户

喜欢历史的阿繁
2026-02-01 02:03:06
2026-02-01 17:39:00
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12226文章数 142561关注度
往期回顾 全部

科技要闻

腾讯元宝宣布:10亿现金红包,今日开抢

头条要闻

开年首月连打张又侠等十"虎" 反腐没有"禁区特区盲区"

头条要闻

开年首月连打张又侠等十"虎" 反腐没有"禁区特区盲区"

体育要闻

锁喉吃红牌+扇耳光 英超15人打群架

娱乐要闻

马年春晚第三次联排,多位明星现身

财经要闻

黄仁勋台北"夜宴":汇聚近40位台企高管

汽车要闻

岚图汽车1月交付10515辆 同比增长31%

态度原创

本地
艺术
数码
手机
公开课

本地新闻

云游中国|拨开云雾,巫山每帧都是航拍大片

艺术要闻

明代隐藏的“草书高手”,他的字无人能模仿

数码要闻

REDMI Turbo 5 Max媒体评价汇总,大家认为客观吗?

手机要闻

别急着换机,只因下半年各大厂商都有大升级,这次等等党要赢了

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版