Google给Mac做的Gemini应用刚上线几周,就有人从代码里挖出了更猛的功能——它可能不只是聊天窗口,而是能直接操控你的电脑。
这让人立刻想到Anthropic的Claude Cowork:让AI看屏幕、动鼠标、整理文件。现在Google也在走这条路,而且进度可能比外界想象的更快。
![]()
从APK拆解里发现了什么
9to5Google对Android安装包做了拆解,发现Gemini Mac版正在开发"computer use"(计算机使用)能力。具体来说,代码暗示它能组织文件、执行操作,甚至把零散文档转成Google Workspace格式——Docs、Sheets、Slides。
这需要macOS的屏幕访问和辅助功能权限。一旦用户授权,Gemini就能查看屏幕内容、控制鼠标键盘、直接操作本地文件。
目前公开的Mac应用还很初级:Option+Space呼出聊天窗口,支持窗口分享让AI看到屏幕内容,免去复制粘贴。但代码显示,Google的野心远不止于此。
为什么是现在
时间线很紧凑。2024年10月,Google已向开发者开放Gemini 2.5 Computer Use模型。几周前,Gemini原生macOS应用正式上线,对标OpenAI的ChatGPT桌面版。
竞争对手也在同一赛道。Anthropic的Claude Cowork已经能控制电脑,OpenAI则被曝在开发"超级应用"。Google的动作明显是在补课,同时试图反超。
一个关键差距:ChatGPT桌面版上线近两年,功能仍相对基础。如果Google能快速落地agentic能力,Gemini Mac版将获得阶段性优势。
Claude暂时领先,但局面在变化
目前Claude Cowork仍是标杆。它能理解屏幕内容、执行多步骤任务、跨应用操作。OpenAI这边,关于"超级应用"的消息时有传出,但近期相对沉默。
Google的特殊筹码是Workspace生态。代码暗示的"非结构化文件转Docs/Sheets/Slides"功能,直接打通了本地文件与云端办公套件。这是Anthropic和OpenAI都没有的垂直整合。
不过Google尚未确认任何计划。APK拆解只是技术线索,不代表最终产品形态。9to5Google也强调,这些功能可能变动,甚至取消。
权限与体验的两难
要让AI真正"使用电脑",用户必须交出深层系统权限。屏幕录制、辅助功能控制——这些权限过去是恶意软件的重点目标。普通用户是否愿意给AI同样的信任?
Google的解法可能是渐进式:先通过窗口分享建立习惯,再引导开启更深权限。Gemini Enterprise的发布也暗示了企业市场的优先级——IT管理员对权限管控更熟悉,员工对自动化需求更刚性。
另一个悬念是交互设计。Claude Cowork采用"观察-建议-执行"的确认流程,减少误操作。Google会沿用类似设计,还是更激进地让AI自主决策?
开发者已能尝鲜
Computer Use模型去年10月已向开发者开放,意味着第三方应用可以集成类似能力。Gemini Mac版的原生支持,相当于Google亲自下场做标杆实现。
这对开发者生态有双重意义:一是降低接入门槛,不用自己处理macOS权限和UI自动化;二是设定交互范式,影响用户对AI代理的预期。
如果Google能做好,可能重现Android早期"官方应用定标准"的效果;如果体验翻车,也会拖累整个Gemini品牌的信任度。
下一步看什么
三个观察点:第一,Google何时官方确认这些功能,措辞是"实验性"还是"正式推出";第二,实际任务成功率——整理文件听起来简单,但面对混乱的桌面和命名随意的文件夹,AI的容错空间很小;第三,企业客户的采用速度,他们更可能为明确的效率提升承担权限风险。
这场竞赛的本质不是技术演示,而是谁能让AI代理真正融入日常工作流而不制造麻烦。Claude先跑了一步,OpenAI在憋大招,Google正在用Workspace生态和原生应用双线夹击。对Mac用户来说,几个月后可能会有三个AI争夺你的屏幕控制权——选谁,取决于谁真的懂你混乱的文件夹。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.