Gemini能动手操控电脑了|谷歌|计算机|知名企业|命令提示符|gemini

Gemini能动手操控电脑了

2026-06-25 00:48:11　来源: 闪存猎手

北京举报

分享至

不是下个月，不是明年，现在就能用。

Google把计算机操控能力直接塞进了Gemini 3.5 Flash主模型里。之前这项功能只能通过独立的Gemini 2.5计算机操控模型实现，现在它已经成为3.5 Flash的原生内置工具。这意味着开发者不需要再在两个模型之间切换，一个接口就能搞定从理解指令到执行屏幕操作的全流程。

这件事的核心价值在于：AI不再只是看完网页给你总结一段文字，而是真能替你点按钮、填表单、操作专业软件。官方说法是“让开发者能够可靠地构建能看见、能推理、能在浏览器、移动端和桌面环境里自主行动的智能体”。

性能提升的方向也很明确。把计算机操控能力整合进主模型后，Gemini在执行长时间跨度的企业自动化任务时表现更好了。官方举了两个直接例子：持续性的软件测试，以及跨专业应用的知识工作任务。这两类场景都要求模型能保持长时间的注意力，记住之前做过什么，并且在不同工具之间平稳切换。

如果你现在就想试，入口在Gemini API和Gemini Enterprise Agent Platform。官方还展示了两项马上能用的实践案例：一个是用3.5 Flash分析自家Gemini应用，生成一个分类好的功能列表；另一个是让模型审查自己的文档，检查可访问性问题。

但让AI直接操控电脑，安全问题是绕不过去的坎。

第一个风险是提示词注入。恶意指令伪装在正常内容里，模型如果照单全收，后果可能是删文件、发邮件、改配置。Google的对策是针对性的对抗训练，专门训练3.5 Flash在计算机操控场景下识别这类攻击。

除此之外，还放出了两个企业级安全控制机制：企业可以要求模型在涉及敏感操作或不可逆动作时，必须获取用户明确确认；也可以在检测到间接提示词注入攻击时，自动终止正在执行的任务。Google把这种策略称为“纵深防御”，同时建议开发者配合沙箱隔离、人机协同验证和严格访问控制一起来用。

已经有些早期客户给出反馈了。虽然原文没有具体署名，但至少可以确认这项能力并非实验室玩具，已经在真实业务场景里跑起来了。想自己上手的话，官方给出了两条明确路线：先用Browserbase搭建的演示环境跑一遍测试看看效果，然后直接深入参考实现和文档，开始在Gemini API或Enterprise Agent Platform上构建你自己的智能体。从试用到开工，中间没有什么前置门槛。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.