不是下个月,不是明年,现在就能用。
Google把计算机操控能力直接塞进了Gemini 3.5 Flash主模型里。之前这项功能只能通过独立的Gemini 2.5计算机操控模型实现,现在它已经成为3.5 Flash的原生内置工具。这意味着开发者不需要再在两个模型之间切换,一个接口就能搞定从理解指令到执行屏幕操作的全流程。
![]()
这件事的核心价值在于:AI不再只是看完网页给你总结一段文字,而是真能替你点按钮、填表单、操作专业软件。官方说法是“让开发者能够可靠地构建能看见、能推理、能在浏览器、移动端和桌面环境里自主行动的智能体”。
性能提升的方向也很明确。把计算机操控能力整合进主模型后,Gemini在执行长时间跨度的企业自动化任务时表现更好了。官方举了两个直接例子:持续性的软件测试,以及跨专业应用的知识工作任务。这两类场景都要求模型能保持长时间的注意力,记住之前做过什么,并且在不同工具之间平稳切换。
如果你现在就想试,入口在Gemini API和Gemini Enterprise Agent Platform。官方还展示了两项马上能用的实践案例:一个是用3.5 Flash分析自家Gemini应用,生成一个分类好的功能列表;另一个是让模型审查自己的文档,检查可访问性问题。
但让AI直接操控电脑,安全问题是绕不过去的坎。
第一个风险是提示词注入。恶意指令伪装在正常内容里,模型如果照单全收,后果可能是删文件、发邮件、改配置。Google的对策是针对性的对抗训练,专门训练3.5 Flash在计算机操控场景下识别这类攻击。
除此之外,还放出了两个企业级安全控制机制:企业可以要求模型在涉及敏感操作或不可逆动作时,必须获取用户明确确认;也可以在检测到间接提示词注入攻击时,自动终止正在执行的任务。Google把这种策略称为“纵深防御”,同时建议开发者配合沙箱隔离、人机协同验证和严格访问控制一起来用。
已经有些早期客户给出反馈了。虽然原文没有具体署名,但至少可以确认这项能力并非实验室玩具,已经在真实业务场景里跑起来了。想自己上手的话,官方给出了两条明确路线:先用Browserbase搭建的演示环境跑一遍测试看看效果,然后直接深入参考实现和文档,开始在Gemini API或Enterprise Agent Platform上构建你自己的智能体。从试用到开工,中间没有什么前置门槛。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.