网易首页 > 网易号 > 正文 申请入驻

谷歌加入CUA战场,发布Gemini 2.5 Computer Use:让AI直接操作浏览器

0
分享至

来源:市场资讯

(来源:机器之心)

谷歌的 Computer Use 模型来了!

今天凌晨,谷歌 DeepMind 重磅发布了基于 Gemini 2.5 的计算机使用模型 Gemini 2.5 Computer Use。

考虑到前些天谷歌才刚刚发布了 Chrome DevTools (MCP),Gemini 2.5 Computer Use 的诞生倒不是特别让人惊讶。简单来说,与 OpenAI 的 Computer-Using Agent (CUA) 类似,DeepMind 的这个模型可让 AI 直接控制用户的浏览器 —— 在视觉理解和推理能力的基础上,该模型可以帮助用户在浏览器中执行点击、滚动和输入等操作。


先来看两个官方演示。

提示词:From https://tinyurl.com/pet-care-signup , get all details for any pet with a California residency and add them as a guest in my spa CRM at https://pet-luxe-spa.web.app/. Then, set up a follow up visit appointment with the specialist Anima Lavar for October 10th anytime after 8am. The reason for the visit is the same as their requested treatment.

提示词:My art club brainstormed tasks ahead of our fair. The board is chaotic and I need your help organizing the tasks into some categories I created. Go to sticky-note-jam.web.app and ensure notes are clearly in the right sections. Drag them there if not.

可以看到,不管是收集网络信息与执行动作,还是整理杂乱笔记,Gemini 2.5 Computer Use 都非常准确地完成了任务,同时速度也相当快。

在相关基准上,Gemini 2.5 Computer Use 的性能表现也达到了 SOTA 水平:


同时,其速度表现也优于其它几个相比较的模型:


目前,开发者已可以通过 Google AI Studio 和 Vertex AI 的 Gemini API 获取这些能力。用户也可以在 Browserbase 托管的演示环境中试用(最多仅支持 5 分钟的流程,且不支持用户中途接管):https://gemini.browserbase.com/

机器之心使用该演示环境做了几次尝试。整体来看,Gemini 2.5 Computer Use 在完成简单任务时准确度较高,但稍微复杂一点的任务就容易失败。

比如在执行「在维基百科上找到 John Wick 页面」这样的简单任务时,该模型的表现非常成功。

但只要稍微复杂一点,该模型就失败了,比如「在维基百科上找到 John Wick 页面,并总结其信息,给出中文版。」另外,我们让其「打开诺贝尔奖官方网站,给出今年诺贝尔将宣布的时间表」的任务以及以下任务均未能成功完成。

提示词:浏览 jiqizhixin.com,找到近半年关于 Gemini 的报道,并整理成一份 Markdown 文件,并进行总结。

此外,DeepMind 也已经发布了 Gemini 2.5 Computer Use 系统卡:

https://storage.googleapis.com/deepmind-media/Model-Cards/Gemini-2-5-Computer-Use-Model-Card.pdf


Gemini 2.5 Computer Use 的工作原理

该模型的核心能力是通过 Gemini API 中新增的 computer_use 工具实现的,开发者使用时需在一个循环流程(loop)中运行。

其输入应包括:

  • 用户请求;

  • 当前环境的截图;

  • 最近执行动作的历史记录。

另外,输入中还可以指定是否从默认支持的 UI 动作中排除特定功能以及添加自定义函数。


Gemini 2.5 Computer Use 模型工作流程

模型分析这些输入后,会生成响应,通常是一个代表 UI 动作的函数调用(如点击或输入)。在某些操作(如购买行为)中,模型还会请求用户确认。客户端随后会执行这些动作。

动作执行完成后,系统会将最新截图与当前 URL 作为函数响应返回给模型,重新启动循环。

这一迭代过程会持续进行,直到任务完成、出现错误,或因安全机制或用户决定而终止。

谷歌表示,当前 Gemini 2.5 Computer Use 模型主要针对网页浏览器优化,但在移动端 UI 控制方面也展现出强劲潜力。不过它暂未针对桌面操作系统级控制进行优化。

安全机制设计

谷歌还在博客中分享了他们对该模型的安全机制设计。

谷歌表示:「负责任地构建智能体是让 AI 造福所有人的唯一途径。能够直接操作电脑的 AI 智能体带来了特有的风险,包括用户恶意使用、模型意外行为、以及网页环境下的提示词注入与诈骗。因此,我们在设计中高度重视安全防护。」

在 Gemini 2.5 Computer Use 模型中,谷歌直接在训练阶段融入安全机制,以应对三类主要风险(详见系统卡)。

此外,谷歌还为开发者提供安全控制选项,防止模型自动执行潜在高风险或有害操作,例如:

  • 损害系统完整性;

  • 危及安全;

  • 绕过验证码;

  • 控制医疗设备。

谷歌实施的控制手段包括:

  • 逐步安全服务(Per-step Safety Service):在推理阶段,由独立安全服务评估每个模型拟执行的动作。

  • 系统指令(System Instructions):开发者可设定在特定高风险操作前,智能体必须拒绝或请求用户确认。

结语

谷歌 DeepMind 携 Gemini 2.5 Computer Use 高调入场,不仅在多个基准测试上展示了领先的性能,也让 AI 智能体领域的竞争正式进入了白热化阶段。

从 OpenAI 到 Anthropic,再到如今的谷歌,科技巨头们正竞相定义我们与计算机交互的未来。尽管当前模型在面对复杂现实任务时仍显稚嫩,但这恰恰是技术黎明前的真实写照。今天我们看到的不仅是一个新模型,更是一个清晰的信号:键盘和鼠标的主导地位正受到挑战,一个通过自然语言直接驱动数字世界的时代,正加速向我们驶来。

https://blog.google/technology/google-deepmind/gemini-computer-use-model/

https://x.com/GoogleAIStudio/status/1975648565222691279

https://x.com/GoogleDeepMind/status/1975648789911224793

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
深圳一高端豪宅被指“不如保障房”,开发商回应

深圳一高端豪宅被指“不如保障房”,开发商回应

南方都市报
2026-03-14 00:19:55
人要坏成什么样子,才能干出这种自导自演砸人饭碗的事?

人要坏成什么样子,才能干出这种自导自演砸人饭碗的事?

胖胖说他不胖
2026-03-13 09:00:25
把珍妃扔进井里的太监,晚年接受采访时说了句大实话:她比慈禧狠多了

把珍妃扔进井里的太监,晚年接受采访时说了句大实话:她比慈禧狠多了

文史明鉴
2026-03-13 21:35:18
乾坤倒转,乌军将培训德军作战,泽连斯基宣布取得冬季之战胜利

乾坤倒转,乌军将培训德军作战,泽连斯基宣布取得冬季之战胜利

史政先锋
2026-03-13 22:13:05
火锅店竹筒餐具现黑色斑点,店方否认发霉,监管部门:已送检并责令下架类似问题餐具

火锅店竹筒餐具现黑色斑点,店方否认发霉,监管部门:已送检并责令下架类似问题餐具

极目新闻
2026-03-13 19:52:03
小杨阿姨不演了!频繁直播发动态,薪资超张兰,戳破马筱梅谎言

小杨阿姨不演了!频繁直播发动态,薪资超张兰,戳破马筱梅谎言

萧佉影视解说
2026-03-12 21:37:27
从S挡直跳N挡!郑州车主驾新能源车高速突发失速,售后称属于超速过载保护,车主:拿生命安全当儿戏

从S挡直跳N挡!郑州车主驾新能源车高速突发失速,售后称属于超速过载保护,车主:拿生命安全当儿戏

大风新闻
2026-03-13 10:28:03
外交部:所谓“强迫劳动”完全是美方炮制的谎言,中方反对以此为借口进行政治操弄

外交部:所谓“强迫劳动”完全是美方炮制的谎言,中方反对以此为借口进行政治操弄

环球网资讯
2026-03-13 15:52:52
苗苗终于晒三胎,母女四个坐一张椅子,小女儿露脸颜值比哥姐还高

苗苗终于晒三胎,母女四个坐一张椅子,小女儿露脸颜值比哥姐还高

八怪娱
2026-03-13 19:19:30
第一批“养虾人”已失眠!演员李诞自曝每天超过10小时“养龙虾”

第一批“养虾人”已失眠!演员李诞自曝每天超过10小时“养龙虾”

书纪文谭
2026-03-13 12:57:11
28岁上海女健身教练确诊艾滋病,痛苦坦言:早有异常,当时没重视

28岁上海女健身教练确诊艾滋病,痛苦坦言:早有异常,当时没重视

周哥一影视
2026-03-12 19:52:24
他是张学良的保镖,后成香港首富,赌王何鸿燊见了他都要喊叔

他是张学良的保镖,后成香港首富,赌王何鸿燊见了他都要喊叔

云霄纪史观
2026-03-13 16:17:19
伊朗发起“真实承诺-4”第44轮军事行动,打击美国第五舰队基地

伊朗发起“真实承诺-4”第44轮军事行动,打击美国第五舰队基地

每日经济新闻
2026-03-13 12:06:17
小区楼上天天晚上都有女的大声叫。。。

小区楼上天天晚上都有女的大声叫。。。

微微热评
2025-12-24 00:26:04
轰99+22+23!三巨头杀疯了,湖人终于清醒,老詹也只剩下一个结局

轰99+22+23!三巨头杀疯了,湖人终于清醒,老詹也只剩下一个结局

林子说事
2026-03-13 20:51:27
短剧盛典成“照妖镜”:有人脸歪有人腿短,真帅哥才不怕怼脸拍!

短剧盛典成“照妖镜”:有人脸歪有人腿短,真帅哥才不怕怼脸拍!

喜欢历史的阿繁
2026-03-13 17:58:09
生育大局已定:不出意外的话,2026年起中国人口将迎来3大变化

生育大局已定:不出意外的话,2026年起中国人口将迎来3大变化

福建平子
2026-03-13 11:35:56
济宁市供销合作社联合社原党组成员、理事会副主任、三级调研员罗明颖被“双开”

济宁市供销合作社联合社原党组成员、理事会副主任、三级调研员罗明颖被“双开”

中国山东网
2026-03-13 16:28:21
随着武汉三镇4-1,中超最新积分榜出炉:仍有9队积分为负数

随着武汉三镇4-1,中超最新积分榜出炉:仍有9队积分为负数

侧身凌空斩
2026-03-13 21:43:13
一个残酷真相:越是被捧在手心的孩子,长大后越是对父母冷若冰霜

一个残酷真相:越是被捧在手心的孩子,长大后越是对父母冷若冰霜

户外阿毽
2026-03-13 00:22:20
2026-03-14 07:52:49
新浪财经 incentive-icons
新浪财经
新浪财经是一家创建于1999年8月的财经平台
2478997文章数 5862关注度
往期回顾 全部

科技要闻

龙虾热卷到AI硬件 “无脑”硬件或被淘汰

头条要闻

特朗普:对伊朗石油出口枢纽哈尔克岛发动"猛烈空袭"

头条要闻

特朗普:对伊朗石油出口枢纽哈尔克岛发动"猛烈空袭"

体育要闻

叕战奥运,张雨霏要做回“小将”

娱乐要闻

广电总局公布演员将用姓氏笔画定番位

财经要闻

“十五五”规划纲要,全文来了!

汽车要闻

置换补贴价8.68万 五菱缤果S 525km旗舰款上市

态度原创

艺术
手机
本地
时尚
军事航空

艺术要闻

毛泽东的书法究竟需不需要天赋?看邓宝珊的信揭晓真相!

手机要闻

小米Civi 6系列突然曝光:天玑双芯策略,配置与发布时间也清晰了

本地新闻

坐标北京,过敏季反向迁徒

扎十一惹:像鸟飞往她的山

军事要闻

特朗普宣布空袭伊石油出口枢纽哈尔克岛

无障碍浏览 进入关怀版