网易首页 > 网易号 > 正文 申请入驻

Hassabis狂赞!谷歌爆改50年鼠标,指哪AI打哪,连提示词都省了

0
分享至


新智元报道

编辑:元宇

【新智元导读】Google DeepMind发布实验原型「AI-enabled pointer」,键盘、鼠标、触屏之后,下一代交互正在成形。

那个陪了你50年、从未改变过的鼠标指针,要长出大脑了。

自1970年代诞生以来,鼠标指针几乎没有进化过。它出现在每一个网站、每一份文档、每一套工作流程里,却从未真正理解过你在做什么。

近日,Google DeepMind发布研究博客,展示由Gemini驱动的实验性原型「AI-enabled pointer」,并在Google AI Studio开放两个实验Demo。


负责这个项目的研究员Adrien Baranes和Rob Marchant在官方博客里写道:「我们正在开发更无缝、更直观的与AI协作的方式。」


https://deepmind.google/blog/ai-pointer/?utm_source=chatgpt.com

DeepMind CEO Demis Hassabis更是亲自发帖,称这次体验「相当神奇」。


鼠标的图标没变,但箭头背后的逻辑变了:不再只知道你指向哪里,而是开始理解你想干什么。

目前,这个原型已经可以在Google AI Studio中体验,已开放两个Demo:编辑图片(AI-Pointer: Create)和地图找地点(AI-Pointer: Find)。


「AI-Pointer: Create」入口:https://aistudio.google.com/apps/bundled/ai-pointer-create

DeepMind官方视频:鼠标指针,一个被遗忘的东西。

AI应该来找你,而不是你去找AI

你每天浪费多少时间在「解释上下文」?

想一下这个你每天都在重复做的场景:

打开ChatGPT或者Gemini等AI工具的对话窗口;切回你正在看的网页或文档,选中那段你想分析的内容,复制;切回AI窗口,粘贴。再用一两句话解释你要什么。等待。拿到结果;再切回去执行……

每一次「切窗口→复制→解释→等待→切回来」,都是一次认知中断。

你在AI那里花的大量时间,其实并没有用在真正的问题上,而是用在了「告诉AI你在看什么」。

DeepMind对于这个问题看得很准:

通常,AI工具住在自己的窗口里,用户需要把自己的世界拖进去。我们想要的恰恰相反:AI应该来找你,而不是你去找AI。

这句话,点透了过去两年AI交互模式最核心的结构性缺陷。

不用提示词

指着说AI就懂

AI-enabled pointer要解决的,正是这类摩擦。Adrien认为这个项目的核心命题只有一个:

如何构建一个能真正理解流动用户意图的系统。

这背后有四个设计原则,是这套系统的骨架,共同回答一个问题:怎么让AI读懂你的意图,而不需要你花力气解释。

第一个原则叫「Maintain the flow」,保持流畅。

按DeepMind的设计目标,AI能力不应把用户带离当前应用,而应尽可能出现在用户正在工作的上下文中。指着一份PDF说「给我一个摘要,直接可以粘进邮件的那种」,AI完成,你继续。

第二个原则叫「Show and tell」,指给它看。现在用AI,你需要写一段详细的提示词,描述你要处理的内容是什么、长什么样、上下文是什么。

AI-enabled pointer把这一步省掉了。光标悬停在哪里,Gemini就捕获那里的视觉信息和语义上下文。你不需要描述你看到的东西,因为AI已经看到了。

第三个原则,是DeepMind最喜欢强调的一个:「Embrace the power of This and That」,拥抱「这个」和「那个」的力量。

想想人和人之间怎么协作。你不会跟同事说「请将第三行第二列的数值乘以二并更新到对应的汇总表格里」。你会说「这个数字,改成两倍,更新到那里」,然后用手指一指。

AI-enabled pointer要让人机协作变得像人与人协作一样自然。技术实现上,可以理解为,系统不再只解析语音里的文字,而是把「this」「that」「here」「there」这类指代词,与光标或手势所指向的视觉和语义上下文关联起来。

所以,当用户说「把这个便签改成橙色」时,「这个」不再只是一个模糊代词,而会被系统结合当前指向的位置、对象和上下文来理解。Gemini拿到的也不只是字面上的一句话,而是由语音、指向和屏幕内容共同构成的意图。

提示词的本质一直都不是文字,而是意图。现在,意图终于可以用最短的方式传达了。

更有意思的是,「指向」并非只有鼠标一种方式。演示里,Adrien用的是头部追踪:头转向哪里,AI注意力就跟到哪里。语音、文字、图像理解,全部同时在线。

第四个原则最有技术含量:「Turn pixels into actionable entities」,让像素变成可操作的实体。

过去50年,光标只知道你指的是哪里,却看不懂你指的是什么,AI-enabled pointer要改变这件事。

你悬停的那张图里有一栋建筑,AI识别出「这是一个地点」,于是「给我导航」成了一个可以直接触发的操作;

你拍下一张手写便条,AI看懂了上面的字,便条自动变成了一份可编辑的待办清单;

你在旅游视频里暂停了一帧,画面里那家看起来不错的餐厅,直接可以弹出订位链接。

演示里还有一个细节让人印象很深:Adrien指着一份餐厅菜单,再指着另一张风格参考图,说「用这张图的风格,帮我把这份菜单画出来」。

Gemini同时读懂了菜单的内容和参考图的视觉风格,生成了一张融合两者的新图。这不是两步操作,是一句话、两个手势,完成的事。

像素第一次有了语义。

从概念到落地

DeepMind并没有停在概念层面。

Google表示,相关交互原则已开始进入产品:在Chrome中,用户可以用指针指向/选择网页中的内容,并向Gemini提问。

Googlebook上的Magic Pointer已被Google列为即将推出的系统级能力,首批Googlebook设备计划于今年秋季上市。

当然,从演示到日常可用,还有一段路要走。

识别准确率、跨应用兼容性、响应速度,都需要在真实的复杂桌面环境里经历打磨。

还有一个问题值得认真对待:AI-enabled pointer需要持续理解你的屏幕内容,数据如何采集、如何存储、流向哪里,DeepMind目前尚未详细说明。

这些并非障碍,而是一项新交互范式从实验室走向大众必须经历的过程。

每一项改变交互方式的技术,都经历过这个阶段。触屏手机在第一代iPhone发布时,也没有人敢保证它能取代键盘。

键盘1973,鼠标1984,触屏2007

下一代交互在2026

把这只指针放回50年人机交互史的时间线上,它的意义会变得很清楚。

1973年,Xerox Alto把图形界面、位图显示和鼠标等现代桌面交互雏形带入实验系统。

1984年,Macintosh让鼠标与图形界面进入大众视野,人开始用「指」图标完成操作。

2007年,iPhone让手指直接成为主要输入方式,触屏成为移动计算的核心交互。

每一次跃迁,背后都是同一件事:机器学会了更多,人需要学的就变少了。

2022年之后的提示词框是另一条线。

人把意图翻译成自然语言,递给一个对话框,再等机器返回答案。表达带宽变宽了,但表达环节本身没消失。你还是要打字、描述。

2026年这只指针,试图压缩的是「解释上下文」这一步,而不是完全消灭表达本身。

2026年这只指针,试图压缩的是「解释上下文」这一步。

手势+语音+语义理解同时到位,意图的传达方式从「精确描述」变成了「自然指向」:人还是要表达,只是再也不用费力解释「我在看什么」了。


前四代交互都是「人主动表达」。这一代第一次是「机器主动理解」。手势+语音+语义理解同时到位,意图的传达方式从「精确描述」变成了「自然指向」。提示词工程在这个范式中几乎不再存在。

Adrien在视频结尾描述了他想象中的未来:

一种新型操作系统。AI主动呈现我可能感兴趣的内容,我用指向回应它,我们共享注意力,共享画布,就像和另一个人一起工作。

AI交互的终点,并非一个更聪明的搜索框,而是一个真正能和你协作的伙伴。

最好用的工具,往往是你忘记它存在的那种。

鼠标陪了人类50年。下一个50年,它或许会真正开始理解你。

参考资料:

https://deepmind.google/blog/ai-pointer/?utm_source=chatgpt.com

https://aistudio.google.com/apps/bundled/ai-pointer-create?showPreview=true&fullscreenApplet=true&showAssistant=true

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
法网倒计时,世界排名掉出TOP50,痛失种子席位的郑钦文将如何触底反弹

法网倒计时,世界排名掉出TOP50,痛失种子席位的郑钦文将如何触底反弹

上观新闻
2026-05-14 17:23:29
日本睡不着了

日本睡不着了

安安说
2026-05-15 10:53:12
昨天宝山一小区:天井蹿出明火,殃及楼上多户

昨天宝山一小区:天井蹿出明火,殃及楼上多户

上观新闻
2026-05-15 12:08:07
82岁任正非罕见亮相,头发花白,登上央视!

82岁任正非罕见亮相,头发花白,登上央视!

李东阳朋友圈
2026-05-11 19:51:21
“五常”就剩俄罗斯了,克宫公布访华新动态,就等中方点头了

“五常”就剩俄罗斯了,克宫公布访华新动态,就等中方点头了

阿尢说历史
2026-05-15 10:58:43
这一幕让全世界震撼!中国军人在“空军一号”轰鸣声前岿然不动

这一幕让全世界震撼!中国军人在“空军一号”轰鸣声前岿然不动

澎湃新闻
2026-05-14 10:30:25
米切尔:哈登带来的影响不仅在于他的统治力 他简直是篮球大师

米切尔:哈登带来的影响不仅在于他的统治力 他简直是篮球大师

北青网-北京青年报
2026-05-14 21:20:20
年薪直降1000万,请湖人别不识好歹,赶紧续约里夫斯

年薪直降1000万,请湖人别不识好歹,赶紧续约里夫斯

兵哥篮球故事
2026-05-14 13:59:29
三好老师的大长腿,够你义务教育9年!

三好老师的大长腿,够你义务教育9年!

贵圈真乱
2026-05-15 11:17:56
鹿晗突然剪寸头!褪去偶像滤镜,35岁素颜怼脸杀太绝了

鹿晗突然剪寸头!褪去偶像滤镜,35岁素颜怼脸杀太绝了

TVB的四小花
2026-05-15 10:00:10
世界杯版权尘埃落定!FIFA与央视达成价格协议 天价报价被砍掉过半

世界杯版权尘埃落定!FIFA与央视达成价格协议 天价报价被砍掉过半

天光破云来
2026-05-15 12:53:00
广东中山启动防汛Ⅲ级应急响应,多个地区停课

广东中山启动防汛Ⅲ级应急响应,多个地区停课

界面新闻
2026-05-15 12:47:47
姆巴佩赛后独自离场,未理会经过其身边的贝林厄姆

姆巴佩赛后独自离场,未理会经过其身边的贝林厄姆

懂球帝
2026-05-15 10:04:27
坐标上海!被裁失业后的生活,引炸评论区,大家同为天涯沦落人…

坐标上海!被裁失业后的生活,引炸评论区,大家同为天涯沦落人…

慧翔百科
2026-05-13 11:30:11
40多年来头一回,特朗普对华让步?岛内千算万算,台湾还是上菜单

40多年来头一回,特朗普对华让步?岛内千算万算,台湾还是上菜单

张学昆看世界
2026-05-15 13:09:42
美国暴雨冲出3具尸体,一人生前曾是武汉某院长,死后却无人认领

美国暴雨冲出3具尸体,一人生前曾是武汉某院长,死后却无人认领

芳芳历史烩
2026-05-15 12:46:29
江怡臻说,脚踏进人民大会堂,整个人就“战战兢兢,如履薄冰”了

江怡臻说,脚踏进人民大会堂,整个人就“战战兢兢,如履薄冰”了

果妈聊娱乐
2026-04-16 09:19:20
爱立信CEO:如果不在中国,就追不上

爱立信CEO:如果不在中国,就追不上

观察者网
2026-05-15 09:56:09
时隔6年,曾扬言让中国给全世界道歉,那个央视开除的阿丘咋样了

时隔6年,曾扬言让中国给全世界道歉,那个央视开除的阿丘咋样了

君笙的拂兮
2026-05-15 05:46:15
两次嫁给梁靖崑,退圈安心照顾两个儿子,如今丈夫成为大学教授

两次嫁给梁靖崑,退圈安心照顾两个儿子,如今丈夫成为大学教授

闻识
2026-05-15 11:32:56
2026-05-15 13:48:49
新智元 incentive-icons
新智元
AI产业主平台领航智能+时代
15218文章数 66869关注度
往期回顾 全部

科技要闻

两年联姻一地鸡毛,传苹果OpenAI濒临决裂

头条要闻

特朗普访华"二号位"系美国驻华大使 其曾受超规格礼遇

头条要闻

特朗普访华"二号位"系美国驻华大使 其曾受超规格礼遇

体育要闻

德约科维奇买的球队,从第6级联赛升入法甲

娱乐要闻

方媛回应住男生单人间:女孩的配得感

财经要闻

特朗普的北京时刻

汽车要闻

双零重力座椅/AI智能体/调光天幕 启境GT7内饰发布

态度原创

家居
本地
时尚
艺术
公开课

家居要闻

110㎡淡而有致的生活表达

本地新闻

用苏绣的方式,打开江西婺源

冰凉一夏 | 比没穿还舒服,这些贴身衣物我囤了5件

艺术要闻

一个北大 “反卷教授” 的意外走红

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版