网易首页 > 网易号 > 正文 申请入驻

有AI的搜索、会规划的Agent、更长的上下文,全靠多模态Gemini

0
分享至

  • 作者|周雅

有AI的地方,就是一个江湖。

还是那个圆形剧场(Shoreline Amphitheatre),五月的气候嗖嗖灌着穿堂风,但现场气氛丝毫未受到影响。

反倒是因为在24小时之前,OpenAI带着GPT-4o来了场截胡式官宣,把谷歌的这场I/O架在一个非常尴尬的位置,此刻大家似乎都在等着看谷歌“阁下又该如何应对”。

于是谷歌用了整场两小时的时间,来了场特种兵式的发布,一次性回应所有的声音。

如果用一个词形容今年的I/O,那一定是「全」,你能想到的几乎所有AI场景,谷歌这次都有涉及到:

从基础模型Gemini的性能增强(包括轻量级模型Gemini 1.5 Flash、200万tokens超长上下文的Gemini 1.5 Pro);到开源模型Gemma的进展(剧透下一代开源模型Gemma 2);到支持超过1分钟、1080P的视频生成模型Veo;与ChatGPT-4o一样“长了眼和嘴”的拥有视觉语音交互功能的Gemini Live;还有文生图模型imagen 3;AI音乐创作工具Music AI Sandbox;以及向其他AI Agent贴脸开大的Project Astra。

这么全,又这么多首发,很难不让人猜想,谷歌难道一直在憋大招?

留意到此前Madrona Venture Group合伙人、Amazon Web Services前人工智能高管Jon Turow说,谷歌这次的发布时间表较慢是可以理解的,因为谷歌 "比其他公司(如OpenAI)承担更大的责任",谷歌是在自家有着数十亿用户的现有业务上做文章,不是从零开始,所以更慎重。“当一个产品达到其他公司(如OpenAI)可以发布的标准时,谷歌也不能草率地发布。"

Gemini的完全形态:多模态、长上下文、AI Agent

当谷歌CEO桑达尔·皮查伊上台,好戏正式开始。

谷歌CEO桑达尔·皮查伊(Sundar Pichai)

“Gemini”“Gemini”“Gemini”这恐怕是整场出现频率最高的词,作为谷歌目前最核心的基础模型,Gemini尽显谷歌在AI时代的野心。

1年前,Gemini问世时谷歌对它定位就很明确:多模态模型。在那之后,Gemini就朝着该定位,开始火速迭代。去年12月,谷歌推出Gemini 1.0,共有三个版本:Ultra、Pro 和 Nano。两个月后,谷歌又推出Gemini 1.5 Pro,有了更强的性能、100万token的长上下文。

“谷歌正式迈向Gemini时代(Google is fully in Gemini era)”,皮查伊直奔主题说:

目前有超过150万开发者在工具中使用Gemini,有20亿用户产品在使用Gemini,而谷歌推出安卓和iOS上可用的Gemini Advanced在发布三个月后就已经收获超过100万用户。

此外,Gemini 1.5 Pro还从原本的100万token升级到200万token,这意味着能处理1500页PDF、3万行代码、或1小时视频文件,即日起Gemini 1.5 Pro将通过Gemini Advanced向全球150多个国家的用户正式推送,且支持35种语言。

Gemini 1.5的 200 万token能力横评对比

而在现场,Gemini又有更新:谷歌发布针对端侧的模型Gemini 1.5 flash,同样有100万和200万token版本。相比此前的Gemini 1.5 Pro,该模型的特点是轻量级:更快速高效、多通道推理、长上下文。

价格方面,Gemini 1.5 Pro为7美元/100万tokens,对于128k以下的输入,将降价50%至3.5美元/100万tokens,比 OpenAI 的 GPT-4o 便宜约 30%;Gemini 1.5 Flash的价格为0.35美元/100万tokens,比OpenAI的任何大模型都便宜。

除了Gemini本身的更新之外,更重要的是,谷歌把Gemini植入到所有产品中,包括搜索、地图、照片、Workspace、安卓等等。

· 搜索大不同

作为搜索巨头,要想让Gemini成长,谷歌自然不会放过搜索这个现成的数据库,所以,你现在在谷歌的每一次搜索,背后都有Gemini在工作。这个功能被称为「AI Overview(AI概述)」,是指AI会根据你的搜索,给出最佳答案,提升搜索体验。

相比传统的搜索引擎,AI Overviews功能将为用户呈现出包括观点、见解、链接的完整答案。谷歌强调其三大独特优势:实时信息、排名和质量体系、Gemini能力。谷歌引入多步推理功能(Multi-step reasoning),把大问题一步步分解,并按优先顺序提供。

例如,用户想找一个合适的普拉提工作室,需要考虑时间、价格、距离等因素,就可以在谷歌搜索输入:“在波士顿找到最好的瑜伽工作室,并显示优惠详情,以及从我家过去的步行时间”。最终,谷歌搜索将提炼整合出信息,并呈现在AI Overviews中,为用户节省时间。

· 今夏上线的Ask Photos

当然,不仅谷歌搜索有Gemini,照片搜索中也有Gemini。皮查伊现场演示了Gemini在Google Photos(谷歌相册)里如何整活儿,比如你在停车场给车拍了照之后,找不到车停哪儿时,可以直接问 Gemini “我的车在哪”,它就能帮你自动识别相关照片中的信息,告诉你车的具体位置。

这个功能被称为「Ask Photos」,将于今年夏天正式发布。

而正是因为Gemini的多模态和“长”上下文,Ask Photos不仅能搜索照片,甚至能理解搜出来的内容。比如,你在回忆女儿Lucia的高光时刻,可以直接问Gemini:“Lucia是啥时候学会游泳的?”甚至问更复杂的问题:“Lucia的游泳进步了夺少?”

在这背后,Gemini可以根据“Lucia在游泳池里游泳,到在海洋里浮潜,再到游泳证书上的文字和日期”一系列内容,最后告诉你答案。

这一切,都是因为Gemini的两大能力——多模态+长上下文。“多模态可以解锁更多知识,并输出更多答案。而长上下文就能输入更多信息:数百页的文本,数小时的音频,1小时的视频,完整的代码库……甚至,如果你愿意,引入96个Cheesecake Factory菜单(编者注:美国的芝乐坊餐厅)也不是不可以。”皮查伊开玩笑说。

  • 更智能的办公套件

有了上述俩特长,Gemini也被植入到谷歌的办公套件中。包括在Google Meet中生成会议纪要,在Gmail的所有邮件中提取关键信息,自动整理邮件中的表格,甚至生成一张数据分析表格。


当然,仅仅是多模态+长上下文还不够,谷歌为Gemini注入了最后一股力量:AI Agent(AI智能体)。

皮查伊举了一个“网购”的例子。买鞋是件很有趣的事,但是当鞋子不合脚的时候,退货就没那么有趣了。而因为有了AI智能体,Gemini可以替你完成所有的退货步骤:在收件箱里搜索收据-从购买记录里找订单号-填退货单-安排快递上门取货,一气呵成。

至此,Gemini的终极形态初现——多模态、长上下文、AI Agent。

Project Astra扛大旗:看似Agent,实则通向AGI

第二位上场的嘉宾,作为AI界大神级的人物,Google DeepMind创始人Demis Hassabis首次出现在I/O的舞台上,收获了台下阵阵掌声。

Google DeepMind创始人Demis Hassabis

自从被谷歌收购之后,DeepMind早已成为谷歌的左膀右臂。去年,Google DeepMind实验室成立,将两家公司的AI人才整合,也收获了不少成绩,比如上周问世的用于预测几乎所有生物分子结构和相互作用的AlphaFold 3就是其中之一。

与现场高涨气氛相呼应的,Demis Hassabis的发布也相当轰动,其中就包括一个AI Agent(AI智能体)新项目——Project Astra。

从现场的演示视频来看,其中的一幕是,演示者拿着手机,让AI实时收集周边环境信息,然后在办公室转了一圈突然问:“你记得我的眼镜在哪里吗?”只见它立刻回答:“记得,在桌子上的红苹果旁边。”

要知道,在实际场景中,哪怕两个人类对话,也可能会忽略这些细节,但演示中的AI却精准捕捉到了眼镜的位置。这种强大的通用语言与环境理解能力,瞬间让现场响起雷鸣掌声。

Hassabis特别提到,这些演示并非“仅供参考”的演示效果,都是在一次性拍摄中实时捕捉。他坦言,其中最受挑战的是“将响应时间缩短为对话式的内容”,为此,DeepMind在Gemini的基础上开发了原型Agent,通过连续编码视频帧、将视频和语音输入组合到事件时间线中并缓存,以确保能快速有效调用,从而更快地处理信息。

“过去几年里,我们一直在改进模型的感知、推理和对话方式,使交互的速度和质量更自然。”Hassabis说,有了Astra项目,大家未来可以在手机或眼镜上拥有专业的AI助手。

伴随着Astra的发布,Hassabis也强调了他们的最终目的——AGI。“计算机能像人一样思考,这件事从小就让我着迷,这也是我研究神经科学的原因,2010年我创办DeepMind时,终极目标就是AGI,我相信如果负责任地开发这项技术,它对人类的影响将会是无比深远的。”

当然,除了对AGI的探索之外,谷歌还介绍了在多模态领域的新进展,从图像、到音频、到视频这三个主要内容源全面出击:包括能够生成超过1分钟、1080P 的视频生成模型Voe、文生图模型Imagen 3、以及面向专业音乐创作者的AI音乐创作工具 Music AI Sandbox。

由谷歌的文生图模型Imagen 3生成

从Voe的演示视频来看,它能理解很多电影术语,如“延时”“景观航拍”“时光倒流(Timelapse)”。谷歌指出,Veo 建立在多年的生成视频模型的基础上,包括生成查询网络(GQN)、DVD-GAN、Imagen-Video、Phenaki、WALT、VideoPoet、Lumiere,以及Transformer 架构和Gemini。未来,谷歌还将把Veo的一些功能引入YouTube Shorts和其他产品。

而在AI音乐创作方面,谷歌通过Music AI Sandbox跟音乐家合作,音乐家可以把一段哼唱或弹奏的灵感片段发给AI,AI生成一首歌或旋律。

有“软”也有“硬”

作为专门面向开发者的I/O,除了软件的密集发布之外,硬件的同步更新也一直是I/O的保留项目。

这次,谷歌发布了第六代 TPU 硬件Trilium,计算能力相比前代提升 4.7 倍,预计将在 2024 年底面向用户推出,谷歌这次发布的Veo、Imagen 3、Gemini 1.5 Pro 等几乎所有产品,都是基于这款新硬件。

十多年前,谷歌就意识到,需要一款用于机器学习的芯片。2013年,谷歌开始开发世界上第一款专用AI加速器TPU v1,随后在2017年推出了第一个云TPU。如果没有TPU,谷歌大量的服务(如实时语音搜索、照片对象识别、交互式语言翻译),以及最先进的基础模型(如Gemini、Imagen和Gemma)将不可能实现。

当然,除了硬件,安卓系统也不能忽略,尤其是 Gemini 的融入,是否会让安卓系统焕然一新?

这次 Gemini 在 Android 上的最新进展是——Gemini Live,主打一个用文本、语音或影像等多模态的交互体验,在实际对话过程中,你甚至可以像与真人对话一样,通过打断对话、提出新问题的方式来更高效的沟通。并且,谷歌透露,基于 Project Astra 实现的摄像视频识别功能也将在今年年内发布,所以用户可以打开摄像头,让AI看见周围的世界并做出实时响应。

在演讲接近尾声时,皮查伊提到此前I/O玩过的一个旧梗:“今天肯定有人数,我说了多少次AI?”。

“不用数了,因为Gemini数完了。”他接着说。

然后大屏幕显示120次。

“我竟然说了这么多次AI。”皮查伊笑道。

在皮查伊说出这句话的同时,屏幕上的数字变成了 121。

现场笑声一片。

整场围观下来,此次I/O密集的发布,与其被网传的说是竞争压力下的紧迫感,不如看成是面向AI变革下的一种随时准备好的从容。

在这场活动结束的数小时后,谷歌玩了个“AI点评AI”:

谷歌用刚刚发布的Astra,解说此前OpenAI发布会上现场演示的ChatGPT-4o。(也就是用谷歌的AI去评判OpenAI的AI)

从视频来看,效果拉满。Astra站在上帝视角,作为观察者,准确解读了被观察者ChatGPT-4o的动作,预判后者行动。

最有意思的来了,当01分02秒时,Astra提前解出方程,然后说,“让我们看ChatGPT-4o能不能算出来”(带着傲娇气),不过,接下来在02分20秒时,Astra又开启了夸夸模式,把气氛拉了回来。

看完之后,一句话出现在我的脑海里:

“人类总是互相竞争,但AIs help AIs?”有AI的搜索、会规划的Agent、更长的上下文,全靠多模态Gemini|Google I/O现场全纪实

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
某园区摄像头时常自动旋转,国家安全机关查验发现:监控系统密码为出厂默认,境外黑客开展“撞库”攻击成功登录

某园区摄像头时常自动旋转,国家安全机关查验发现:监控系统密码为出厂默认,境外黑客开展“撞库”攻击成功登录

扬子晚报
2026-03-28 07:40:48
李昌钰,制造冤狱的神探,戏演完了

李昌钰,制造冤狱的神探,戏演完了

不正确
2026-03-28 10:31:14
今天南北经济的失衡,达到了历史上最严重的时期。

今天南北经济的失衡,达到了历史上最严重的时期。

流苏晚晴
2026-03-28 13:37:46
刚刚,被全世界遗忘的马杜罗,等来了美国法庭的判决

刚刚,被全世界遗忘的马杜罗,等来了美国法庭的判决

沧海旅行家
2026-03-28 12:25:40
麻将、关系、性生活是县城的底色!

麻将、关系、性生活是县城的底色!

黯泉
2026-03-28 15:09:09
基尼系数为什么会高于大多数资本主义国家?

基尼系数为什么会高于大多数资本主义国家?

生命可以承受之轻
2026-03-28 15:55:49
广东一店主下单寄递10箱茅台酒总价超12万元,司机用一张模糊“卸货照”虚假“送达”后失联,平台:已与警方确认找到司机,货物已追回

广东一店主下单寄递10箱茅台酒总价超12万元,司机用一张模糊“卸货照”虚假“送达”后失联,平台:已与警方确认找到司机,货物已追回

大象新闻
2026-03-27 21:45:04
老登们别再玩命运动了!日本人不跑马拉松、少去健身房,却活成全球最长寿

老登们别再玩命运动了!日本人不跑马拉松、少去健身房,却活成全球最长寿

日本物语
2026-03-27 21:09:48
上海月租7000的“废土风”房火了!房东花了10万装修,网友:看着像一分没花!

上海月租7000的“废土风”房火了!房东花了10万装修,网友:看着像一分没花!

新民晚报
2026-03-26 15:10:34
暴跌95%,裁员5万人,全球第二大车企爆大雷

暴跌95%,裁员5万人,全球第二大车企爆大雷

蒋东文
2026-03-27 21:09:47
委内瑞拉,为什么从我们的视野里消失了

委内瑞拉,为什么从我们的视野里消失了

民间铁血柔情
2026-03-28 04:41:19
深圳电动自行车源头管控首月:拘留56人、关停门店20家

深圳电动自行车源头管控首月:拘留56人、关停门店20家

南方都市报
2026-03-28 13:52:21
伊朗打对了,把伊斯兰世界最大的叛徒揪出来了!

伊朗打对了,把伊斯兰世界最大的叛徒揪出来了!

达文西看世界
2026-03-28 10:23:28
罗永浩杨笠事件。

罗永浩杨笠事件。

贴小君
2026-03-28 13:34:08
《纽约时报》评价张雪峰,交警说从未见过这么多人送行

《纽约时报》评价张雪峰,交警说从未见过这么多人送行

职场火锅
2026-03-28 20:45:39
快讯!王思聪彻底告别!

快讯!王思聪彻底告别!

达文西看世界
2026-03-28 15:36:21
湖南省高院明确定性“错判”的刑案,长沙司法系统为何死扛到底?

湖南省高院明确定性“错判”的刑案,长沙司法系统为何死扛到底?

塔子山评说
2026-03-28 14:43:49
伊朗武装部队发言人:伊朗正在制定战争结束条件

伊朗武装部队发言人:伊朗正在制定战争结束条件

财联社
2026-03-28 04:50:19
被轰17-0崩盘!辽宁爆冷惨负广州 赵继伟7中1徐昕20+9统治内线

被轰17-0崩盘!辽宁爆冷惨负广州 赵继伟7中1徐昕20+9统治内线

醉卧浮生
2026-03-28 21:33:24
张雪峰的灵车细节让人泪奔,车尾挂着一棵竹子,上面系着他的衣服

张雪峰的灵车细节让人泪奔,车尾挂着一棵竹子,上面系着他的衣服

魔都姐姐杂谈
2026-03-28 18:18:48
2026-03-28 23:40:49
科技行者 incentive-icons
科技行者
科技正在如何变革商业世界
7785文章数 556关注度
往期回顾 全部

科技要闻

华为盘古大模型负责人王云鹤确认离职

头条要闻

美媒:和欧盟"外长"发生激烈交锋 鲁比奥"显然很恼火"

头条要闻

美媒:和欧盟"外长"发生激烈交锋 鲁比奥"显然很恼火"

体育要闻

“我是全家最差劲的运动员”

娱乐要闻

陈牧驰陈冰官宣得子 晒一家三口握拳照

财经要闻

卧底"科技与狠活"培训:化工调味剂泛滥

汽车要闻

置换补贴价4.28万起 第五代宏光MINIEV正式上市

态度原创

亲子
健康
本地
时尚
公开课

亲子要闻

我确实不敢啊孩子

干细胞抗衰4大误区,90%的人都中招

本地新闻

在潍坊待了三天,没遇到一个“潍坊人”

和田曦薇一样嫩嘟嘟,这3个变美技巧你一定不能错过!

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版