网易首页 > 网易号 > 正文 申请入驻

昨晚,谷歌发布「AI 超级全家桶」,但最大的创新却被 OpenAI 狙击了

0
分享至

作者 | 郑玥、芯芯
编辑 | 郑玄

不出预料,谷歌是被 OpenAI 狙击了。

一连串烟雾弹后,昨天 OpenAI 用一个可以看到、听到真实世界,并可以实时无延迟对话的 AI 智能助手「GPT-4o」震撼了世界。而把发布 4o 的时间点特别选在谷歌 I/O 大会开幕前一天,当时就有媒体预测,OpenAI 这是在狙击谷歌。

果不其然,美国当地时间 14 日上午 10 点举行的谷歌 I/O 大会主题演讲上,虽然谷歌发布了一系列基于 Gemini 的「AI 全家桶」——包括升级 200 万 tokens 上下文的 Gemini 1.5 Pro、新模型 Gemini 1.5 flash、类 Sora 的新视频大模型 Veo,以及包括 AI 搜索、AI + Gmail 在内的多个 AI 应用。

但最受关注的,还是谷歌 DeepMind 负责人兼谷歌 AI 领导者 Demis Hassabis 口中,真正通向 AGI 的万能助手项目——「Project Astra」。以及面向 Gemini Advanced 订阅者新推出的语音聊天功能 Live,后者预计还将在年内加入相机功能,让 AI 可以基于用户所处的真实环境展开对话。

这两个产品都有点像「GPT-4o」,但先不论三者的真实效果到底如何,从产品进展来看 OpenAI 已经领先一筹。不过这也不意味着 OpenAI 注定成为最后的赢家,目前来看手机依然是这些超级智能助手最重要的硬件载体,掌握安卓系统的谷歌有着天然的优势。从这个角度看,前段时间苹果与 OpenAI 的合作传闻,可能正是来源于二者对抗谷歌因而各取所需。

不论如何,具备「真实世界感知 Input」+「低延迟语音 Output」的超级智能助手,已经成为下一阶段 AI 公司军备竞赛的关键。接下来更多大模型公司、云计算平台,甚至手机公司、AI 应用开发者都会卷入其中。

01.Project Astra——实时视频问答,发誓没有造假

I/O 大会上,谷歌发了一段非常惊艳的 AI 助手演示视频,这次还了发誓,没有以任何方式伪造或篡改。

Project Astra 演示视频|视频来源: 谷歌

Demis Hassabis 说,Project Astra 是自己期待了几十年的 AI 助手的雏形,是 AI 助手的未来。

Project Astra 是一个实时、多模式的人工智能助手,通过接收信息、记住它所看到的内容、处理该信息和理解上下文细节来与周围的世界进行交互,它的语音交互比当前形式的 Google Assistant 更自然,没有延迟或延迟,可以回答问题或帮助你做几乎任何事情。

演示视频中,用户要求 Project Astra 在看到发出声音的东西时告诉她,助手回答说,它可以看到一个发出声音的扬声器。

交互是实时语音进行的,且并没有「嘿,Google、Gemini」等唤起词,用户问 Project Astra 视频中显示器上的代码有什么作用,Project Astra 没有一丝延迟地进行了解释。


Project Astra 记住了一闪而过的眼镜|图片来源:谷歌

Project Astra 关于视觉的处理甚至算整场发布会最大的亮点。「你记得我把眼睛放哪了吗?」「你的眼镜在桌子上的红苹果旁边。」Project Astra 甚至通过镜头记住了一闪而过的眼镜,并准确回答出在苹果旁。这里可能夹带了一点「私货」,这副眼镜上或许也有 Project Astra。

从演示看,Project Astra 可以很快处理收到的信息,可以通过连续编码视频帧并将视频和语音组合成事件时间线来做到这一点,然后缓存信息以供回忆。谷歌表示,其中一些功能将在今年晚些时候添加到 Gemini 应用程序和其他产品中。


Project Astra 给这个乐队起名为金色条纹|图片来源:谷歌

谷歌称 DeepMind 团队还在研究如何最好地将多模态模型整合在一起,以及如何平衡超大型通用模型与更小、更集中的模型。

昨天刚发布 GPT-4o 的 OpenAI 最重大的突破也在多模态上,看下来似乎昨日重现。最大的一个区别在视觉处理上,是目前 GPT-4o 只能处理静态图像,Astra 已经可以处理视频。

Project Astra 背后的 Gemini 系列大模型能力也有更新。上个月举办的 Google Cloud Next 2024 大会上发布,发布的 Gemini 1.5 Pro,具有原生音频理解、系统指令、JSON 模式等,可提供 100 万长文本能力,宣布已经向全球开发者开放。

这次宣布推出的 Gemini 1.5 Flash 模型,解决了关键的成本问题。Gemini 1.5 Flash 介于 Gemini 1.5 Pro 和 Gemini 1.5 Nano 之间,主要面向开发者。会上详细介绍了 Gemini 1.5 Pro 和 Flash 的定价。Gemini 1.5 Flash 的价格定为每 100 万个 token 35 美分,这比 GPT-4o 的每 100 万个 token 5 美元的价格要便宜得多。


Gemini 1.5 Flash|图片来源:极客公园

谷歌还预告了接下来的动作,宣布今年晚些时候将模型的现有上下文窗口增加一倍,达到 200 万个 token。这将使其能够同时处理 2 小时的视频、22 小时的音频、超过 60,000 行代码或超过 140 万个单词。


Gemini 1.5 Pro |图片来源:极客公园

谷歌去年 12 月发布的一个预录演示遭到「造假」质疑,通过剪辑误导人们高估 Gemini 的视频处理能力,不过现在,这些能力都是真的了。

02. 基于大模型的 AI 应用生态方面的进展

在这次 I/O 大会上,谷歌基于大模型的 AI 应用生态也有所升级,涵盖搜索、照片、创作、工具以及工作应用等方方面面。

搜索是谷歌 25 年前的创世产品。在一年前,谷歌表示,搜索的未来是 AI。现在,谷歌搜索中的 AI 真的来了,主打一个——「让谷歌帮你谷歌。」

谷歌首席执行官桑达尔·皮查伊(Sundar Pichai)在 I/O 大会上宣布,人工智能生成的搜索摘要,现在被称为「人工智能概述」,将在「本周」向美国的所有人推出,更多国家/地区即将推出。

相比从前,AI 搜索可以处理更复杂的问题。谷歌提供了一个例子,也许用户在寻找一个新的瑜伽工作室,要求这个工作室既要在当地很受欢迎,也要方便通勤,还要有折扣,只需一次搜索就能实现。

另外,用户还可以调整已经生成的 AI 摘要,或者选择简化版本,或者选择查看更多细节。

这一切是谷歌通过定制的 Gemini 模型来实现的,其将多步推理、规划和多模态与搜索系统结合,总结网络内容并展示答案,据称还是 AI 来设计和填充结果页面。

但一个问题是,如果是 AI 为用户捕获搜索结果,谷歌的竞价广告业务往哪放?

据谷歌高管称,与传统查询出的网页列表相比,AI 摘要中包含的链接会获得更多点击。「与以往一样,广告将继续出现在页面的专用位置上,并通过清晰的标签区分有机结果和赞助结果。」

除了提问,谷歌 AI 搜索还能制定计划,从饮食到旅行计划,比如搜索「创建一个容易准备的团体 3 天饮食计划」,AI 就会定制计划,然后用户可以将某份晚餐调整成素食,随后导出到文档或者谷歌邮箱里。

搜索还不仅仅是文本框中的文字,谷歌的视觉搜索也进化了,可以用视频提问。比如,用户有台二手唱片机,上面带针的金属部件漂移了,不知道怎么回事,可以直接用视频搜索,即能得到有解决步骤的 AI 摘要和相关链接,省去描述问题所需要的正确术语的时间和麻烦。


使用谷歌 AI 搜索,直接制定饮食计划 |图片来源:谷歌

谷歌照片应用也将进化。桑达尔·皮查伊在演示中称,9 年前他们推出了这个应用,现在每天有超过 60 亿张照片和视频被上传到这里。

该应用在未来几个月将推出「询问照片(Ask Photos)」功能,也是基于 Gemini 模型,可以让用户以自然语言搜索照片和视频中的人物、宠物、地点等,它能理解照片的上下文和主题,找到特定的回忆信息,无需滑动屏幕。

例如,「向我展示我参观过的每个国家公园的最好看的照片」「去年我在哪里露营?」「我的优惠券什么时候到期?」「露西娅什么时候学会游泳的?」「显示露西娅的游泳进步情况」「莉娜的生日派对是什么主题?」最后,它还能撰写旅行亮点或者个性化的标题,供用户在社交媒体上分享。

谷歌还称,「除非在极少数情况下是为了解决虐待或伤害问题,我们不会使用这些个人数据训练 Google Photos 之外的任何生成式 AI 产品,包括其他 Gemini 模型和产品。」


使用询问照片功能,询问生日派对细节|图片来源:谷歌

在创作工具方面,谷歌在 I/O 大会上还推出了 AI 生成视频的工具 VideoFX,并更新了 AI 图像和 AI 音乐创作工具 ImageFX 和 MusicFX。

VideoFX 可以让电影制作人编写提示来构建电影镜头,ImageFX 添加了图像编辑控件,而 MusicFX 出了一个新的 DJ 模式。

其中,新工具 VideoFX 由 Veo 提供动力,Veo 是谷歌 DeepMind 最强的生成式视频模型。这个新工具配备了一个故事板模式,可以逐个场景地进行迭代,并向最终视频添加音乐。

据谷歌高管称,Veo 能理解「延时拍摄」等电影术语,可以生成各种电影和视觉风格的 1080p 分辨率视频,时间还可以超过一分钟。Veo 将通过候补名单提供预览版。

另外值得注意的是,VideoFX、ImageFX 和 MusicFX 生成的所有内容都被数字水印 SynthID 标记,主要是为了防止 AI 内容滥用和虚假信息传播问题。


使用谷歌 AI 生成视频工具 VideoFX |图片来源:谷歌

除了创作工具,谷歌日常工作应用的进化也值得关注。包括 Gmail 邮箱、日历、文档、表格、幻灯片、云端硬盘等在内谷歌 Workspace 应用,将引入最新的 AI 模型 Gemini 1.5 Pro,位于侧边栏,作为一个虚拟助手。

当用户点击侧边栏的 Gemini 图标时,Gmail 中的 Gemini 将提供「总结此电子邮件」「列出下一步操作」「建议回复」等选项。用户可以让它总结小孩学校的邮件,获得需要行动的信息,起草回复。


Gmail 侧面板中的 Gemini 总结电子邮件 |图片来源:谷歌

另外,在昨天 OpenAI 发布的 GPT-4o 演示中,其中有个教育场景,GPT-4o 直接化身家教,逐步教一个青少年解决几何数学问题。

谷歌也宣布推出 LearnLM,这是一组基于 Gemini 的微调模型,专为学习教育而设计,同时演示了一些在搜索、YouTube 应用上的 AI 教育学习场景。

比如,在 YouTube 上,用户可以在观看视频时提问,也可以针对视频提后续问题。在 Android 上,可以用画圈搜索(Circle to Search)尝试解决数学和物理题目里的特定困难。


针对 YouTube 学习视频进行提问 |图片来源:谷歌

在这场 AI 公司的军备竞赛中,谷歌追赶 OpenAI 的其中一大优势「老本」,在于其掌握手机安卓系统,以及庞大的应用生态。

但当生成式 AI 真的全方位进入谷歌的生态应用,直接接管搜索,帮人回忆过去,制定出行计划,取代真人家教等等,其准确性是否真的可靠?我们拭目以待。

*头图来源:Figure

本文为极客公园原创文章,转载请联系极客君微信 geekparkGO



特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
“是多大的官?怎么这么大官威啊?”女教授节目中直批当地政府工作人员!她称“没有彩排”

“是多大的官?怎么这么大官威啊?”女教授节目中直批当地政府工作人员!她称“没有彩排”

每日经济新闻
2024-08-31 23:58:07
马翔宇从体制内辞职后会给政府的形象带来非常大的负面影响

马翔宇从体制内辞职后会给政府的形象带来非常大的负面影响

笑熬浆糊111
2024-09-01 06:15:50
美网16强再迎两位中国姑娘!30岁的王雅繁排名火箭提升的背后有何奥秘

美网16强再迎两位中国姑娘!30岁的王雅繁排名火箭提升的背后有何奥秘

上观新闻
2024-08-31 13:11:09
北京信息科技大学4700余新生报到,64人“闯关”走进新学院

北京信息科技大学4700余新生报到,64人“闯关”走进新学院

新京报
2024-08-30 18:24:09
注意!你的手机可能正被监听

注意!你的手机可能正被监听

看看新闻Knews
2024-08-31 16:18:27
与郑钦文会师决赛!美网再出中国新面孔,直落三盘晋级16强

与郑钦文会师决赛!美网再出中国新面孔,直落三盘晋级16强

十点体坛
2024-08-31 20:13:55
李佩霞被留置后首次发声信息量很大,受贿金额或在二十万以下

李佩霞被留置后首次发声信息量很大,受贿金额或在二十万以下

姜大叔侃球
2024-08-31 05:44:14
被批“不男不女”的毕凌,把父亲毕福剑自以为豪的体面,撕得稀碎

被批“不男不女”的毕凌,把父亲毕福剑自以为豪的体面,撕得稀碎

谈娱新语
2024-08-31 22:07:54
善恶终有报!63岁在美国捡垃圾的吕丽萍,已经活成了一个“笑话”

善恶终有报!63岁在美国捡垃圾的吕丽萍,已经活成了一个“笑话”

华人星光
2024-08-30 16:53:59
蒙古国,风萧萧兮,普京此行会否落泪?

蒙古国,风萧萧兮,普京此行会否落泪?

新民周刊
2024-09-01 09:06:55
令人气愤!网传潘展乐赴港期间依旧每天要尿检,感冒甚至不能吃药

令人气愤!网传潘展乐赴港期间依旧每天要尿检,感冒甚至不能吃药

老雷的体育频道
2024-08-31 22:37:59
79岁老汉捉0.8公斤螺蛳被判刑,主办法官:零容忍

79岁老汉捉0.8公斤螺蛳被判刑,主办法官:零容忍

渔夫姜尚
2024-08-31 10:41:53
7:0,巴萨打出惨案!巴西尖刀造5球,亚马尔双响,莱万比肩梅西

7:0,巴萨打出惨案!巴西尖刀造5球,亚马尔双响,莱万比肩梅西

阿超他的体育圈
2024-09-01 00:57:14
250名哈马斯全部战死,以军冲进地下室:发现大批中方前卫18导弹

250名哈马斯全部战死,以军冲进地下室:发现大批中方前卫18导弹

林林爱天堂
2024-08-31 16:56:44
不出意外,未来最有可能接班周继红的,仅此4人!

不出意外,未来最有可能接班周继红的,仅此4人!

田先生篮球
2024-09-01 05:53:13
中东媒体:美国把顶级科学家逼到中国

中东媒体:美国把顶级科学家逼到中国

微能量
2024-08-31 14:31:59
告诉大家一个坏消息:上海深圳已出现3大怪象,值得每个人深思

告诉大家一个坏消息:上海深圳已出现3大怪象,值得每个人深思

风起云间
2024-08-31 22:50:19
53岁男子刺伤4户人家6个人,致5人身亡!被悬赏5万,老乡曝原因

53岁男子刺伤4户人家6个人,致5人身亡!被悬赏5万,老乡曝原因

林大师热点
2024-09-01 08:05:55
李阳:黑神话悟空爆火是民族悲哀,所有开发游戏的都应判刑

李阳:黑神话悟空爆火是民族悲哀,所有开发游戏的都应判刑

映射生活的身影
2024-08-31 10:38:21
被女司机打伤的退伍军人如果还手是什么后果?网友分享:同样的经历,我还手后被判刑9个月

被女司机打伤的退伍军人如果还手是什么后果?网友分享:同样的经历,我还手后被判刑9个月

小萝卜丝
2024-08-31 13:10:11
2024-09-01 11:22:44
极客公园
极客公园
让最棒的创新成为头条
10296文章数 78426关注度
往期回顾 全部

科技要闻

估值150亿,中国GPU独角兽一夜之间解散

头条要闻

美术系主任涉嫌抄袭画作 给中国美协写了一封道歉信

头条要闻

美术系主任涉嫌抄袭画作 给中国美协写了一封道歉信

体育要闻

欧冠36队中,有个快乐的“倒数第一”

娱乐要闻

这个瓜牵扯的太多……

财经要闻

国有六大行上半年合计日赚37.54亿元

汽车要闻

第三季度后上市 方程豹豹8亮相成都车展

态度原创

数码
亲子
房产
艺术
公开课

数码要闻

联想拯救者《黑神话:悟空》联名主机开售,首发 15999 元

亲子要闻

上海儿童医院患儿意外死亡

房产要闻

恭喜业主!广州最大烂尾楼有救了!

艺术要闻

故宫珍藏的墨迹《十七帖》,比拓本更精良,这才是地道的魏晋写法

公开课

曾激光治近视的人,现在后悔吗?

无障碍浏览 进入关怀版