网易首页 > 网易号 > 正文 申请入驻

谷歌深夜放送:比肩GPT-4o的多模态助手、AI概述搜索结果、新视频生成模型Veo……

0
分享至


作者 | 卷毛‍‍‍‍

编辑 | 张洁‍‍

面对OpenAI的贴脸开大,谷歌选择原地回击。

今天凌晨1点(北京时间),谷歌在2024年I/O大会上放出大招——

更强的多模态Agent助手Astra,能实时理解镜头内外的世界。

多模态长文本是本次发布的关键词,谷歌CEO桑达尔·皮查伊表示,多模态和长文本相结合,扩展了我们可以提出的问题类型,也扩展了我们可以得到的答案类型。


Gemini系列模型卷起了长文本,1.5 Pro的上下文窗口将扩展到200万个token;新发布的Flash是轻量级模型,定价每100万个token35美分,远低于GPT-4o 5美元的价格。

搭载了Gemini的谷歌家族产品也华丽升级:谷歌搜索支持输入视频提问,还将上线“AI概述”的结果页面;安卓系统手机内置AI助手,图上画个圈就能全局搜索。


AIGC方面,更逼真的图像生成模型Imagen 3发布;全新的视频生成模型Veo剑指Sora,可生成时长超60秒的高清视频……

皮查伊称目前有20亿用户在使用Gemini,Gemini时代刚刚拉开帷幕,谷歌希望最终让AI造福每个人。

“头号AI玩家”全程围观了直播,以下是我们梳理的本次主旨演讲的要点。



多模态Agent来了,Gemini精准打击GPT-4o

众所期待的Agent(AI智能代理)终于来了。

谷歌在I/O大会上分享了新项目Project Astra,一个不亚于GPT-4o的AI智能助手,可以像人一样了解周遭的复杂世界,在日常生活中提供实时帮助。


比如在办公室里开着摄像头转一圈,AI能识别出画面中的物品,解释正在写的代码,判断所在的地理位置。

演示视频中,官方还展示了如何将Astra与AR眼镜相结合,这也成为其中一个亮点。戴上眼镜后,Astra的回答会实时显示在眼前,比如帮助修改白板上的流程图时,会用箭头指出修改位置。


不过,与昨天OpenAI推出的GPT-4o相比,后者在演示中展现了更多令人惊喜的情感丰沛的互动,虽然也有即刻网友评论,“感觉OpenAI想为每个人打造自己的专属舔狗”。

此前谷歌刚发布Gemini时,其多模态交互演示视频还需要经过剪辑,如今发布的Astra视频特意强调了是“一次性实时拍摄的”

Agent是一种智能系统,可以了解多模态信息,提前规划多个步骤,并代表用户采取行动。从演示来看,Astra延迟低、反应快、互动自然,仿佛就是身边的一个专家助理。

此外,谷歌还公布了Gemini系列模型的最新进展。

Gemini 1.5 Pro的上下文窗口将扩展到200万个token,可以处理数百页文档,并向开发人员提供私人预览版。


面向全球开发者开放的Gemini Advanced则提供长达100万token的上下文窗口,支持超过35种语言。

Gemini Advanced将在几周内上线新的数据分析功能,晚些时候还会增加旅行计划功能,通过高级推理创建个性化的行程。


Gemini 1.5 Flash是新推出的轻量级模型,针对低延迟和低成本任务进行了优化,可以更高效率地部署。开发人员即日起可在Google AI Studio和Vertex AI中使用,上下文窗口可达100万token。


Gemini的Gems功能将在今年夏天推出,类似于GPTs,可通过Prompt设置为不同专长的AI助理。


同时,作为原生的多模态模型,Gemini的语音和视频能力迎来升级,即将上线的“Live”功能,其逼真程度可以说是对标GPT-4o。

你能与Gemini进行更深入的双向对话,回答中可以随时打断,打开摄像头,Gemini就能看见和理解周遭发生的一切。看来AI头号玩家们的理想AI助手都有电影《Her》的影子。




新增图像视频搜索,AI一键联网总结

随着ChatGPT、Copilot等AI产品席卷全球,用户获取信息的方式正悄然改变,本次谷歌的当家产品“谷歌搜索”率先迎来了重大升级,集成了最新的智能代理助手。

在搜索时,你可以通过视频提问,比如录一段视频问道:“为什么这个放不上去?”


Gemini能理解问题是视频中的唱片为什么不能固定在唱片机上,并迅速搜索文章、论坛、视频等全网信息,给出解决办法。

相比传统的搜索结果罗列,如今有了Gemini加持的谷歌搜索还将上线全新的搜索结果整合功能“AI概述”(AI Overviews)

比如在现场演示中,当我们想要在波士顿找到最好的瑜伽或普拉提工作室,并在结果中显示它们的入会优惠信息,以及与住址的距离。


Gemini一次搜索就能获得所有信息,并组织呈现出有条理的搜索结果页面。

据介绍,谷歌搜索升级后支持多步骤推理功能,可以将大问题分解为若干部分,并找出要解决的问题以及解决的顺序,因此原本可能需要花费数分钟甚至数小时才能得出的结果,现在可以在几秒钟内完成。

“AI搜索概述”功能将在美国率先推出,未来将覆盖10亿用户。

此外,在手机端,谷歌相册(Google Photos)即将推出的一项新功能“Ask Photos”

在图片上画个圈,就能搜索指定的对象,比如搜索带有车牌号的照片,或者问问“最近女儿游泳学得怎么样”,Gemini能理解复杂的语境,轻松找到对应的照片和视频。




AIGC模型上新,Veo可生成超60秒高清视频

在图像、音乐、视频领域,谷歌都分别都发布了新的模型或产品。

图像生成

谷歌推出了迄今为止最高质量的文本到图像生成模型Imagen 3,生成的图像细节更丰富、更真实,而且能理解复杂文本提示。


Imagen 3生成

音乐生成

谷歌和YouTube共同打造了Music AI Sandbox,这是一套专业的AI音乐创作工具,可以帮助创作者从0开始快速创作。


视频生成

谷歌发布了最新的视频生成模型Veo,只需一个文本、图片或视频提示,即可创建超过60秒的高质量1080p片段,支持多种电影风格,包括写实主义、超现实主义、动画等。或许未来每个人都会成为导演。


以上这些AIGC模型,目前都可以在labs.google上申请试用。



谷歌全家桶AI升级,安卓手机抢先搭载AI助手

不出所料,升级后的Gemini 1.5 Pro将集成在更多的谷歌全家桶产品中,包括邮件、会议、文档等软件,以及手机等硬件设备。


比如Gmail中的Gemini能一键总结邮件内容,自己不用去多个邮件、附件中查阅,Gemini会根据语境分析,还会给出回复建议。


向Excel中的Gemini提问,不用再费力编写公式,AI会自动进行数据分析,以图表形式给出计算结果。


对于以AI为核心的手机,谷歌提到了三个关键应用:AI驱动搜索(上文提到的图片画圈搜索),系统自带的AI助手(目前安卓系统可用),AI保护隐私和安全(提示诈骗风险)。

谷歌表示,今年晚些将拓展Gemini Nano的多模态功能,新增视觉、声音、口语输入,这意味着AI手机可以帮助更多视力障碍群体等用户更好地交流和生活。

皮查伊近日在接受《The Circuit With Emily Chang》专访时提到,在技术领域,如果你不持续创新以保持领先,那么任何公司都将不可避免地走向衰败。

自2016年起,人工智能便一直是谷歌公司的核心焦点,谷歌的研究人员发明了Transformer,也就是GPT中的T。那时,OpenAI开发的ChatGPT尚处于起步阶段。

而到了如今的生成式AI时代,谷歌却屡次被OpenAI抢了风头,同时还面临着微软等竞争对手的严峻挑战。

从今年I/O大会主旨演讲发布了这么多新模型和产品升级来看,谷歌仍在坚持AI First的战略方向,无论是搜索还是AIGC应用等,AI的前沿高地必有谷歌的位置。

更多关于本次谷歌I/O大会的内容可前往官网查阅:https://io.google/2024/intl/zh/

「头号AI玩家交流群」进群方式:添加微信“banggebangmei”并备注姓名+职业/公司+进群,欢迎玩家们来群里交流,一起探索见证AI的进化。

欢迎分享、点赞、在看

一起研究AI

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
谭咏麟病愈后首次公开现身,瘦到青筋毕现感慨声线不好

谭咏麟病愈后首次公开现身,瘦到青筋毕现感慨声线不好

小萝卜天下事
2023-07-21 21:57:53
关键战朱婷登场难救主,中国女排1比3不敌冲奥对手日本队

关键战朱婷登场难救主,中国女排1比3不敌冲奥对手日本队

澎湃新闻
2024-05-31 21:24:39
怒扇小孩耳光后续:13000和解,关系曝光,网友怒了,商家被关门

怒扇小孩耳光后续:13000和解,关系曝光,网友怒了,商家被关门

鬼谷子思维
2024-05-31 15:56:45
两军关系、涉台、涉菲等重要议题外,中美防长会谈还涉及哪些“其他”问题?

两军关系、涉台、涉菲等重要议题外,中美防长会谈还涉及哪些“其他”问题?

政知新媒体
2024-05-31 20:40:13
中国女排为何1-3溃败?前队长惠若琪一针见血,点名1人,球迷怒批

中国女排为何1-3溃败?前队长惠若琪一针见血,点名1人,球迷怒批

二哥聊球
2024-06-01 00:24:44
荷兰慌了!中方发出警告:要么5000亿回购,要么专利权别想要了

荷兰慌了!中方发出警告:要么5000亿回购,要么专利权别想要了

家常的味道呀
2024-06-01 02:51:05
为什么老百姓的戾气越来越重?

为什么老百姓的戾气越来越重?

顾礼先生
2024-05-31 16:34:30
吃瓜!坐头等舱的“小学校”教授,身份被扒:曾被学生举报嫖娼+诱奸

吃瓜!坐头等舱的“小学校”教授,身份被扒:曾被学生举报嫖娼+诱奸

可达鸭面面观
2024-05-31 17:09:01
日本队高兴早了,中国女排输球事出有因,蔡斌收获三个好消息

日本队高兴早了,中国女排输球事出有因,蔡斌收获三个好消息

极度说球
2024-05-31 22:55:27
2比0!郑钦文完胜,4破发连下7局轻松横扫,赛后却独赞大坂直美

2比0!郑钦文完胜,4破发连下7局轻松横扫,赛后却独赞大坂直美

曹老师评球
2024-05-31 13:37:10
苟仲文离谱操作:架空刘国梁遭罢赛、缔造恒大国家队、逼走蔡振华

苟仲文离谱操作:架空刘国梁遭罢赛、缔造恒大国家队、逼走蔡振华

十点街球体育
2024-05-31 18:32:17
伊朗60多名前外交官集体发声,要求与中俄保持距离,不要敌视西方

伊朗60多名前外交官集体发声,要求与中俄保持距离,不要敌视西方

最爱小米辣呀
2024-05-31 13:49:46
确认!武大女选调生已离职,整个学校被牵连,野妇论导师也逃不了

确认!武大女选调生已离职,整个学校被牵连,野妇论导师也逃不了

影孖看世界
2024-05-30 21:03:00
精致的脸庞、漂亮的可爱

精致的脸庞、漂亮的可爱

娱乐八卦木木子
2024-05-10 17:37:22
点球大战无缘夺冠,C罗伤心倒地掩面,泪洒赛场离开

点球大战无缘夺冠,C罗伤心倒地掩面,泪洒赛场离开

直播吧
2024-06-01 05:22:54
许家印“手段特别恶劣,情节特别严重”,无法与夏海钧取得联系!恒大地产41.75亿元罚单全文公布:2年虚增收入超5600亿

许家印“手段特别恶劣,情节特别严重”,无法与夏海钧取得联系!恒大地产41.75亿元罚单全文公布:2年虚增收入超5600亿

每日经济新闻
2024-05-31 17:20:13
1179万大学生即将“涌向”社会,外卖、滴滴、快递员要更卷了!

1179万大学生即将“涌向”社会,外卖、滴滴、快递员要更卷了!

鬼谷子思维
2024-05-30 16:35:00
TA:因追梦的嘲讽 森林狼G4后为支持戈贝尔和唐斯拒绝上TNT节目

TA:因追梦的嘲讽 森林狼G4后为支持戈贝尔和唐斯拒绝上TNT节目

直播吧
2024-06-01 04:37:03
炎亚纶偷拍案判决出炉,获刑七月缓刑三年,公众反应不一

炎亚纶偷拍案判决出炉,获刑七月缓刑三年,公众反应不一

明星爆料客
2024-05-30 12:57:03
说实话,我确实不大理解,今天看到相关新闻时很震惊。

说实话,我确实不大理解,今天看到相关新闻时很震惊。

火山杂谈
2024-05-31 23:29:47
2024-06-01 08:24:49
头号AI玩家
头号AI玩家
做内容从业者关心的AI研究
27文章数 6关注度
往期回顾 全部

科技要闻

业务不卖了,字节跳动重新做游戏

头条要闻

媒体:中美防长"香会"见面 两个关键细节最值得说

头条要闻

媒体:中美防长"香会"见面 两个关键细节最值得说

体育要闻

欧文:当老二怎么了?硬就行了!

娱乐要闻

白玉兰提名:胡歌、范伟争视帝

财经要闻

证监会:对恒大地产罚款41.75亿

汽车要闻

外观内饰升级/六项权益 全新哈弗H6开启预售

态度原创

旅游
教育
健康
房产
本地

旅游要闻

美国华盛顿年内将迎来大熊猫“宝力”和“青宝”

教育要闻

姥姥,这道题选什么呀?我怎么看不出来呢

晚餐不吃or吃七分饱,哪种更减肥?

房产要闻

重磅!琼海出台楼市新政:住房出租、挂牌计划出售,都可减套数!

本地新闻

食味印象|歙县限定!枇杷味儿的清甜初夏

无障碍浏览 进入关怀版