网易首页 > 网易号 > 正文 申请入驻

谷歌年度大招:所有AI模型全升级一遍!Gemini2.5大中杯霸榜前二

0
分享至

梦晨 西风 发自 凹非寺
量子位 | 公众号 QbitAI

原生多模态输入输出、智能体、联网搜索……所有前沿AI能力集成在一起会怎么样?

谷歌最新版Project Astra展示了终极AI助手的能力:

视频链接:https://mp.weixin.qq.com/s/Z2WkvmnYIVlmd43S2r35FA

实时观察周围环境,搜索资料指导小哥修自行车,零件不够还能自动电话询问周边商店有没有货。

在最新的I/O大会上,谷歌连续放大招,就好像大招不要钱。

  • 现有AI模型全部更新一遍
  • 原有的产品用AI重做一遍
  • 实验性新产品也推出了一箩筐

Gemini 2.5 Pro和Gemini 2.5 Flash的预览版已霸榜竞技场前两名。

视频生成模型Veo 3,实现视频与音频的原生集成,除音乐和音效,甚至是角色间的对话语音都能生成,画面上还能同步口型。

视频链接:https://mp.weixin.qq.com/s/Z2WkvmnYIVlmd43S2r35FA

图像生成模型Imagen 4,图像更加丰富,色彩更加细腻,细节更加逼真。

传统产品方面,谷歌搜索增加端到端AI搜索模式,整合推理和多模态分析能力,将问题分解为子问题,并同时发出多个查询,更深入地探索网络。

视频链接:https://mp.weixin.qq.com/s/Z2WkvmnYIVlmd43S2r35FA

视频会议Google Meet,支持实时的双语翻译配音,并保留对话双方的音色,首批英语-西班牙语支持已上线,后续将添加更多语言。

视频链接:https://mp.weixin.qq.com/s/Z2WkvmnYIVlmd43S2r35FA

Chrome浏览器,直接集成Gemini模型,可快速总结内容,或根据当前网页上下文完成任务,无需切换标签页。

新产品方面,原裸眼3D视频通话Project Starline,升级为AI驱动的3D视频通信平台Google Beam

使用一系列摄像头从不同角度捕捉画面。然后借助AI将视频流合并,在3D光场显示屏上呈现画面——头部追踪精度可达毫米,帧率高达每秒60帧。

AI视频模型与光场显示技术的结合创造了维度感和深度感,使用户能够进行眼神交流,观察微妙的表情,建立理解和信任,就像面对面一样。

此外还有异步AI代码助手Jules,它在后台运行时人类用户可以专注于其他任务。

AI电影制作工具Flow,集成多款多模态模型,让创意变成故事。

与墨镜品牌Gentle Monster和Warby Parker合作打造的AI眼镜,配备摄像头、麦克风和扬声器,可与手机协同工作,无需把手机从兜里掏出来就能访问APP。

Gemini模型加持下,AI眼镜能够看到和听到你的一举一动,从而了解你的处境,记住重要事项,并全天提供帮助。

各部分详情下面一一来看。

Gemini 2.5系列模型全新升级

Gemini 2.5系列,2.5 Pro、Flash均进行了一波升级。

首先来看Gemini 2.5 Pro,除了在学术基准测试中表现出色外,现在还以1415的ELO分数领先于热门编码排行榜WebDev Arena,比上一个版本提升142分:

同时霸榜于评估人类偏好各个维度的LMArena:

据介绍,凭借其百万token上下文窗口,2.5 Pro具有更强的长上下文和视频理解性能。

2.5 Pro还整合了谷歌与教育专家合作开发的LearnLM模型系列,在评估其教学法和有效性的直接对比中,教育工作者和专家在各种场景中更青睐2.5 Pro。

更值得一提的是,2.5 Pro全新引入了Deep Think增强推理模式。据介绍,该模式使用新的技术,允许模型在回应前同时考虑多种假设。

效果如何?

2.5 Pro在2025年USAMO这种超难数学基准测试上得分惊艳,在编程比赛级别的LiveCodeBench上也有优势,在测试多模态推理的MMMU基准中获得84.0%的分数。

不过,谷歌表示Deep Think需要更多时间进行前沿安全评估,目前仅将通过Gemini API向可信测试人员开放该功能。

2.5 Flash也进行了升级,在推理、多模态、代码和长上下文等关键基准测试中均有改进,同时效率更高,在谷歌的评估中使用token减少了20-30%。

全新2.5 Flash现在已在Google AI Studio、Vertex AI和Gemini app中提供preview。

不仅如此,Gemini 2.5系列还引入了不少新功能。

1、原生音频输出功能&Live API改进

Live API 推出了视听输入和原生音频对话的preview版本,用户可以直接构建更自然、更具表现力的Gemini对话体验。

模型可根据用户要求调整语调、口音和说话风格,感情变化听得见。

谷歌还为2.5 Pro和2.5 Flash推出了文本转语音(TTS)的新功能。首次支持多扬声器,通过原生音频输出实现双语音合成,即模拟两个不同的声音角色同时或交替发声,支持24种不同语言。

该文本转语音功能现已在Gemini API中可用。

2、电脑操作能力

谷歌正将Project Mariner的电脑操作能力引入Gemini API和Vertex AI。

支持多任务处理,最多可同时执行10个任务,并且新增 “Learn and Repeat” 功能,让AI学会自动完成重复性任务。

视频链接:https://mp.weixin.qq.com/s/Z2WkvmnYIVlmd43S2r35FA

3、为提升开发者体验,Gemini 2.5增加三大实用功能:

  • thought summaries,会将模型的原始思考过程整理成带标题、关键细节和模型操作信息(如工具调用)的清晰格式,帮助开发者更透明地了解模型思考过程。
  • thinking budgets,让开发者可以控制模型使用多少token进行思考;
  • Gemini SDK兼容MCP工具,实现与开源工具的更轻松集成。

关于谷歌Gemini的下一步,谷歌DeepMind CEO哈萨比斯表示,他们正努力将其最优秀Gemini模型扩展为一个 “世界模型”,使其能像人类大脑一样通过理解和模拟世界来制定计划、想象新体验。

异步代码助手Jules

异步代码助手Jules正式进入公测阶段,全球开发者无需等待就能体验。

Jules会把你的代码库克隆到安全的谷歌云虚拟机中,全面理解项目上下文,可以写测试、构建新功能、提供音频更新日志、修复bug,以及更新依赖版本。

它以异步方式工作,让你可以专注于其他任务,完成后会展示其计划、推理过程和更改内容。私有库中的工作默认保持私密,Jules不会用你的私有代码进行训练。

得益于Gemini 2.5 Pro的支持,Jules拥有目前最先进的编码推理能力。结合云VM系统,它能处理复杂的多文件变更和并发任务。

公测期间完全免费,但有使用限制,平台成熟后预计将引入付费方案。

视频链接:https://mp.weixin.qq.com/s/Z2WkvmnYIVlmd43S2r35FA

谷歌搜索引入AI Mode

搜索方面,这次I/O大会宣布将AI Mode正式引入搜索引擎,面向美国用户全面开放。

AI Mode是以Gemini 2.5为核心重构的搜索引擎,集成了Gemini最前沿的能力,提供端到端的AI搜索

它采用query fan-out技术,自动将问题分解为多个子话题并同时搜索,从而比传统搜索更深入、更全面地挖掘网络信息。

谷歌预告了AI Mode未来的一系列功能,比如:

Deep Search深度搜索模式,能自动发起上百次搜索,跨领域整合信息并生成引用详尽的专家级报告,节省大量人工研究时间。

Search Live实时互动搜索,用户只需在AI Mode下轻触“Live”图标,对着手机摄像头提问,AI就能看懂画面内容并给出实时的语音解答和相关资源链接。

还有Agent能力,用户想买音乐会门票,只需说一句话,AI Mode就会跨平台搜罗各大网站的票务信息,锁定最优选项,填好订单信息。用户只需确认符合需求的选项,即可在偏好的网站完成购买。

谷歌还重点展示了AI Mode所带来的全新购物体验。

新购物体验将Gemini的智能与Shopping Graph结合,集成了500亿+优质商品信息,可帮助用户浏览、梳理需求并筛选商品。

当用户决定购买时,全新的智能结账功能会按照符合预算的价格轻松完成交易。

只需在任意商品页面点击“跟踪价格”,设置尺寸、颜色和预算金额等,当价格下跌时,用户会收到通知,确认购买细节后点击“代我购买”,系统就会自动将商品加入购物车,并通过Google Pay安全完成结账。

另外在购买衣服时,它还提供虚拟试穿工具,支持使用用户自拍照。只需上传一张自拍照,就能在海量服饰中随意试穿,AI模型能精准还原不同材质的垂坠和褶皱。

多模态模型全线升级

在多模态方面,谷歌还重磅推出了最新视频生成模型Veo 3、图像生成模型Imagen 4。

Veo 3首次实现原生音画同步生成,无论是城市街道的车流声、公园中的鸟鸣,甚至是角色对话,均可通过文本提示生成。

用户只需用提示讲述一个短故事,模型就能生成栩栩如生的视频片段。

从文本/图像提示到现实世界物理效果的模拟和精准的口型同步,Veo 3在各维度均表现出众。

Veo 3已向美国Ultra订阅用户开放,企业用户也可在Vertex AI平台调用。

视频链接:https://mp.weixin.qq.com/s/Z2WkvmnYIVlmd43S2r35FA

在推出新模型的同时,Veo 2也增添了多项新功能,包括参考驱动视频生成、相机控制、画面扩展以及对象添加和移除功能。这些功能已在Flow中提供,未来几周内将在Vertex AI API中推出,并在未来几个月内集成到更多产品中。

谷歌最新图像生成模型Imagen 4则兼具速度与精度,速度比上一代快10倍,生成的图像在精细细节上表现惊人,从复杂织物、水滴到动物皮毛均清晰逼真,同时擅长写实与抽象风格。

Imagen 4支持多种纵横比与最高2K分辨率,文字拼写与排版能力显著提升,轻松创作贺卡、海报、漫画。

目前Imagen 4已在Gemini app、Whisk、Vertex AI等上线。

除此之外,谷歌还介绍了新一代AI电影制作工具Flow,它专为创意人士设计,集成了谷歌最强的视觉模型(Veo、Imagen和Gemini)。

Flow具备卓越的提示遵循能力,可输出震撼的电影级画面。背后Gemini模型让提示输入直观易用,用户可通过日常语言描述创意愿景,支持导入自有素材创建角色,或利用Imagen的文生图功能在Flow中生成故事要素。

一旦创建了角色或场景,即可以在不同片段与场景中连贯复用这些要素,也可以用单一场景图像启动新镜头。

视频链接:https://mp.weixin.qq.com/s/Z2WkvmnYIVlmd43S2r35FA

即日起,美国Google AI Pro与Ultra订阅用户可率先使用Flow。

One More Thing

在大会现场,CEO Sundar Pichai还透露了这样一个数据。

去年4月,谷歌产品和模型API合计每月处理9.7T的tokens。

一年时间过去,这个数据增长到50倍,每月处理480T+ tokens。

  • 世界采用人工智能的速度比以往任何时候都快。

视频回放:https://www.youtube.com/watch?v=o8NiE3XMPrM


[1]https://google-i-o-2025-press-site.prezly.com/

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
人都死了,才罚7.6万?越看越不对劲

人都死了,才罚7.6万?越看越不对劲

走读新生
2026-04-09 15:37:03
遁入空门?迟重瑞寺庙诵经,送妻后被曝皈依,百亿遗产说扔就扔

遁入空门?迟重瑞寺庙诵经,送妻后被曝皈依,百亿遗产说扔就扔

李橑在北漂
2026-04-10 17:17:42
中国“捡钱”时代将要来临:若手中只有10万,试下死啃这两条线

中国“捡钱”时代将要来临:若手中只有10万,试下死啃这两条线

混沌录
2026-04-03 17:28:23
樊振东自愿放弃伦敦世乒赛资格,国际乒联主席回应樊振东赴海外参训:这是全新的历练,选手打完联赛依旧可回归,所有赛事均保持开放

樊振东自愿放弃伦敦世乒赛资格,国际乒联主席回应樊振东赴海外参训:这是全新的历练,选手打完联赛依旧可回归,所有赛事均保持开放

极目新闻
2026-04-10 09:12:57
广东官方紧急提醒!毒性极强可致命,很多深圳人天天吃

广东官方紧急提醒!毒性极强可致命,很多深圳人天天吃

环球网资讯
2026-04-10 16:52:30
女子出轨被丈夫捉奸在床

女子出轨被丈夫捉奸在床

太阳来
2026-04-10 17:15:06
震惊!2025年收入216360.18元,一份南京小学教师个税清单引热议

震惊!2025年收入216360.18元,一份南京小学教师个税清单引热议

火山詩话
2026-04-10 15:51:39
小米全新入门低价新车曝光!这也太棒了

小米全新入门低价新车曝光!这也太棒了

XCiOS俱乐部
2026-04-10 18:38:08
湖人3配角价值突显!肯纳德攻守全输出,史密斯连爆,布朗尼进步

湖人3配角价值突显!肯纳德攻守全输出,史密斯连爆,布朗尼进步

篮球资讯达人
2026-04-10 13:52:22
中央一锤定音!6月1日起全国统一执行,家家户户用水将迎7大变化

中央一锤定音!6月1日起全国统一执行,家家户户用水将迎7大变化

三农雷哥
2026-04-10 17:43:46
“这种人谁敢录?”39岁华东师范考生举报第一名,学校回应来了

“这种人谁敢录?”39岁华东师范考生举报第一名,学校回应来了

妍妍教育日记
2026-04-09 10:55:07
美国议员自曝患癌:寿命或只剩3个月,现在最放不下三个孩子

美国议员自曝患癌:寿命或只剩3个月,现在最放不下三个孩子

芭比衣橱
2026-04-10 18:10:39
毛主席从不批评刘伯承和徐向前,一个是不忍批评,另一个无需批评

毛主席从不批评刘伯承和徐向前,一个是不忍批评,另一个无需批评

鹤羽说个事
2026-04-08 22:21:11
研究了5.6万颗恒星后,天文学家发现:太阳似乎被精心设计过

研究了5.6万颗恒星后,天文学家发现:太阳似乎被精心设计过

观察宇宙
2026-04-08 20:32:34
丁俊晖深夜回信戳中万人泪点:8岁拿球杆那天就把命交给这张球桌

丁俊晖深夜回信戳中万人泪点:8岁拿球杆那天就把命交给这张球桌

林子说事
2026-04-10 12:34:19
一场战争彻底把中国打醒!美军作战最毒的是什么?中国用30年看清

一场战争彻底把中国打醒!美军作战最毒的是什么?中国用30年看清

共工之锚
2026-04-08 00:29:52
台北市长满意度近七成,国民党支持率却跌破三成。

台北市长满意度近七成,国民党支持率却跌破三成。

吃货的分享
2026-04-09 17:48:49
601020,实际控制人变更,下周一复牌!

601020,实际控制人变更,下周一复牌!

数据宝
2026-04-10 21:23:37
6个进球全是乌龙!10岁孩子为何踢假球?赛制安排不合理引发乱象

6个进球全是乌龙!10岁孩子为何踢假球?赛制安排不合理引发乱象

中国足球的那些事儿
2026-04-10 13:16:45
央行数据曝光:41.5%家庭手握多套房,房价下跌后,他们有多难?

央行数据曝光:41.5%家庭手握多套房,房价下跌后,他们有多难?

老特有话说
2026-04-08 14:45:55
2026-04-11 00:03:00
量子位 incentive-icons
量子位
追踪人工智能动态
12455文章数 176448关注度
往期回顾 全部

科技要闻

马斯克狂发大火箭也养不起AI 年亏50亿美元

头条要闻

73岁骑友抄近路摔倒身亡 女儿:赔偿问题无法达成共识

头条要闻

73岁骑友抄近路摔倒身亡 女儿:赔偿问题无法达成共识

体育要闻

17岁赚了一百万美元,25岁被CBA裁员

娱乐要闻

黄景瑜王玉雯否认恋情!聚会细节被扒

财经要闻

李强主持召开经济形势专家和企业家座谈会

汽车要闻

搭载第二代刀片电池及闪充技术 腾势N8L闪充版预售35万起

态度原创

房产
手机
本地
数码
公开课

房产要闻

28条新规落地!好房子,终于有了“广州标准”!

手机要闻

OPPO Find X9s Pro配色公布,全面登陆“锁屏岛”

本地新闻

12吨巧克力有难,全网化身超级侦探添乱

数码要闻

飞利浦推出“27M2G5800”27英寸显示器,4999元

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版