5月20日,2026年谷歌I/O开发者大会开幕,Gemini Omni模型正式亮相。DeepMind负责人哈萨比斯称这是Gemini家族"能力最为全面的版本","Omni"即"全能"之意。
该模型核心卖点是"从任何输入生成任何输出"。文字、图像、视频、音频的跨模态处理被整合进同一架构,谷歌强调其"流畅性与深度"较前代显著提升。
![]()
现场演示的功能指向具体应用场景:对话式视频编辑。用户无需专业剪辑技能,一句话即可修改视频中的角色、背景等元素。这种交互方式降低了视频生产门槛,直接对标当前热门的AI视频工具赛道。
同步推出的Gemini Omni Flash是家族首款可用模型。即日起登陆Gemini App、Google Flow及YouTube Shorts,API服务后续开放。谷歌选择先推消费端产品,而非优先服务企业开发者,策略上明显侧重用户规模扩张。
多模态统一模型已成为大厂竞争焦点。Gemini Omni的发布意味着谷歌在"端到端"AI能力上完成了关键补位,但具体性能指标与定价细节尚未公布,实际效果有待第三方验证。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.