AIPress.com.cn报道
本周早些时候,Google 通过升级 Gemini 2.5 Pro 和 Flash 的文本转语音(TTS)模型,提升了对音频生成的控制力。但这只是对话的一半,Google 今天正式发布了针对实时语音代理(Live Voice Agents)的 Gemini 2.5 Flash Native Audio(原生音频) 更新版。此次升级的核心在于"双向交互",显著增强了模型处理复杂工作流、理解用户指令以及进行自然对话的能力。
目前,Gemini 2.5 Flash 原生音频模型已接入 Google AI Studio 和 Vertex AI,并开始在 Gemini Live 和 Search Live 中应用。这意味着开发者和企业可以利用它构建更智能的客服系统,普通用户也能在搜索中体验到更自然的语音交互。
除了基础能力的提升,Google 还利用原生音频技术解锁了新的全球沟通方式——实时语音翻译。这是一项流式语音对语音(Speech-to-Speech)翻译功能,其最大突破在于能够保留说话人的语调、节奏和音高,而非传统的机械式朗读。该功能已作为 Beta 测试版在 Google 翻译应用中上线。
Live Voice Agents 实时语音代理
为了支撑这些应用场景,Gemini 2.5 原生音频在三个关键领域进行了技术改良:
更精准的工具调用:模型在触发外部功能时的可靠性大幅提高。它能准确判断何时需要在对话中获取实时信息,并将数据无缝融入语音回复中,不会打断对话流畅度。在针对多步函数调用的评测(ComplexFuncBench Audio)中,该模型得分为 71.5%,处于领先地位。
更强的指令遵循能力:模型对开发者指令的执行更加严格,遵循率从之前的 84% 提升至 90%,确保输出结果更符合预期,提升用户满意度。
更流畅的对话体验:在多轮对话中,模型检索上下文的能力显著增强,使对话逻辑更加连贯。同时,它具备自动语种检测功能,无需用户手动设置即可开始翻译;以及强大的抗噪能力,在嘈杂的户外环境中也能有效过滤背景噪音。
![]()
更新后的 Gemini 2.5 Flash Native Audio 在 ComplexFuncBench 上与之前版本及行业竞争对手的性能对比
Live Speech Translation 实时语音翻译
Gemini 现在原生支持了一项全新的实时"语音对语音"(Speech-to-Speech)翻译功能,专门针对持续监听和双向对话这两个最核心的沟通场景进行了优化。
在持续监听模式下,Gemini 就像一个不知疲倦的同声传译员。它可以自动识别周围的多种语言,并把它们统统翻译成你的目标语言。这意味你只需要戴上耳机,就能直接听懂周围那个原本陌生的世界,无论是机场广播还是街头交谈。
而在双向对话模式中,Gemini 则扮演了中间人的角色,负责实时处理两种语言的互译,并能根据谁在说话自动切换输出语言。举个例子,如果你说英语,对方说印地语,你的耳机里会实时听到翻译过来的英语,而当你说完话,你的手机外放会直接把你的意思用印地语播报给对方听。
为了让这种体验在真实世界中真正好用,Gemini 的实时语音翻译增添了三项重要功能:首先是语种覆盖广,依托 Gemini 模型庞大的世界知识库,它支持 70 多种语言、超过 2000 个语种对的互译。其次是风格迁移能力,这是它区别于传统机翻的最大亮点——它能捕捉人类语音的细微差别,保留说话人的语调、节奏和音高,让翻译出来的声音听起来自然流畅,而不是冷冰冰的机器朗读。
此外,它还支持多语言混合输入,在一个会话中能同时听懂多种语言,不用你在设置里切来切去;具备自动语种检测,你甚至不需要知道对方说的是什么语,直接开始聊就行。最后是强大的抗噪能力,即便在嘈杂的户外环境中,它也能过滤掉背景噪音,让你聊得清楚、听得明白。
值得注意的是,Google 表示将根据反馈持续迭代,并计划在 2026 年将这一体验扩展到包括 Gemini API 在内的更多 Google 产品中。对于开发者而言,Gemini 2.5 Flash 原生音频模型现已在 Vertex AI 上全面可用(GA),并在 Gemini API 中提供预览版。(AI普瑞斯编译)
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.