网易首页 > 网易号 > 正文 申请入驻

谷歌掀语音Agent新纪元!开口就是生产力,Siri的最强外挂来了?

0
分享至


智东西
作者|江宇
编辑|冰倩

智东西3月27日消息,昨日凌晨,谷歌正式推出其最高质量的音频和语音模型——实时语音模型Gemini 3.1 Flash Live,并在Gemini App、Search Live以及Google AI Studio中同步开放,其中后者以预览版本向开发者提供。

这一版本的核心在实时语音Agent能力升级:语音已可直接驱动应用开发(vibe coding),Gemini App的实时多模态对话能力同步增强,在多项评测中超过GPT-Realtime-1.5、Qwen3 Omni 30B A3B Instruct、GPT-4o Audio preview等模型。

模型一出,就被外网网友称作Siri“救星”。就在昨日,外媒曝2026苹果WWDC将主打AI并将推新版Siri,苹果已获谷歌完整Gemini模型直连权限,将通过蒸馏自研轻量化端侧AI部署iPhone。


这款模型面向实时语音交互,对连续对话进行了整体优化,包括响应延迟、上下文记忆、多语言处理及工具调用等关键能力。

Gemini Live中的上下文窗口已提升至此前的2倍,Search Live支持在200多个国家和地区进行多语言实时交互,整体能力面向连续对话和复杂任务场景

从公开测试结果来看,这一版本在语音Agent关键能力上提升显著。在ComplexFuncBench audio测试中,Gemini 3.1 Flash Live的函数调用准确率达到90.8%,相比Gemini 2.5 Flash Native Audio去年12月版本的71.5%,以及2025年9月版本的66.0%,都有明显提高。


在Scale发布的Audio MultiChallenge音频输出榜单中,该模型得分36.1%,高于GPT-Realtime-1.5的34.7%、Qwen3 Omni 30B A3B Instruct的24.3%、GPT-4o Audio preview的23.2%等模型。


与此同时,这一版本重点优化了实时对话体验。模型在语音识别中对语调、语速和停顿的处理更细;在嘈杂环境下,对背景噪音的过滤能力增强,可以更稳定识别用户指令并执行任务;在复杂指令场景中,对系统约束的遵循能力也有所提升

已有获得更新的用户开始尝试新玩法,有人直接用语音指令让模型生成简短演唱片段,这类能力已经可以在对话中被触发。

其API价格也已公布:文本输入每百万token约0.5美元、输出约4.5美元,音频输入约3美元、输出约12美元,支持多模态输入调用。


模型一经发布,社区已经出现初步反馈。有网友评价称,这是一次“强势更新”,并指出更快的语音响应是一种“用户体验层面的关键突破”,如果延迟和多轮对话中的连续性能在更长时间的使用中保持稳定,语音交互的采用速度可能会明显提升。

不过,也有用户仍然保持谨慎。一位开发者直言,自己此前已经放弃使用语音模型,因为其回复质量明显不如文本,并反问这一情况是否真的发生了改变。


智东西也对这一功能进行了初步体验。其中文语音表现仍偏机械,多轮对话过程中存在中断情况,暂未能完整体验其连续交互能力。当前该版本正分批推送,iOS和安卓用户已开始陆续收到更新。

一、开口就是改代码:UI、交互、风格一段话全部重做

在这次发布中,谷歌首先展示的是语音驱动应用开发(vibe coding)这一类场景,开发者可以在Google AI Studio里一边说话一边做应用,让开发过程跟上脑暴的节奏。


▲Live Vibe Coder页面,用户可上手实操

用户可以用语音连续调整界面。对话一开始,用户直接提出修改:“把麦克风做大一点”,界面随即发生变化;紧接着补一句“背景加点黄色波点”,页面背景立刻更新。

随后用户继续叠加需求,例如加入“鼠标悬停时的反馈效果”、让背景图案持续滚动,这些改动都在同一段对话中逐步完成。

用户一边说,界面一边变化。中途用户又临时调整方向,说“干脆整体做成波普风”,模型就在已有基础上继续重做视觉风格,整个过程接近和设计师一对一的实时沟通。


二、设计协作、跨语对话、角色扮演,三类场景同时落地

除了应用开发,谷歌还给出了三类实际使用的场景,包括界面设计协作、跨语言陪伴交流,以及游戏中的角色互动。

设计工具Stitch的案例中,语音也可直接参与到界面编辑流程。用户先让界面跳到“练习模式”,再切到“歌曲库”,随后开始具体挑问题:“这些虚线和方形边框看着有点硬,能不能让数字更贴合圆形?”界面随即往更简洁的方向调整。紧接着又换一套思路:“试一个偏棕色、木质一点的配色”,新的视觉版本便直接生成出来。

面向老年用户AI硬件设备Ato的交互案例中,重点放在多语言对话的连续性,对话内容围绕日常问候和陪伴展开。用户先用英语聊天,再插入一个条件:“我要跟奶奶说话,但她只会西班牙语”,模型在同一段对话里切换语言继续交流,对话内容并不会因为语言变化而中断。

对话中一旦出现真实场景的插入信息,比如提到“刚从医院出来有点累”,模型会顺着语境回应,给出一段连续的交流。

在RPG游戏《Wit’s End》的案例中,语音被用来驱动角色本身。玩家提问时,模型会用带有设定的语气回应,例如围绕“你有没有实体形态”“你的能力来自哪里”等问题展开,对话始终保持在角色语境里。回答不会跳出设定,会沿着同一世界观继续展开,语气和表达方式也保持一致。


结语:谷歌做“全栈语音Agent”,国内玩家一边抓用户,一边补能力

从这次发布来看,谷歌正在把语音能力做成一套更完整的通用能力体系。无论是编程场景中的vibe coding,还是AI硬件交互、移动端Gemini App入口,多个形态都在同时推进,覆盖范围扩展到不同使用场景。

在产品形态上,Gemini App与国内的豆包等产品已有明显相似之处,都是以对话为核心入口,承接搜索、工具调用和多轮交互。但在实际体验上,两者并不相同。豆包在中文表达、语气风格以及互动感上更为主动,调侃式表达更容易形成用户黏性,也已经在国内积累了一定用户规模。

相比之下,谷歌当前的重心仍放在能力拓展上,尤其是在语音驱动开发这一类场景中,vibe coding所体现的连续修改能力和实时交互节奏,已经领先于现有产品形态。

与此同时,国内在语音模型能力上的进展也在加快。阶跃星辰Step-Audio R1.1在Artificial Analysis语音推理榜单中拿下第一,以96.4%准确率超过Grok、Gemini、GPT-Realtime等模型,成为当前语音推理方向的代表性成果之一。

一边是谷歌不断拉高能力上限,尝试覆盖更多场景;另一边是国内玩家在用户规模与模型能力两端同时推进,语音Agent的竞争态势,正愈演愈烈。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
重磅锁定!拒绝540万,火箭爽呆了

重磅锁定!拒绝540万,火箭爽呆了

体育新角度
2026-06-29 16:58:47
马斯克:如果SpaceX没有显著超过里程碑,我会失望!网友:期待火星上有百万人类,这是最重要的里程碑

马斯克:如果SpaceX没有显著超过里程碑,我会失望!网友:期待火星上有百万人类,这是最重要的里程碑

大白聊IT
2026-06-29 17:52:47
贝纳蒂亚:现在意大利最好的前锋还不如法国的替补

贝纳蒂亚:现在意大利最好的前锋还不如法国的替补

懂球帝
2026-06-29 05:02:35
彻底破防!日本家电卖场全面“中国化”,日国民见证传奇落幕难接受

彻底破防!日本家电卖场全面“中国化”,日国民见证传奇落幕难接受

小柱解说游戏
2026-06-29 17:56:51
高分学子成试验品?福耀科大风波发酵,网友:张雪峰的含金量上升

高分学子成试验品?福耀科大风波发酵,网友:张雪峰的含金量上升

火山詩话
2026-06-27 16:12:32
拿下大满贯:“小孩”曾卓君夺得美国EVO 2026饿狼传说冠军

拿下大满贯:“小孩”曾卓君夺得美国EVO 2026饿狼传说冠军

IT之家
2026-06-29 12:19:59
敷衍!洪明甫念完95秒辞职稿就逃离 韩国球迷怒喷:2年工资吐出来

敷衍!洪明甫念完95秒辞职稿就逃离 韩国球迷怒喷:2年工资吐出来

我爱英超
2026-06-29 09:07:38
世界杯16强晋级概率出炉!阿根廷93% 日本仅30% 东道主全被看好

世界杯16强晋级概率出炉!阿根廷93% 日本仅30% 东道主全被看好

颜小白的篮球梦
2026-06-29 00:20:07
中国大使馆新址惊现35枚“中国制造”窃听器,外界震动

中国大使馆新址惊现35枚“中国制造”窃听器,外界震动

匹夫来搞笑
2026-06-28 19:15:42
记者手记|人在窘途——被晒瘫的德国铁路

记者手记|人在窘途——被晒瘫的德国铁路

极目新闻
2026-06-29 00:06:11
解忧 | 女子遭孩童掀开试衣帘,致全身裸露被多名男性围观

解忧 | 女子遭孩童掀开试衣帘,致全身裸露被多名男性围观

新民周刊
2026-06-28 20:11:48
难以置信,北京协和证实:40岁后男性最优运动,并非跑步撸铁

难以置信,北京协和证实:40岁后男性最优运动,并非跑步撸铁

华庭讲美食
2026-06-21 15:26:10
papi酱首谈原生家庭:父亲生性风流,其再婚妻子仅比我大几岁,20岁前对回家既期待又害怕

papi酱首谈原生家庭:父亲生性风流,其再婚妻子仅比我大几岁,20岁前对回家既期待又害怕

都市快报橙柿互动
2026-06-28 08:38:53
基本上可以确定,只要伊朗轰炸美国本土,伊朗战争就会立刻结束

基本上可以确定,只要伊朗轰炸美国本土,伊朗战争就会立刻结束

揭秘历史的真相
2026-06-14 20:35:29
41%控球也能赢!加拿大1-0绝杀南非获全网点赞:拖时间的就该回家

41%控球也能赢!加拿大1-0绝杀南非获全网点赞:拖时间的就该回家

风过乡
2026-06-29 05:39:03
全网喊话“韦神” 做高考数学卷,没想到他的一句话,就让千万网友瞬间服气

全网喊话“韦神” 做高考数学卷,没想到他的一句话,就让千万网友瞬间服气

不二大叔
2026-06-29 14:33:45
阿根廷3-1!但真正让全网炸锅的,是梅西赛后更衣室的那句原话

阿根廷3-1!但真正让全网炸锅的,是梅西赛后更衣室的那句原话

漫川舟船
2026-06-29 15:54:35
常年不祭祖不上坟的家庭,久而久之,大多会出现这几种结局

常年不祭祖不上坟的家庭,久而久之,大多会出现这几种结局

老特有话说
2026-06-23 14:08:53
德国的路都热"化"了!莱比锡市宣布有轨电车停运

德国的路都热"化"了!莱比锡市宣布有轨电车停运

看看新闻Knews
2026-06-28 23:25:36
每一口外卖、瓶装水都在“掏空”肝脏!Science子刊:微塑料独立引发脂肪肝,还瓦解肝脏“自救”基因;高脂饮食雪上加霜,促进炎性反应

每一口外卖、瓶装水都在“掏空”肝脏!Science子刊:微塑料独立引发脂肪肝,还瓦解肝脏“自救”基因;高脂饮食雪上加霜,促进炎性反应

梅斯医学
2026-06-28 07:54:12
2026-06-29 18:31:00
智东西 incentive-icons
智东西
智东西,AI产业新媒体,专注报道人工智能的前沿技术发展,和技术应用带来的千行百业产业变革。
12144文章数 117113关注度
往期回顾 全部

科技要闻

杀疯了!深圳一天出两家200亿具身智能公司

头条要闻

日媒:中国关键金属进口量飙升 "手上有牌"

头条要闻

日媒:中国关键金属进口量飙升 "手上有牌"

体育要闻

他和伊朗队,再次赢得全世界的尊重

娱乐要闻

跟风电影《给阿公的牛肉丸》开机

财经要闻

近20家半导体企业开启新一轮涨价潮

汽车要闻

全新宝马iX3长轴版将于成都车展预售 四季度交付

态度原创

时尚
健康
房产
本地
军事航空

伊姐周日热推:电视剧《千香》;电视剧《非份之罪》......

狂吃“糯叽叽”小心肠梗阻!

房产要闻

你敢想?海口房地产投资,暴跌5成!

本地新闻

贵州小城的新目标:举办“村超”世界杯!

军事要闻

普京最新发声:俄罗斯正处于命运攸关之际

无障碍浏览 进入关怀版