网易首页 > 网易号 > 正文 申请入驻

完爆ChatGPT!谷歌这招太狠:连你的「阴阳怪气」都能神还原

0
分享至

  

  新智元报道

  编辑:YHluck

  【新智元导读】谷歌发布Gemini 2.5 Flash原生音频模型,不仅能保留语调进行实时语音翻译,更让AI在复杂指令和连续对话中像真人一样自然流畅。这一更新标志着AI从简单的「文本转语音」跨越到了真正的「拟人化交互」时代。

  想象这样一个场景:

  你戴着耳机走在印度孟买喧闹的街头,周围是嘈杂的叫卖声和完全听不懂的印地语。

  此时,一位当地大叔急匆匆地用印地语向你询问路线,他的语速很快,语气焦急。

  若是以前,你可能得手忙脚乱地掏出手机,打开翻译App,按下按钮,尴尬地把手机递到他嘴边,然后听着手机里传出毫无感情的「机翻」电子音。

  

  Nano Banana Pro制图

  但现在,一切都变了。

  你站在原地不动,耳机里直接传来了流利的中文:「嘿!朋友,麻烦问一下,火车站是不是往这边走?

  最绝的是,这句中文不仅意思准确,甚至连大叔那种焦急、气喘吁吁的语调都完美复刻了!

  你用中文回答,耳机自动把你的声音转化成印地语传给对方,甚至保留了你热情的语调。

  这不仅是科幻电影里的《巴别塔》重现,这是谷歌本周刚刚扔下的重磅「核弹」——Gemini 2.5 Flash Native Audio(原生音频模型)

  

  今天,我们就来扒一扒这次更新到底有多强。

  所谓的「原生音频」,到底强在哪?

  很多人可能会问:「现在的手机不都有朗读功能吗?这有啥稀奇的?」

  这里有个巨大的误区。

  以前的AI语音交互,流程是这样的:听到声音 -> 转成文字 -> AI思考文字 -> 生成文字回复 ->转化成语音读出来。

  这个过程不仅慢,而且在「转来转去」的过程中,语气、停顿、情感这些人类沟通中最微妙的东西,全都丢了。

  

  而谷歌这次发布的Gemini 2.5 Flash Native Audio,核心就在「Native(原生)」这两个字。

  它不需要把声音转成文字再转回来,它是直接听、直接想、直接说

  举个栗子,这就好比你和一个老外聊天,以前你需要脑子里疯狂查字典,现在你已经形成了「语感」,脱口而出。

  这次更新,谷歌不仅升级了Gemini 2.5 Pro和Flash的文本转语音模型,带来了更强的控制力。

  更重要的是,它让实时语音代理(Live Voice Agents)成真了。

  

  这意味着什么?

  意味着在Google AI Studio、Vertex AI,甚至是搜索(Search Live)里,你不再是和一个冷冰冰的机器对话,而是在和一个有「脑子」、有「耳朵」的智能体进行实时头脑风暴

  耳机里的「同声传译」

  打破语言的巴别塔

  这次更新中,最让普通用户感到兴奋的,绝对是实时语音翻译(Live Speech Translation)功能。

  谷歌这次没有画饼,功能已经开始在美国、墨西哥和印度的安卓设备上,通过Google翻译App进行Beta测试了(iOS用户稍安勿躁,马上就来)。

  这个功能有两个杀手锏,直击痛点:

  持续监听与双向对话:真正的「无感」翻译

  以前用翻译软件,最烦的就是要不停地点「说话」按钮。

  现在,Gemini支持持续监听

  你可以把手机揣兜里,戴上耳机,Gemini会自动把你周围听到的多种语言,实时翻译成你的母语。

  这就相当于随身带了个隐形翻译官。

  而在双向对话模式下,它更聪明。

  比如你会说英语,想和一个说印地语的人聊天。

  Gemini能自动识别是谁在说话。

  你在耳机里听到的是英语,而当你开口说完话,手机会自动外放印地语给对方听。

  你不需要去设置「现在我说」、「现在他说」,系统全自动切换。

  风格迁移:连「情绪」都能翻译

  这是最让我起鸡皮疙瘩的功能——Style Transfer(风格迁移)

  传统的翻译是「莫得感情」的朗读机器。

  但Gemini利用其原生音频能力,能捕捉人类语言的细微差别。

  

  如果对方说话时语调上扬、节奏轻快,翻译出来的声音也会是欢快的;

  如果对方语气低沉、犹豫,翻译出来的声音也会带着迟疑。

  它保留了说话者的语调、节奏和音高

  这不仅仅是听懂意思,这是听懂态度

  

  在商务谈判或者吵架的时候,这个功能简直太重要了!

  此外,它还支持:

  70多种语言和2000多个语言对:覆盖了全球绝大多数人的母语。

  多语言混输:即使在一场对话中混杂着几种不同的语言,它也能同时理解,不用你手动切来切去。

  噪声鲁棒性:专门针对嘈杂环境优化,过滤背景音。哪怕你在嘈杂的户外市场,也能听得清清楚楚。

  开发者狂喜

  这个AI终于「听懂人话」了

  如果你是开发者,或者想为企业构建客服AI,这次Gemini 2.5 Flash Native Audio带来的三个底层能力提升,绝对是「及时雨」。

  

  函数调用更精准

  以前的语音助手,一旦涉及到查天气、查航班这种需要调用外部数据的操作,很容易卡壳或者回答得很生硬。

  现在的Gemini 2.5,知道何时该去获取实时信息,并且能把查到的数据无缝地编织进语音回复里,不会打断对话的流畅感。

  在专门测试复杂多步骤函数调用的ComplexFuncBench Audio评测中,Gemini 2.5拿下了71.5%的高分,遥遥领先。

  

  更新后的 Gemini 2.5 Flash Native Audio 在 ComplexFuncBench 上与之前版本及行业竞争对手的性能对比

  这意味着,它能真正充当一个靠谱的「办事员」,而不是一个只会陪聊的「傻白甜」。

  指令遵循更听话

  你是不是经常觉得AI听不懂复杂的指令?

  谷歌这次下了狠功夫。

  新模型对开发者指令的遵循率从84%提升到了90%

  这意味着,如果你要求AI「用这种特定的格式回答,语气要严厉一点,不要废话」,它能更精准地执行你的要求。

  对于构建企业级服务来说,这种可靠性才是核心竞争力。

  对话更丝滑

  多轮对话是AI的老大难问题。

  聊着聊着,AI就忘了前面说过啥。

  Gemini 2.5在检索上下文方面取得了显著进步。

  它能更有效地记住之前的对话内容,让整个交流过程不仅连贯,而且具有逻辑性。

  配合上原生音频的低延迟,你会感觉对面真的像坐了一个人。

  我们离「贾维斯」还有多远?

  谷歌这次的更新,其实是在传递一个明确的信号:

  语音交互正在成为下一个时代的入口。

  

  从Gemini Live到Search Live,再到耳机里的实时翻译,谷歌正在把AI从屏幕里解放出来,塞进我们的耳朵里。

  对于普通用户:语言的障碍正在被技术铲平。

  明年(2026年),这一功能将通过Gemini API扩展到更多产品中。

  未来,也许我们真的不再需要花费数年时间痛苦地背单词,一个耳机就能让我们走遍天下。

  对于企业:构建一个能听、能说、能办事、有情绪的下一代AI客服,门槛正在大幅降低。

  彩蛋

  除了原生音频模型外,谷歌还丢出个核弹级实验产品——Disco

  它是来自Google Labs的新发现工具,用于测试未来网络的想法。

  它内置了基于谷歌最强模型Gemini 3打造的神器GenTabs

  谷歌直言,目前还处于早期阶段,并非所有功能都能完美运行。

  最牛的地方在于,它能看懂你的需求。

  GenTabs通过主动理解复杂任务(通过用户打开的标签页和聊天记录)并创建交互式网络应用程序来帮助完成任务,从而帮助浏览网络。

  不用写一行代码,它直接把你乱七八糟的标签页和聊天记录,「变」成一个专属的交互式App

  

  想做周餐计划?想教孩子认识行星?

  

  跟它说人话就行,它自动给你生成工具,所有数据都有据可查,绝不瞎编。

  目前macOS版已经开放排队了,虽然还是早期实验版,但这绝对是把「浏览」变成了「创造」。

  赶紧冲,这波未来感拉满了!

  One More Thing

  技术进步的速度往往超乎我们的想象。

  昨天我们还在嘲笑Siri听不懂人话,今天Gemini已经开始帮我们进行跨语言的情感交流了。

  别光看着,Gemini 2.5 Flash Native Audio现在已经在Vertex AI上全面推出,Google AI Studio里也能试用了。

  赶紧去体验一下吧!

  或许在听到AI用你的语气说出第一句外语时,你会真切地感受到——未来已来。

  参考资料:

  https://deepmind.google/blog/

  https://x.com/GoogleAI/status/1999560839679082507?s=20

  https://blog.google/technology/google-labs/gentabs-gemini-3/

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
小米一审胜诉,4个自媒体被判道歉+赔偿

小米一审胜诉,4个自媒体被判道歉+赔偿

敖博管理
2026-05-13 11:45:47
曾发涉港不当言论!NBA名记Shams:76人队解雇总经理莫雷

曾发涉港不当言论!NBA名记Shams:76人队解雇总经理莫雷

全景体育V
2026-05-13 08:14:35
广东回基地众人迎接!各将情绪不佳,杜锋拥抱奎因,陆续有人离开

广东回基地众人迎接!各将情绪不佳,杜锋拥抱奎因,陆续有人离开

篮球资讯达人
2026-05-13 23:22:28
流量喧嚣下,莫忘真正价值所在

流量喧嚣下,莫忘真正价值所在

烽火瞭望者
2026-05-13 08:55:09
“戏混子”没走,比资本家丑孩子更可怕的是“星二代”开始世袭了

“戏混子”没走,比资本家丑孩子更可怕的是“星二代”开始世袭了

流史岁月
2026-01-26 10:58:30
命丧黎明!德黑兰处决29岁卫星天才:被控美国间谍,临刑前喊冤

命丧黎明!德黑兰处决29岁卫星天才:被控美国间谍,临刑前喊冤

兵鉴史
2026-05-14 07:12:43
拿没教养当个性!白鹿更多黑历史被扒,欺负李晨已掉粉20万

拿没教养当个性!白鹿更多黑历史被扒,欺负李晨已掉粉20万

林轻吟
2026-05-14 07:30:39
明明有133套汤臣一品的房子,却过得想自杀,一个月才花一万块钱

明明有133套汤臣一品的房子,却过得想自杀,一个月才花一万块钱

人生录
2026-05-08 19:07:58
互联网是有记忆的,她的黑历史一大堆啊!

互联网是有记忆的,她的黑历史一大堆啊!

BenSir本色说
2026-04-15 22:38:07
震惊!网传番禺老板找做饭的小姐姐,15000元月薪,注明不需陪睡

震惊!网传番禺老板找做饭的小姐姐,15000元月薪,注明不需陪睡

火山詩话
2026-05-13 08:59:22
国产CPU里程碑!这款主力芯片出货量超百万!

国产CPU里程碑!这款主力芯片出货量超百万!

Thurman在昆明
2026-05-14 05:29:46
大陆向全球通告,禁止对岸一件事,话音刚落,郑丽文火速派人来京

大陆向全球通告,禁止对岸一件事,话音刚落,郑丽文火速派人来京

凡知
2026-05-13 12:49:01
4.7万亿!马斯克打破人类财富纪录:他一个人的钱抵得过160个国家

4.7万亿!马斯克打破人类财富纪录:他一个人的钱抵得过160个国家

通鉴史智
2026-03-15 11:45:00
封神之作!iPhone 20全面曝光:跳过19、干掉灵动岛、一整块玻璃

封神之作!iPhone 20全面曝光:跳过19、干掉灵动岛、一整块玻璃

明美无限
2026-05-13 18:04:31
中华人民共和国和塔吉克斯坦共和国永久睦邻友好合作条约

中华人民共和国和塔吉克斯坦共和国永久睦邻友好合作条约

新京报
2026-05-12 23:10:09
U17亚洲杯8强出炉 越南力压韩国获头名 1/4决赛对阵:国足战沙特

U17亚洲杯8强出炉 越南力压韩国获头名 1/4决赛对阵:国足战沙特

我爱英超
2026-05-14 07:01:39
哈里这次真把自己弄尴尬了:人还没回英国,先逼王室给梅根留面子

哈里这次真把自己弄尴尬了:人还没回英国,先逼王室给梅根留面子

白露文娱志
2026-05-12 16:32:41
瘦肚子最快的方式: 不是跑步和挨饿,而是干掉内脏脂肪!

瘦肚子最快的方式: 不是跑步和挨饿,而是干掉内脏脂肪!

运动健身号
2026-05-13 07:20:06
两岸突发一件事,大陆已下达禁令,话音刚落,郑丽文火速派人赴京

两岸突发一件事,大陆已下达禁令,话音刚落,郑丽文火速派人赴京

聊历史的阿稼
2026-05-14 06:06:56
宇树发布GD01载人变形机甲 定价390万元起

宇树发布GD01载人变形机甲 定价390万元起

财联社
2026-05-12 12:27:07
2026-05-14 08:20:49
新智元 incentive-icons
新智元
AI产业主平台领航智能+时代
15202文章数 66866关注度
往期回顾 全部

科技要闻

阿里年营收首破万亿,AI终于不再是画大饼

头条要闻

中东战火烧痛印度 莫迪六天访五国要外交“救国”

头条要闻

中东战火烧痛印度 莫迪六天访五国要外交“救国”

体育要闻

14年半,74万,何冰娇没选那条更安稳的路

娱乐要闻

白鹿掉20万粉,网友为李晨鸣不平

财经要闻

美国总统特朗普抵达北京

汽车要闻

C级纯电轿跑 吉利银河"TT"申报图来了

态度原创

艺术
家居
游戏
本地
公开课

艺术要闻

这才是真正的“史上最强毕业证”,书法堪比字帖!

家居要闻

内在自叙,无域有方

三角洲行动那些玄学设定,很多玩家可能都经历过这些事情

本地新闻

用苏绣的方式,打开江西婺源

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版