网易首页 > 网易号 > 正文 申请入驻

完爆ChatGPT!谷歌这招太狠:连你的「阴阳怪气」都能神还原

0
分享至

  

  新智元报道

  编辑:YHluck

  【新智元导读】谷歌发布Gemini 2.5 Flash原生音频模型,不仅能保留语调进行实时语音翻译,更让AI在复杂指令和连续对话中像真人一样自然流畅。这一更新标志着AI从简单的「文本转语音」跨越到了真正的「拟人化交互」时代。

  想象这样一个场景:

  你戴着耳机走在印度孟买喧闹的街头,周围是嘈杂的叫卖声和完全听不懂的印地语。

  此时,一位当地大叔急匆匆地用印地语向你询问路线,他的语速很快,语气焦急。

  若是以前,你可能得手忙脚乱地掏出手机,打开翻译App,按下按钮,尴尬地把手机递到他嘴边,然后听着手机里传出毫无感情的「机翻」电子音。

  

  Nano Banana Pro制图

  但现在,一切都变了。

  你站在原地不动,耳机里直接传来了流利的中文:「嘿!朋友,麻烦问一下,火车站是不是往这边走?

  最绝的是,这句中文不仅意思准确,甚至连大叔那种焦急、气喘吁吁的语调都完美复刻了!

  你用中文回答,耳机自动把你的声音转化成印地语传给对方,甚至保留了你热情的语调。

  这不仅是科幻电影里的《巴别塔》重现,这是谷歌本周刚刚扔下的重磅「核弹」——Gemini 2.5 Flash Native Audio(原生音频模型)

  

  今天,我们就来扒一扒这次更新到底有多强。

  所谓的「原生音频」,到底强在哪?

  很多人可能会问:「现在的手机不都有朗读功能吗?这有啥稀奇的?」

  这里有个巨大的误区。

  以前的AI语音交互,流程是这样的:听到声音 -> 转成文字 -> AI思考文字 -> 生成文字回复 ->转化成语音读出来。

  这个过程不仅慢,而且在「转来转去」的过程中,语气、停顿、情感这些人类沟通中最微妙的东西,全都丢了。

  

  而谷歌这次发布的Gemini 2.5 Flash Native Audio,核心就在「Native(原生)」这两个字。

  它不需要把声音转成文字再转回来,它是直接听、直接想、直接说

  举个栗子,这就好比你和一个老外聊天,以前你需要脑子里疯狂查字典,现在你已经形成了「语感」,脱口而出。

  这次更新,谷歌不仅升级了Gemini 2.5 Pro和Flash的文本转语音模型,带来了更强的控制力。

  更重要的是,它让实时语音代理(Live Voice Agents)成真了。

  

  这意味着什么?

  意味着在Google AI Studio、Vertex AI,甚至是搜索(Search Live)里,你不再是和一个冷冰冰的机器对话,而是在和一个有「脑子」、有「耳朵」的智能体进行实时头脑风暴

  耳机里的「同声传译」

  打破语言的巴别塔

  这次更新中,最让普通用户感到兴奋的,绝对是实时语音翻译(Live Speech Translation)功能。

  谷歌这次没有画饼,功能已经开始在美国、墨西哥和印度的安卓设备上,通过Google翻译App进行Beta测试了(iOS用户稍安勿躁,马上就来)。

  这个功能有两个杀手锏,直击痛点:

  持续监听与双向对话:真正的「无感」翻译

  以前用翻译软件,最烦的就是要不停地点「说话」按钮。

  现在,Gemini支持持续监听

  你可以把手机揣兜里,戴上耳机,Gemini会自动把你周围听到的多种语言,实时翻译成你的母语。

  这就相当于随身带了个隐形翻译官。

  而在双向对话模式下,它更聪明。

  比如你会说英语,想和一个说印地语的人聊天。

  Gemini能自动识别是谁在说话。

  你在耳机里听到的是英语,而当你开口说完话,手机会自动外放印地语给对方听。

  你不需要去设置「现在我说」、「现在他说」,系统全自动切换。

  风格迁移:连「情绪」都能翻译

  这是最让我起鸡皮疙瘩的功能——Style Transfer(风格迁移)

  传统的翻译是「莫得感情」的朗读机器。

  但Gemini利用其原生音频能力,能捕捉人类语言的细微差别。

  

  如果对方说话时语调上扬、节奏轻快,翻译出来的声音也会是欢快的;

  如果对方语气低沉、犹豫,翻译出来的声音也会带着迟疑。

  它保留了说话者的语调、节奏和音高

  这不仅仅是听懂意思,这是听懂态度

  

  在商务谈判或者吵架的时候,这个功能简直太重要了!

  此外,它还支持:

  70多种语言和2000多个语言对:覆盖了全球绝大多数人的母语。

  多语言混输:即使在一场对话中混杂着几种不同的语言,它也能同时理解,不用你手动切来切去。

  噪声鲁棒性:专门针对嘈杂环境优化,过滤背景音。哪怕你在嘈杂的户外市场,也能听得清清楚楚。

  开发者狂喜

  这个AI终于「听懂人话」了

  如果你是开发者,或者想为企业构建客服AI,这次Gemini 2.5 Flash Native Audio带来的三个底层能力提升,绝对是「及时雨」。

  

  函数调用更精准

  以前的语音助手,一旦涉及到查天气、查航班这种需要调用外部数据的操作,很容易卡壳或者回答得很生硬。

  现在的Gemini 2.5,知道何时该去获取实时信息,并且能把查到的数据无缝地编织进语音回复里,不会打断对话的流畅感。

  在专门测试复杂多步骤函数调用的ComplexFuncBench Audio评测中,Gemini 2.5拿下了71.5%的高分,遥遥领先。

  

  更新后的 Gemini 2.5 Flash Native Audio 在 ComplexFuncBench 上与之前版本及行业竞争对手的性能对比

  这意味着,它能真正充当一个靠谱的「办事员」,而不是一个只会陪聊的「傻白甜」。

  指令遵循更听话

  你是不是经常觉得AI听不懂复杂的指令?

  谷歌这次下了狠功夫。

  新模型对开发者指令的遵循率从84%提升到了90%

  这意味着,如果你要求AI「用这种特定的格式回答,语气要严厉一点,不要废话」,它能更精准地执行你的要求。

  对于构建企业级服务来说,这种可靠性才是核心竞争力。

  对话更丝滑

  多轮对话是AI的老大难问题。

  聊着聊着,AI就忘了前面说过啥。

  Gemini 2.5在检索上下文方面取得了显著进步。

  它能更有效地记住之前的对话内容,让整个交流过程不仅连贯,而且具有逻辑性。

  配合上原生音频的低延迟,你会感觉对面真的像坐了一个人。

  我们离「贾维斯」还有多远?

  谷歌这次的更新,其实是在传递一个明确的信号:

  语音交互正在成为下一个时代的入口。

  

  从Gemini Live到Search Live,再到耳机里的实时翻译,谷歌正在把AI从屏幕里解放出来,塞进我们的耳朵里。

  对于普通用户:语言的障碍正在被技术铲平。

  明年(2026年),这一功能将通过Gemini API扩展到更多产品中。

  未来,也许我们真的不再需要花费数年时间痛苦地背单词,一个耳机就能让我们走遍天下。

  对于企业:构建一个能听、能说、能办事、有情绪的下一代AI客服,门槛正在大幅降低。

  彩蛋

  除了原生音频模型外,谷歌还丢出个核弹级实验产品——Disco

  它是来自Google Labs的新发现工具,用于测试未来网络的想法。

  它内置了基于谷歌最强模型Gemini 3打造的神器GenTabs

  谷歌直言,目前还处于早期阶段,并非所有功能都能完美运行。

  最牛的地方在于,它能看懂你的需求。

  GenTabs通过主动理解复杂任务(通过用户打开的标签页和聊天记录)并创建交互式网络应用程序来帮助完成任务,从而帮助浏览网络。

  不用写一行代码,它直接把你乱七八糟的标签页和聊天记录,「变」成一个专属的交互式App

  

  想做周餐计划?想教孩子认识行星?

  

  跟它说人话就行,它自动给你生成工具,所有数据都有据可查,绝不瞎编。

  目前macOS版已经开放排队了,虽然还是早期实验版,但这绝对是把「浏览」变成了「创造」。

  赶紧冲,这波未来感拉满了!

  One More Thing

  技术进步的速度往往超乎我们的想象。

  昨天我们还在嘲笑Siri听不懂人话,今天Gemini已经开始帮我们进行跨语言的情感交流了。

  别光看着,Gemini 2.5 Flash Native Audio现在已经在Vertex AI上全面推出,Google AI Studio里也能试用了。

  赶紧去体验一下吧!

  或许在听到AI用你的语气说出第一句外语时,你会真切地感受到——未来已来。

  参考资料:

  https://deepmind.google/blog/

  https://x.com/GoogleAI/status/1999560839679082507?s=20

  https://blog.google/technology/google-labs/gentabs-gemini-3/

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
港口交易生变?巴拿马港口运营合同被裁定违宪,李嘉诚旗下长和股价大跌!香港政府:强烈不满,企业应认真审视其现时及未来在当地的投资

港口交易生变?巴拿马港口运营合同被裁定违宪,李嘉诚旗下长和股价大跌!香港政府:强烈不满,企业应认真审视其现时及未来在当地的投资

每日经济新闻
2026-01-31 00:00:09
新款瑜伽裤太透明,把lululemon股价都干跌了!

新款瑜伽裤太透明,把lululemon股价都干跌了!

新欧洲
2026-01-31 19:31:37
四年暴跌1800亿!从千元一粒到无人问津,“国宝级”神药崩盘了?

四年暴跌1800亿!从千元一粒到无人问津,“国宝级”神药崩盘了?

顾史
2025-12-19 19:06:53
全不反华了?9国高层排队赴京,中美一起享用晚宴,欧盟突然抱怨

全不反华了?9国高层排队赴京,中美一起享用晚宴,欧盟突然抱怨

爱下厨的阿酾
2026-02-01 05:44:42
6个习惯降低全身炎症让你养出健康长寿体质

6个习惯降低全身炎症让你养出健康长寿体质

吃练双修指南
2026-01-26 14:00:09
妻子举报厦门大学博士生丈夫:约P、知三当三、传播HPV(附PPT)

妻子举报厦门大学博士生丈夫:约P、知三当三、传播HPV(附PPT)

吃瓜体
2026-01-31 12:09:35
发现一个奇怪的现象:村里凡是大学毕业的子女,过年回家都很安静

发现一个奇怪的现象:村里凡是大学毕业的子女,过年回家都很安静

洪生鹏
2026-02-01 13:31:38
2005年古月离奇倒在桑拿房,李讷曾抱着他痛哭喊爸,叶帅那个红圈,竟画出了他27年“借来的人生”

2005年古月离奇倒在桑拿房,李讷曾抱着他痛哭喊爸,叶帅那个红圈,竟画出了他27年“借来的人生”

历史回忆室
2026-01-21 17:47:16
这叫巧合?谁信?英国药业刚砸千亿投资,一大批中成药就被清退了

这叫巧合?谁信?英国药业刚砸千亿投资,一大批中成药就被清退了

青青子衿
2026-02-01 16:40:36
禁赛25场罚款8100万!NBA史上最重罚单!保罗乔治退役吧!

禁赛25场罚款8100万!NBA史上最重罚单!保罗乔治退役吧!

贵圈真乱
2026-02-01 10:01:34
美伊大战在即,俄紧急送米-28援伊,中国买不到的杀器为啥给伊朗

美伊大战在即,俄紧急送米-28援伊,中国买不到的杀器为啥给伊朗

爱吃醋的猫咪
2026-02-01 19:37:17
她赴英留学,却与上千外国男子有染并拍成视频,父母与她断绝关系

她赴英留学,却与上千外国男子有染并拍成视频,父母与她断绝关系

阿胡
2026-01-21 17:34:15
赵恒多出演蒋介石,因扮演太像轰动台湾,连林青霞都找他合影

赵恒多出演蒋介石,因扮演太像轰动台湾,连林青霞都找他合影

史之铭
2026-01-26 21:12:54
成功了!俄罗斯最新战况!

成功了!俄罗斯最新战况!

达文西看世界
2026-01-30 14:59:15
这位老阿姨把皮草穿出了温柔又有高级感的氛围

这位老阿姨把皮草穿出了温柔又有高级感的氛围

牛弹琴123456
2026-01-19 12:10:38
92年廖汉生以82岁高龄再次申请退休,没想到中央依然回复:不同意

92年廖汉生以82岁高龄再次申请退休,没想到中央依然回复:不同意

思雨忆史录
2026-01-04 09:12:39
湖南省管干部任前公示:多名邵阳籍干部拟进一步使用

湖南省管干部任前公示:多名邵阳籍干部拟进一步使用

时刻
2026-01-31 00:10:09
中国平陆运河收尾,俄罗斯直呼“等到”,越南却坐不住了

中国平陆运河收尾,俄罗斯直呼“等到”,越南却坐不住了

他想要很多很多的梦
2026-02-01 16:58:07
小米SU7 Ultra月销量跌至45辆

小米SU7 Ultra月销量跌至45辆

21世纪经济报道
2026-01-31 18:33:35
80岁拾荒老太被富二代砸烂三轮车,她淡定拨通号码:儿子帮我个忙

80岁拾荒老太被富二代砸烂三轮车,她淡定拨通号码:儿子帮我个忙

白云故事
2026-01-30 11:40:09
2026-02-01 20:12:49
新智元 incentive-icons
新智元
AI产业主平台领航智能+时代
14457文章数 66558关注度
往期回顾 全部

科技要闻

腾讯元宝宣布:10亿现金红包,今日开抢

头条要闻

2.5吨白银建造的地标被拍卖 其中1.75吨银折算1204万

头条要闻

2.5吨白银建造的地标被拍卖 其中1.75吨银折算1204万

体育要闻

锁喉吃红牌+扇耳光 英超15人打群架

娱乐要闻

春晚第三次联排阵容曝光:全是实力派

财经要闻

黄仁勋台北"夜宴":汇聚近40位台企高管

汽车要闻

岚图汽车1月交付10515辆 同比增长31%

态度原创

数码
家居
艺术
本地
公开课

数码要闻

荣耀朱臣才介绍今年笔电策略,称在核显和AI应用的提升力气最大

家居要闻

蓝调空舍 自由与个性

艺术要闻

柔美的色彩感,英国当代具象画家Emma McClure

本地新闻

云游中国|拨开云雾,巫山每帧都是航拍大片

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版