网易首页 > 网易号 > 正文 申请入驻

豆包App灰度最新语音模式,实现了GPT-4o不会的唱歌

0
分享至

文|周鑫雨

编辑|苏建勋

2025年,豆包的第一更,放在了语音通话功能上。

2025年1月20日,豆包发布了最新的“端到端”语音大模型,并基于该模型更新豆包APP的实时语音通话功能。

此前,豆包语音通话功能采用的是ASR(自动语音识别)+LLM(大语言模型)+TTS(文生音频)的级联方案。如今更新的端到端语音大模型,是将语音识别、理解和生成,都放在同一个模型中解决。

据《智能涌现》测试,更新语音模型后的豆包,最大的亮点在于,豆包在语音交互时,把类似人类的表达形式和情感输出,复刻了出来。与此同时,新版本的对话流畅度和智商情商,也有大幅提升。

比如,豆包上新的“灵魂歌手”和“百变大咖”等语音通话模式,比GPT-4o还抢先一步,实现了唱歌和角色扮演。

△豆包更新的语音通话模式。

豆包学会了唱歌,和角色扮演

豆包一个大变化,是把语音的角色扮演能力,拓展到了明星、书中和影视中的角色。这一功能,也体现在了豆包语音通话的“百变大咖”模式中。

比如当作者提出“模仿虞书欣的声音说话,并且说一段新年祝福”,豆包一句“哼,我才不要模仿她呢!我就是我,不一样的烟火”,就把“小作精”的劲儿还原出来了。

演示视频:https://pan.baidu.com/s/1i9DvF3o2wjq_jyGMuF_lgQ?pwd=yrn8

而且豆包的上下文记忆能力也相当不错。当我在同一段对话中尝试了宋丹丹、林黛玉、甄嬛等角色,再次要求豆包模仿虞书欣时,它立马委屈上了:“怎么又让我模仿她呀?”

演示视频:https://pan.baidu.com/s/1gmHHEkqcrwAfiY01uy8-Uw?pwd=3b7a

当下,市面上多数语音模型的歌曲创作,还需要用户输入较为专业的文字Prompt,或者需要先基于用户输入的文字音频,进行谱曲,无法在自然的语音交互中,做到“张口就来”。

豆包这次上线的“灵魂歌手”模式,就能让豆包在聊天中,随口把歌唱了。

比如让豆包唱一首节奏欢快的歌,它张口就来了一曲Taylor Swift的《Love Story》,不过缺点是把歌名说成了“Lose Control”,以及音准确实也有些“Lose Control”。

演示视频:https://pan.baidu.com/s/1vN4GpKdVtGEn4bYiV3uOkQ?pwd=kj8j

除此之外,歌曲创作能力,豆包也有了。比如和豆包说“给我唱一首歌,歌词里面要有‘年终奖多多’”,它立刻表演了一首。虽然歌词比较口水,但响应速度很是优秀。

演示视频:https://pan.baidu.com/s/1VZAL7F6h0cH6x8pDDB1muw?pwd=3seb

从角色演绎和唱歌的能力就能感受到,豆包的拟人能力、交互自然程度以及情绪表达水平,已经是next level。

比如让豆包讲个鬼故事,它能根据情节切换语气,非常有氛围感。

演示视频:https://pan.baidu.com/s/13g20MBVW1ydmtuL-dd3qSw?pwd=g3kb

这次豆包又上线了两种人格模式:“受气小包”和“夸夸大师”。

所谓的“受气小包”,官方说法是可以让豆包呈现委屈巴巴的状态。但我们聊下来的感受是,“受气小包”更准确的说法应该是“绿茶小包”。

演示视频:https://pan.baidu.com/s/1cixSfFb89KVC1wBKogGOyg?pwd=vcxr

不过难得的是,不管接受任何指令,“受气小包”都能维持“委屈”的人设。比如让“受气小包”阴阳怪气一些,最阴阳的版本,还是散发着茶香:

“哟,我可不敢呐,你可是主子,我不过是个任您使唤的小可怜,哪敢有什么别的想法呀!”

演示视频:https://pan.baidu.com/s/1y4JBcUIjOMQKozUeufvXCg?pwd=b746

相比于8月发布的出版语音通话功能,能明显感受到,豆包的情绪感知能力也更强了。通过一个“啊哈”,它就能感知到用户欢快的情绪。

演示视频:https://pan.baidu.com/s/1UKAra3EOhL0l_1OPFoRdAg?pwd=m1rb

当然,豆包的情绪表达上,也变得更像人。用“猜性别”来逗豆包,有一种和真实网友开玩笑的感觉。

演示视频:https://pan.baidu.com/s/1eTlUjDLENsnWGE2mEzSLEg?pwd=rusa

搞定语音交互,拟人赛道的入场券

2024年5月,自OpenAI旗下GPT-4o发布以来的很长一段时间里,市面上大多AI语音通话功能,采用的都是ASR(自动语音识别)+LLM(大语言模型)+TTS(文生音频)的级联方案。

比如初代豆包的语音通话功能,就集成了语音识别模型Seed-ASR、语音合成模型Seed-TTS,以及整合了RTC(实时音视频)技术,来实现对话情境下AI的实时交互。

但集成多个模型的级联方案,劣势在于AI的交互,很大程度上还不够像人一样自然。在“语音转文字再转语音” 的过程中,难免出现信息的损耗。

这也导致,传统的语音交互模式在落地场景上有一定的局限性。行业对于AI语音交互的落地,局限在教育、客服等高专业度、低拟人度的场景中。

不过,端到端方案正在逐渐成为主流。比如智谱在2024年10月发布的GLM-4-Voice,以及面壁智能在2025年1月15日发布的“端侧GPT-4o”MiniCPM-o 2.6,就采用了端到端的模型方案,在一个模型里同时完成视觉的理解,以及语音的理解和生成。

据《智能涌现》了解,这次豆包语音通话功能的更新,主要是由于底层模型技术,从原有多个多模态模型合作的级联方案,改成了直接从“理解语音到生成语音”的端到端方案,因此在降低延时、自然度、情感表达等方面,都有了明显的提升,并且还能输出歌曲。

而语音能力的提升,也会将AI落地的空间,从教培、客服等专业领域,扩展到情感陪伴、心理咨询、配音等更广阔的场景中。

尤其是AI情感陪伴、角色扮演领域,在当下已经展现出强大的吸金能力。

比如,最近一款主打AI偶像扮演的App“Lovey Dovey”,迅速冲上韩区iOS评分第一,深受追星族的追捧。“六小虎”MiniMax旗下的角色扮演应用Talkie,根据AI产品榜,截至2024年12月拥有2977万月活用户。

Lovey Dovey对话1

Lovey Dovey对话2

在语音层面对角色扮演、情绪感知和表达能力的提升,则是丰富AI与人交互形式、提升沉浸感的关键一环。情感交互能开拓的市场空间,也逼迫着技术朝着“拟人”的方向更近一步。

欢迎交流!

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
委内瑞拉的防空系统为什么不好使?

委内瑞拉的防空系统为什么不好使?

沉思的野兽
2026-01-03 21:06:55
美国全面接管委内瑞拉石油,连锁反应开始了

美国全面接管委内瑞拉石油,连锁反应开始了

贩财局
2026-01-04 08:43:54
司晓迪事件再升级!司晓迪爆合照、聊天记录,称鹿晗是最好的哥哥

司晓迪事件再升级!司晓迪爆合照、聊天记录,称鹿晗是最好的哥哥

娱乐圈笔娱君
2026-01-03 17:09:20
雷军直播,冲上热搜!网友:是真敢啊

雷军直播,冲上热搜!网友:是真敢啊

中国基金报
2026-01-04 00:01:01
鲁比奥一边喝酒过新年,一边知道马杜罗被抓,颇有运筹帷幄决胜千里之意

鲁比奥一边喝酒过新年,一边知道马杜罗被抓,颇有运筹帷幄决胜千里之意

回旋镖
2026-01-03 20:03:04
中俄先进武器为何失灵?委内瑞拉事件揭开现代战争核心逻辑

中俄先进武器为何失灵?委内瑞拉事件揭开现代战争核心逻辑

创作者_b3jm
2026-01-03 22:47:03
青岛女护士后续: 正脸曝光系惯犯,医院被牵连,卫健委: 已被停职

青岛女护士后续: 正脸曝光系惯犯,医院被牵连,卫健委: 已被停职

天天热点见闻
2026-01-04 06:03:32
三角洲高价值目标抓捕:直升机、特种车辆、战术,适配元首级目标

三角洲高价值目标抓捕:直升机、特种车辆、战术,适配元首级目标

形上谓道
2026-01-03 19:33:18
未来72小时至关重要:美国若掌控委内瑞拉将改写全球油价

未来72小时至关重要:美国若掌控委内瑞拉将改写全球油价

桂系007
2026-01-03 23:59:15
“半夜掳走一国总统,没有比这更猖狂的了”

“半夜掳走一国总统,没有比这更猖狂的了”

观察者网
2026-01-03 23:42:06
特朗普晒马杜罗囚照,军事专家集体沉默!纸上谈兵的预判,该醒了

特朗普晒马杜罗囚照,军事专家集体沉默!纸上谈兵的预判,该醒了

眼光很亮
2026-01-04 01:55:56
浓眉26+12独行侠终结火箭4连胜,弗拉格10+7+6杜兰特34+5+7

浓眉26+12独行侠终结火箭4连胜,弗拉格10+7+6杜兰特34+5+7

湖人崛起
2026-01-04 11:55:36
这么近那么美,冻死在河北!天然气年年涨价,普通百姓怎么御寒

这么近那么美,冻死在河北!天然气年年涨价,普通百姓怎么御寒

思愈飞
2026-01-03 18:17:00
特朗普公布马杜罗被捕后照片:戴手铐 双眼被黑布蒙住

特朗普公布马杜罗被捕后照片:戴手铐 双眼被黑布蒙住

界面新闻
2026-01-04 06:55:01
前瞻|韩总统李在明新年首访中国,外界期待“与尹锡悦不同”

前瞻|韩总统李在明新年首访中国,外界期待“与尹锡悦不同”

澎湃新闻
2026-01-04 07:32:26
中国财政供养人员达6846万?结构失衡才是财政压力的核心

中国财政供养人员达6846万?结构失衡才是财政压力的核心

流苏晚晴
2025-12-04 19:27:08
香港取消免费医疗?每人最高负担1万港币,多项民生收费同步上涨

香港取消免费医疗?每人最高负担1万港币,多项民生收费同步上涨

诗意世界
2026-01-04 09:00:03
“1300公里只充一次电”、“200公里瞬间刹停”……雷军回应一切

“1300公里只充一次电”、“200公里瞬间刹停”……雷军回应一切

三言科技
2026-01-03 23:10:07
三亚不香了?东北人撤离成潮,压垮他们的不是物价,而是生活现实

三亚不香了?东北人撤离成潮,压垮他们的不是物价,而是生活现实

青眼财经
2026-01-02 23:58:07
一张图理清:美国抓捕委内瑞拉总统马杜罗始末

一张图理清:美国抓捕委内瑞拉总统马杜罗始末

看看新闻Knews
2026-01-04 07:37:02
2026-01-04 12:43:00
36氪 incentive-icons
36氪
让一部分人先看到未来
150333文章数 2847630关注度
往期回顾 全部

科技要闻

雷军:骂小米汽车有流量,但别故意抹黑

头条要闻

男子在村口画"天安门"墙绘爆火:因英语5考央美均落榜

头条要闻

男子在村口画"天安门"墙绘爆火:因英语5考央美均落榜

体育要闻

离开中超后,他成了足坛“倒钩之王”

娱乐要闻

谢玲玲为101岁林老太庆生,四代同堂

财经要闻

委内瑞拉华商亲历:顾客排队买生活物资

汽车要闻

最高续航310km 岚图泰山8或将上半年发布

态度原创

教育
旅游
时尚
数码
房产

教育要闻

90%的父母会误解孩子的行为!3步教你从孩子的视角看问题

旅游要闻

个性化旅游带火中国服务业消费

伊姐元旦热推:电视剧《剥茧》;电视剧《玉茗茶骨》......

数码要闻

华擎带来SL-P白金ATX电源:全日系电容,Cybenetics A静音

房产要闻

单盘最高狂卖64亿!海南楼市2025年最全榜单发布!

无障碍浏览 进入关怀版