网易首页 > 网易号 > 正文 申请入驻

豆包App灰度最新语音模式,实现了GPT-4o不会的唱歌

0
分享至

文|周鑫雨

编辑|苏建勋

2025年,豆包的第一更,放在了语音通话功能上。

2025年1月20日,豆包发布了最新的“端到端”语音大模型,并基于该模型更新豆包APP的实时语音通话功能。

此前,豆包语音通话功能采用的是ASR(自动语音识别)+LLM(大语言模型)+TTS(文生音频)的级联方案。如今更新的端到端语音大模型,是将语音识别、理解和生成,都放在同一个模型中解决。

据《智能涌现》测试,更新语音模型后的豆包,最大的亮点在于,豆包在语音交互时,把类似人类的表达形式和情感输出,复刻了出来。与此同时,新版本的对话流畅度和智商情商,也有大幅提升。

比如,豆包上新的“灵魂歌手”和“百变大咖”等语音通话模式,比GPT-4o还抢先一步,实现了唱歌和角色扮演。

△豆包更新的语音通话模式。

豆包学会了唱歌,和角色扮演

豆包一个大变化,是把语音的角色扮演能力,拓展到了明星、书中和影视中的角色。这一功能,也体现在了豆包语音通话的“百变大咖”模式中。

比如当作者提出“模仿虞书欣的声音说话,并且说一段新年祝福”,豆包一句“哼,我才不要模仿她呢!我就是我,不一样的烟火”,就把“小作精”的劲儿还原出来了。

演示视频:https://pan.baidu.com/s/1i9DvF3o2wjq_jyGMuF_lgQ?pwd=yrn8

而且豆包的上下文记忆能力也相当不错。当我在同一段对话中尝试了宋丹丹、林黛玉、甄嬛等角色,再次要求豆包模仿虞书欣时,它立马委屈上了:“怎么又让我模仿她呀?”

演示视频:https://pan.baidu.com/s/1gmHHEkqcrwAfiY01uy8-Uw?pwd=3b7a

当下,市面上多数语音模型的歌曲创作,还需要用户输入较为专业的文字Prompt,或者需要先基于用户输入的文字音频,进行谱曲,无法在自然的语音交互中,做到“张口就来”。

豆包这次上线的“灵魂歌手”模式,就能让豆包在聊天中,随口把歌唱了。

比如让豆包唱一首节奏欢快的歌,它张口就来了一曲Taylor Swift的《Love Story》,不过缺点是把歌名说成了“Lose Control”,以及音准确实也有些“Lose Control”。

演示视频:https://pan.baidu.com/s/1vN4GpKdVtGEn4bYiV3uOkQ?pwd=kj8j

除此之外,歌曲创作能力,豆包也有了。比如和豆包说“给我唱一首歌,歌词里面要有‘年终奖多多’”,它立刻表演了一首。虽然歌词比较口水,但响应速度很是优秀。

演示视频:https://pan.baidu.com/s/1VZAL7F6h0cH6x8pDDB1muw?pwd=3seb

从角色演绎和唱歌的能力就能感受到,豆包的拟人能力、交互自然程度以及情绪表达水平,已经是next level。

比如让豆包讲个鬼故事,它能根据情节切换语气,非常有氛围感。

演示视频:https://pan.baidu.com/s/13g20MBVW1ydmtuL-dd3qSw?pwd=g3kb

这次豆包又上线了两种人格模式:“受气小包”和“夸夸大师”。

所谓的“受气小包”,官方说法是可以让豆包呈现委屈巴巴的状态。但我们聊下来的感受是,“受气小包”更准确的说法应该是“绿茶小包”。

演示视频:https://pan.baidu.com/s/1cixSfFb89KVC1wBKogGOyg?pwd=vcxr

不过难得的是,不管接受任何指令,“受气小包”都能维持“委屈”的人设。比如让“受气小包”阴阳怪气一些,最阴阳的版本,还是散发着茶香:

“哟,我可不敢呐,你可是主子,我不过是个任您使唤的小可怜,哪敢有什么别的想法呀!”

演示视频:https://pan.baidu.com/s/1y4JBcUIjOMQKozUeufvXCg?pwd=b746

相比于8月发布的出版语音通话功能,能明显感受到,豆包的情绪感知能力也更强了。通过一个“啊哈”,它就能感知到用户欢快的情绪。

演示视频:https://pan.baidu.com/s/1UKAra3EOhL0l_1OPFoRdAg?pwd=m1rb

当然,豆包的情绪表达上,也变得更像人。用“猜性别”来逗豆包,有一种和真实网友开玩笑的感觉。

演示视频:https://pan.baidu.com/s/1eTlUjDLENsnWGE2mEzSLEg?pwd=rusa

搞定语音交互,拟人赛道的入场券

2024年5月,自OpenAI旗下GPT-4o发布以来的很长一段时间里,市面上大多AI语音通话功能,采用的都是ASR(自动语音识别)+LLM(大语言模型)+TTS(文生音频)的级联方案。

比如初代豆包的语音通话功能,就集成了语音识别模型Seed-ASR、语音合成模型Seed-TTS,以及整合了RTC(实时音视频)技术,来实现对话情境下AI的实时交互。

但集成多个模型的级联方案,劣势在于AI的交互,很大程度上还不够像人一样自然。在“语音转文字再转语音” 的过程中,难免出现信息的损耗。

这也导致,传统的语音交互模式在落地场景上有一定的局限性。行业对于AI语音交互的落地,局限在教育、客服等高专业度、低拟人度的场景中。

不过,端到端方案正在逐渐成为主流。比如智谱在2024年10月发布的GLM-4-Voice,以及面壁智能在2025年1月15日发布的“端侧GPT-4o”MiniCPM-o 2.6,就采用了端到端的模型方案,在一个模型里同时完成视觉的理解,以及语音的理解和生成。

据《智能涌现》了解,这次豆包语音通话功能的更新,主要是由于底层模型技术,从原有多个多模态模型合作的级联方案,改成了直接从“理解语音到生成语音”的端到端方案,因此在降低延时、自然度、情感表达等方面,都有了明显的提升,并且还能输出歌曲。

而语音能力的提升,也会将AI落地的空间,从教培、客服等专业领域,扩展到情感陪伴、心理咨询、配音等更广阔的场景中。

尤其是AI情感陪伴、角色扮演领域,在当下已经展现出强大的吸金能力。

比如,最近一款主打AI偶像扮演的App“Lovey Dovey”,迅速冲上韩区iOS评分第一,深受追星族的追捧。“六小虎”MiniMax旗下的角色扮演应用Talkie,根据AI产品榜,截至2024年12月拥有2977万月活用户。

Lovey Dovey对话1

Lovey Dovey对话2

在语音层面对角色扮演、情绪感知和表达能力的提升,则是丰富AI与人交互形式、提升沉浸感的关键一环。情感交互能开拓的市场空间,也逼迫着技术朝着“拟人”的方向更近一步。

欢迎交流!

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
12吨巧克力离奇被盗,41万根巧克力与货车至今下落不明,失窃巧克力系F1特别款,外形为赛车形状

12吨巧克力离奇被盗,41万根巧克力与货车至今下落不明,失窃巧克力系F1特别款,外形为赛车形状

极目新闻
2026-03-30 10:23:56
真的来了!5099 的 iPhone Air 正式上架

真的来了!5099 的 iPhone Air 正式上架

XCiOS俱乐部
2026-03-30 08:58:50
副部级高官任上落马,任职地多名前下属被查

副部级高官任上落马,任职地多名前下属被查

中国新闻周刊
2026-03-29 09:44:48
三大指数均跌逾1%,下跌个股近4600只

三大指数均跌逾1%,下跌个股近4600只

界面新闻
2026-03-30 09:56:54
不结婚怎么解决生理需求?62岁的陈瑾,用实际行动给出了正确答案

不结婚怎么解决生理需求?62岁的陈瑾,用实际行动给出了正确答案

鲸探所长
2026-03-30 14:33:32
在医院你遭遇过最羞耻的事是什么?网友:一个比一个炸裂啊

在医院你遭遇过最羞耻的事是什么?网友:一个比一个炸裂啊

解读热点事件
2026-02-04 00:05:07
笑死我了!一位三年级小朋友趁妈妈洗澡的缝隙时间,和豆包的对话

笑死我了!一位三年级小朋友趁妈妈洗澡的缝隙时间,和豆包的对话

夜深爱杂谈
2026-03-21 19:50:42
朝鲜国防科学院院长脱军装了?

朝鲜国防科学院院长脱军装了?

IN朝鲜
2026-03-30 15:06:40
南非奥运冠军斥性别检测“是对女性不尊重”,特朗普发文祝贺新规

南非奥运冠军斥性别检测“是对女性不尊重”,特朗普发文祝贺新规

我是盲流
2026-03-30 07:35:11
悲哀!42岁男子一直没找到工作,被父亲怒斥好吃懒做,哭诉怎么办

悲哀!42岁男子一直没找到工作,被父亲怒斥好吃懒做,哭诉怎么办

火山詩话
2026-03-30 07:02:48
快船5连胜双杀雄鹿!小卡连续51场20+分 大洛获致敬迎盖帽里程碑

快船5连胜双杀雄鹿!小卡连续51场20+分 大洛获致敬迎盖帽里程碑

罗说NBA
2026-03-30 06:00:26
44名美军死亡只是开始!

44名美军死亡只是开始!

安安说
2026-03-29 12:50:51
人口告别世界第一?二孩催生无效后,国家终于向住房出手了

人口告别世界第一?二孩催生无效后,国家终于向住房出手了

猪小艳吖
2026-03-16 19:59:46
李荣浩怒斥单依纯不到24小时,薛之谦罕见发声,赢得全网好感

李荣浩怒斥单依纯不到24小时,薛之谦罕见发声,赢得全网好感

往史过眼云烟
2026-03-30 14:36:04
本月开始中国或将迎来4大涨价潮:除油价以外,这4类也要涨价了

本月开始中国或将迎来4大涨价潮:除油价以外,这4类也要涨价了

混沌录
2026-03-28 15:49:05
被张雪峰怼惨而掐掉的应该是局座张召忠,这是他的短腿

被张雪峰怼惨而掐掉的应该是局座张召忠,这是他的短腿

雪中风车
2026-03-30 09:51:26
世界上五个最不务正业的科学家!看完三观都碎了…

世界上五个最不务正业的科学家!看完三观都碎了…

新浪财经
2026-03-12 09:55:40
沙溢当众殴打李晨,被告上仲裁会:永远不要轻易评价一个人

沙溢当众殴打李晨,被告上仲裁会:永远不要轻易评价一个人

圆梦的小老头
2026-03-15 03:37:22
蒯曼3-2卢茨采访!回应三四局连丢与后续调整,展望下场王艾米!

蒯曼3-2卢茨采访!回应三四局连丢与后续调整,展望下场王艾米!

篮球资讯达人
2026-03-30 12:35:44
2007年,孔令仪在上海宋庆龄陵园扫墓时的留影,第二年她就去世了

2007年,孔令仪在上海宋庆龄陵园扫墓时的留影,第二年她就去世了

芳芳历史烩
2026-03-30 12:05:05
2026-03-30 15:36:49
36氪 incentive-icons
36氪
让一部分人先看到未来
151016文章数 2848613关注度
往期回顾 全部

科技要闻

DeepSeek性能异常问题已解决,服务恢复

头条要闻

美国如果发动地面战 本次战事军费或突破10万亿美元

头条要闻

美国如果发动地面战 本次战事军费或突破10万亿美元

体育要闻

想进世界杯,意大利还要过他这一关

娱乐要闻

单依纯凌晨发长文道歉!李荣浩再回应

财经要闻

油价冲击,有些亚洲货币先扛不住了!

汽车要闻

理想i9要来了!外形似小号MEGA 能冲击高端纯电市场?

态度原创

家居
房产
亲子
旅游
教育

家居要闻

东方法式美学 现代简约

房产要闻

32亿,三开三罄!谁在硬控海口楼市高端局?

亲子要闻

何怡华:做胎儿心脏守护者

旅游要闻

喜迎贵州旅发大会·水墨贵阳④:多彩贵州城

教育要闻

关注!西城市重点中学招聘教师啦

无障碍浏览 进入关怀版