网易首页 > 网易号 > 正文 申请入驻

豆包App灰度最新语音模式,实现了GPT-4o不会的唱歌

0
分享至

文|周鑫雨

编辑|苏建勋

2025年,豆包的第一更,放在了语音通话功能上。

2025年1月20日,豆包发布了最新的“端到端”语音大模型,并基于该模型更新豆包APP的实时语音通话功能。

此前,豆包语音通话功能采用的是ASR(自动语音识别)+LLM(大语言模型)+TTS(文生音频)的级联方案。如今更新的端到端语音大模型,是将语音识别、理解和生成,都放在同一个模型中解决。

据《智能涌现》测试,更新语音模型后的豆包,最大的亮点在于,豆包在语音交互时,把类似人类的表达形式和情感输出,复刻了出来。与此同时,新版本的对话流畅度和智商情商,也有大幅提升。

比如,豆包上新的“灵魂歌手”和“百变大咖”等语音通话模式,比GPT-4o还抢先一步,实现了唱歌和角色扮演。

△豆包更新的语音通话模式。

豆包学会了唱歌,和角色扮演

豆包一个大变化,是把语音的角色扮演能力,拓展到了明星、书中和影视中的角色。这一功能,也体现在了豆包语音通话的“百变大咖”模式中。

比如当作者提出“模仿虞书欣的声音说话,并且说一段新年祝福”,豆包一句“哼,我才不要模仿她呢!我就是我,不一样的烟火”,就把“小作精”的劲儿还原出来了。

演示视频:https://pan.baidu.com/s/1i9DvF3o2wjq_jyGMuF_lgQ?pwd=yrn8

而且豆包的上下文记忆能力也相当不错。当我在同一段对话中尝试了宋丹丹、林黛玉、甄嬛等角色,再次要求豆包模仿虞书欣时,它立马委屈上了:“怎么又让我模仿她呀?”

演示视频:https://pan.baidu.com/s/1gmHHEkqcrwAfiY01uy8-Uw?pwd=3b7a

当下,市面上多数语音模型的歌曲创作,还需要用户输入较为专业的文字Prompt,或者需要先基于用户输入的文字音频,进行谱曲,无法在自然的语音交互中,做到“张口就来”。

豆包这次上线的“灵魂歌手”模式,就能让豆包在聊天中,随口把歌唱了。

比如让豆包唱一首节奏欢快的歌,它张口就来了一曲Taylor Swift的《Love Story》,不过缺点是把歌名说成了“Lose Control”,以及音准确实也有些“Lose Control”。

演示视频:https://pan.baidu.com/s/1vN4GpKdVtGEn4bYiV3uOkQ?pwd=kj8j

除此之外,歌曲创作能力,豆包也有了。比如和豆包说“给我唱一首歌,歌词里面要有‘年终奖多多’”,它立刻表演了一首。虽然歌词比较口水,但响应速度很是优秀。

演示视频:https://pan.baidu.com/s/1VZAL7F6h0cH6x8pDDB1muw?pwd=3seb

从角色演绎和唱歌的能力就能感受到,豆包的拟人能力、交互自然程度以及情绪表达水平,已经是next level。

比如让豆包讲个鬼故事,它能根据情节切换语气,非常有氛围感。

演示视频:https://pan.baidu.com/s/13g20MBVW1ydmtuL-dd3qSw?pwd=g3kb

这次豆包又上线了两种人格模式:“受气小包”和“夸夸大师”。

所谓的“受气小包”,官方说法是可以让豆包呈现委屈巴巴的状态。但我们聊下来的感受是,“受气小包”更准确的说法应该是“绿茶小包”。

演示视频:https://pan.baidu.com/s/1cixSfFb89KVC1wBKogGOyg?pwd=vcxr

不过难得的是,不管接受任何指令,“受气小包”都能维持“委屈”的人设。比如让“受气小包”阴阳怪气一些,最阴阳的版本,还是散发着茶香:

“哟,我可不敢呐,你可是主子,我不过是个任您使唤的小可怜,哪敢有什么别的想法呀!”

演示视频:https://pan.baidu.com/s/1y4JBcUIjOMQKozUeufvXCg?pwd=b746

相比于8月发布的出版语音通话功能,能明显感受到,豆包的情绪感知能力也更强了。通过一个“啊哈”,它就能感知到用户欢快的情绪。

演示视频:https://pan.baidu.com/s/1UKAra3EOhL0l_1OPFoRdAg?pwd=m1rb

当然,豆包的情绪表达上,也变得更像人。用“猜性别”来逗豆包,有一种和真实网友开玩笑的感觉。

演示视频:https://pan.baidu.com/s/1eTlUjDLENsnWGE2mEzSLEg?pwd=rusa

搞定语音交互,拟人赛道的入场券

2024年5月,自OpenAI旗下GPT-4o发布以来的很长一段时间里,市面上大多AI语音通话功能,采用的都是ASR(自动语音识别)+LLM(大语言模型)+TTS(文生音频)的级联方案。

比如初代豆包的语音通话功能,就集成了语音识别模型Seed-ASR、语音合成模型Seed-TTS,以及整合了RTC(实时音视频)技术,来实现对话情境下AI的实时交互。

但集成多个模型的级联方案,劣势在于AI的交互,很大程度上还不够像人一样自然。在“语音转文字再转语音” 的过程中,难免出现信息的损耗。

这也导致,传统的语音交互模式在落地场景上有一定的局限性。行业对于AI语音交互的落地,局限在教育、客服等高专业度、低拟人度的场景中。

不过,端到端方案正在逐渐成为主流。比如智谱在2024年10月发布的GLM-4-Voice,以及面壁智能在2025年1月15日发布的“端侧GPT-4o”MiniCPM-o 2.6,就采用了端到端的模型方案,在一个模型里同时完成视觉的理解,以及语音的理解和生成。

据《智能涌现》了解,这次豆包语音通话功能的更新,主要是由于底层模型技术,从原有多个多模态模型合作的级联方案,改成了直接从“理解语音到生成语音”的端到端方案,因此在降低延时、自然度、情感表达等方面,都有了明显的提升,并且还能输出歌曲。

而语音能力的提升,也会将AI落地的空间,从教培、客服等专业领域,扩展到情感陪伴、心理咨询、配音等更广阔的场景中。

尤其是AI情感陪伴、角色扮演领域,在当下已经展现出强大的吸金能力。

比如,最近一款主打AI偶像扮演的App“Lovey Dovey”,迅速冲上韩区iOS评分第一,深受追星族的追捧。“六小虎”MiniMax旗下的角色扮演应用Talkie,根据AI产品榜,截至2024年12月拥有2977万月活用户。

Lovey Dovey对话1

Lovey Dovey对话2

在语音层面对角色扮演、情绪感知和表达能力的提升,则是丰富AI与人交互形式、提升沉浸感的关键一环。情感交互能开拓的市场空间,也逼迫着技术朝着“拟人”的方向更近一步。

欢迎交流!

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
伊朗局势变天进入倒计时....

伊朗局势变天进入倒计时....

战争研究所
2026-01-08 00:04:30
海信发布136英寸巨型MicroLED电视:2488万颗LED灯 亮度可达10000尼特

海信发布136英寸巨型MicroLED电视:2488万颗LED灯 亮度可达10000尼特

快科技
2026-01-06 10:10:07
特朗普,突袭!刚刚,集体大跳水!

特朗普,突袭!刚刚,集体大跳水!

券商中国
2026-01-08 07:19:48
婚外情睡过之后,基本就废了

婚外情睡过之后,基本就废了

加油丁小文
2025-11-23 07:00:06
李昊读秒神扑!U23国足首次零封,媒体人:去国足和邵佳一会合

李昊读秒神扑!U23国足首次零封,媒体人:去国足和邵佳一会合

奥拜尔
2026-01-09 00:03:27
凌晨打车22公里收98元?乘客拒付耗到天亮,的哥委屈:是政府定价

凌晨打车22公里收98元?乘客拒付耗到天亮,的哥委屈:是政府定价

奇思妙想草叶君
2026-01-07 22:36:16
朴槿惠出狱生活:住1676平别墅,与小10岁律师为伴,如今生活安逸

朴槿惠出狱生活:住1676平别墅,与小10岁律师为伴,如今生活安逸

顾史
2026-01-07 20:10:11
香烟热度榜!烟民贡献万亿税收,年度销冠竟是这个品牌…

香烟热度榜!烟民贡献万亿税收,年度销冠竟是这个品牌…

慧翔百科
2025-12-24 09:14:14
首届柬埔寨精酿啤酒节将于1月31日举行

首届柬埔寨精酿啤酒节将于1月31日举行

啤酒日报
2026-01-07 18:48:30
闫学晶事件再升级!官媒下场发文锐评,言辞犀利,句句直戳她心窝

闫学晶事件再升级!官媒下场发文锐评,言辞犀利,句句直戳她心窝

揽星河的笔记
2026-01-07 16:04:46
赖清德准备抓人,郑丽文也有危险?大陆出手,对台独打手终身追责

赖清德准备抓人,郑丽文也有危险?大陆出手,对台独打手终身追责

触摸史迹
2026-01-07 13:55:48
迟到的父爱也是爱,成龙向女儿抛橄榄枝,吴卓林回应已回香港创业

迟到的父爱也是爱,成龙向女儿抛橄榄枝,吴卓林回应已回香港创业

青史楼兰
2026-01-07 09:35:21
高富帅吐槽哈登:他只要刷得分就行!我却干脏活累活!

高富帅吐槽哈登:他只要刷得分就行!我却干脏活累活!

氧气是个地铁
2026-01-08 11:09:03
女人染上“性瘾”是一种怎样的体验?可能和你想象得不同

女人染上“性瘾”是一种怎样的体验?可能和你想象得不同

纸上的心语
2025-11-23 11:36:00
中方下“逐客令”,直言:一粒大米也不要,直接叫停900万吨订单

中方下“逐客令”,直言:一粒大米也不要,直接叫停900万吨订单

爱吃醋的猫咪
2025-12-27 16:24:13
300986,连续4个“20cm”涨停!氢能产业拐点将至,机构密集关注这些高增长股

300986,连续4个“20cm”涨停!氢能产业拐点将至,机构密集关注这些高增长股

数据宝
2026-01-08 12:20:23
慈禧太后一天的生活开销,放在今天,大概需要多少人民币维持?

慈禧太后一天的生活开销,放在今天,大概需要多少人民币维持?

铭记历史呀
2026-01-08 08:42:11
以为离婚了,他俩居然悄悄二胎了!网友:内娱找不出第二对

以为离婚了,他俩居然悄悄二胎了!网友:内娱找不出第二对

错过美好
2026-01-08 12:09:26
U23国足vs伊拉克首发身价对比:伊拉克138万欧,王钰栋身价超对手全队

U23国足vs伊拉克首发身价对比:伊拉克138万欧,王钰栋身价超对手全队

懂球帝
2026-01-08 21:48:24
2025年,内娱最赚钱的10位明星,刘德华第四,第一名让人意外

2025年,内娱最赚钱的10位明星,刘德华第四,第一名让人意外

林雁飞
2026-01-06 13:15:06
2026-01-09 01:40:49
36氪 incentive-icons
36氪
让一部分人先看到未来
150372文章数 2847685关注度
往期回顾 全部

科技要闻

智谱拿下“全球大模型第一股”,凭什么

头条要闻

采用俄罗斯的防空系统 委内瑞拉防空体系因何失效

头条要闻

采用俄罗斯的防空系统 委内瑞拉防空体系因何失效

体育要闻

世乒赛银牌得主,说自己梦里都是孙颖莎

娱乐要闻

抗战剧《马背摇篮》首播,获观众好评

财经要闻

微软CTO韦青:未来人类会花钱"戒手机"

汽车要闻

从量变到"智"变 吉利在CES打出了五张牌

态度原创

艺术
手机
数码
公开课
军事航空

艺术要闻

震撼!阿森西奥的人体绘画揭示情感的深渊!

手机要闻

1699一加Turbo6首发测评丨 9000mAh 大电池165超高帧

数码要闻

CES 2026 | TCL实业携全球首创SQD-Mini LED显示技术亮相

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

特朗普提出将美国军费提升至1.5万亿美元

无障碍浏览 进入关怀版