网易首页 > 网易号 > 正文 申请入驻

豆包App灰度最新语音模式,实现了GPT-4o不会的唱歌

0
分享至

文|周鑫雨

编辑|苏建勋

2025年,豆包的第一更,放在了语音通话功能上。

2025年1月20日,豆包发布了最新的“端到端”语音大模型,并基于该模型更新豆包APP的实时语音通话功能。

此前,豆包语音通话功能采用的是ASR(自动语音识别)+LLM(大语言模型)+TTS(文生音频)的级联方案。如今更新的端到端语音大模型,是将语音识别、理解和生成,都放在同一个模型中解决。

据《智能涌现》测试,更新语音模型后的豆包,最大的亮点在于,豆包在语音交互时,把类似人类的表达形式和情感输出,复刻了出来。与此同时,新版本的对话流畅度和智商情商,也有大幅提升。

比如,豆包上新的“灵魂歌手”和“百变大咖”等语音通话模式,比GPT-4o还抢先一步,实现了唱歌和角色扮演。

△豆包更新的语音通话模式。

豆包学会了唱歌,和角色扮演

豆包一个大变化,是把语音的角色扮演能力,拓展到了明星、书中和影视中的角色。这一功能,也体现在了豆包语音通话的“百变大咖”模式中。

比如当作者提出“模仿虞书欣的声音说话,并且说一段新年祝福”,豆包一句“哼,我才不要模仿她呢!我就是我,不一样的烟火”,就把“小作精”的劲儿还原出来了。

演示视频:https://pan.baidu.com/s/1i9DvF3o2wjq_jyGMuF_lgQ?pwd=yrn8

而且豆包的上下文记忆能力也相当不错。当我在同一段对话中尝试了宋丹丹、林黛玉、甄嬛等角色,再次要求豆包模仿虞书欣时,它立马委屈上了:“怎么又让我模仿她呀?”

演示视频:https://pan.baidu.com/s/1gmHHEkqcrwAfiY01uy8-Uw?pwd=3b7a

当下,市面上多数语音模型的歌曲创作,还需要用户输入较为专业的文字Prompt,或者需要先基于用户输入的文字音频,进行谱曲,无法在自然的语音交互中,做到“张口就来”。

豆包这次上线的“灵魂歌手”模式,就能让豆包在聊天中,随口把歌唱了。

比如让豆包唱一首节奏欢快的歌,它张口就来了一曲Taylor Swift的《Love Story》,不过缺点是把歌名说成了“Lose Control”,以及音准确实也有些“Lose Control”。

演示视频:https://pan.baidu.com/s/1vN4GpKdVtGEn4bYiV3uOkQ?pwd=kj8j

除此之外,歌曲创作能力,豆包也有了。比如和豆包说“给我唱一首歌,歌词里面要有‘年终奖多多’”,它立刻表演了一首。虽然歌词比较口水,但响应速度很是优秀。

演示视频:https://pan.baidu.com/s/1VZAL7F6h0cH6x8pDDB1muw?pwd=3seb

从角色演绎和唱歌的能力就能感受到,豆包的拟人能力、交互自然程度以及情绪表达水平,已经是next level。

比如让豆包讲个鬼故事,它能根据情节切换语气,非常有氛围感。

演示视频:https://pan.baidu.com/s/13g20MBVW1ydmtuL-dd3qSw?pwd=g3kb

这次豆包又上线了两种人格模式:“受气小包”和“夸夸大师”。

所谓的“受气小包”,官方说法是可以让豆包呈现委屈巴巴的状态。但我们聊下来的感受是,“受气小包”更准确的说法应该是“绿茶小包”。

演示视频:https://pan.baidu.com/s/1cixSfFb89KVC1wBKogGOyg?pwd=vcxr

不过难得的是,不管接受任何指令,“受气小包”都能维持“委屈”的人设。比如让“受气小包”阴阳怪气一些,最阴阳的版本,还是散发着茶香:

“哟,我可不敢呐,你可是主子,我不过是个任您使唤的小可怜,哪敢有什么别的想法呀!”

演示视频:https://pan.baidu.com/s/1y4JBcUIjOMQKozUeufvXCg?pwd=b746

相比于8月发布的出版语音通话功能,能明显感受到,豆包的情绪感知能力也更强了。通过一个“啊哈”,它就能感知到用户欢快的情绪。

演示视频:https://pan.baidu.com/s/1UKAra3EOhL0l_1OPFoRdAg?pwd=m1rb

当然,豆包的情绪表达上,也变得更像人。用“猜性别”来逗豆包,有一种和真实网友开玩笑的感觉。

演示视频:https://pan.baidu.com/s/1eTlUjDLENsnWGE2mEzSLEg?pwd=rusa

搞定语音交互,拟人赛道的入场券

2024年5月,自OpenAI旗下GPT-4o发布以来的很长一段时间里,市面上大多AI语音通话功能,采用的都是ASR(自动语音识别)+LLM(大语言模型)+TTS(文生音频)的级联方案。

比如初代豆包的语音通话功能,就集成了语音识别模型Seed-ASR、语音合成模型Seed-TTS,以及整合了RTC(实时音视频)技术,来实现对话情境下AI的实时交互。

但集成多个模型的级联方案,劣势在于AI的交互,很大程度上还不够像人一样自然。在“语音转文字再转语音” 的过程中,难免出现信息的损耗。

这也导致,传统的语音交互模式在落地场景上有一定的局限性。行业对于AI语音交互的落地,局限在教育、客服等高专业度、低拟人度的场景中。

不过,端到端方案正在逐渐成为主流。比如智谱在2024年10月发布的GLM-4-Voice,以及面壁智能在2025年1月15日发布的“端侧GPT-4o”MiniCPM-o 2.6,就采用了端到端的模型方案,在一个模型里同时完成视觉的理解,以及语音的理解和生成。

据《智能涌现》了解,这次豆包语音通话功能的更新,主要是由于底层模型技术,从原有多个多模态模型合作的级联方案,改成了直接从“理解语音到生成语音”的端到端方案,因此在降低延时、自然度、情感表达等方面,都有了明显的提升,并且还能输出歌曲。

而语音能力的提升,也会将AI落地的空间,从教培、客服等专业领域,扩展到情感陪伴、心理咨询、配音等更广阔的场景中。

尤其是AI情感陪伴、角色扮演领域,在当下已经展现出强大的吸金能力。

比如,最近一款主打AI偶像扮演的App“Lovey Dovey”,迅速冲上韩区iOS评分第一,深受追星族的追捧。“六小虎”MiniMax旗下的角色扮演应用Talkie,根据AI产品榜,截至2024年12月拥有2977万月活用户。

Lovey Dovey对话1

Lovey Dovey对话2

在语音层面对角色扮演、情绪感知和表达能力的提升,则是丰富AI与人交互形式、提升沉浸感的关键一环。情感交互能开拓的市场空间,也逼迫着技术朝着“拟人”的方向更近一步。

欢迎交流!

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
医生提醒:若长期一天只吃两顿饭,用不了半年,或患上这4种疾病

医生提醒:若长期一天只吃两顿饭,用不了半年,或患上这4种疾病

39健康网
2026-04-09 20:21:08
为什么没人联合打以色列,答案很简单:不是没人想打,是没人敢打

为什么没人联合打以色列,答案很简单:不是没人想打,是没人敢打

混沌录
2026-04-07 17:48:09
拿命夺冠仅赚九万,张雪与法国弃将凭啥打脸传统车企

拿命夺冠仅赚九万,张雪与法国弃将凭啥打脸传统车企

阿器谈史
2026-04-10 17:23:10
“赵一鸣”被指918间谍:爱国不是“降智”的挡箭牌

“赵一鸣”被指918间谍:爱国不是“降智”的挡箭牌

虔青
2026-04-10 13:53:06
让全红婵卸下防备的人,不是陈若琳,不是爸妈,是第一次见的她

让全红婵卸下防备的人,不是陈若琳,不是爸妈,是第一次见的她

童叔不飙车
2026-04-10 19:24:50
现在朝鲜的女人们也穿上黑丝袜了,很美

现在朝鲜的女人们也穿上黑丝袜了,很美

微微热评
2026-04-10 13:07:53
白宫发言人:美方不接受伊朗10项停战条款,特朗普直接把条款扔进了垃圾桶

白宫发言人:美方不接受伊朗10项停战条款,特朗普直接把条款扔进了垃圾桶

极目新闻
2026-04-09 15:12:43
人民币汇率疯了,还会继续?

人民币汇率疯了,还会继续?

拾榴询财
2026-04-10 13:12:21
卡位战大胜吉林33分!没想到赛后杜锋这样说,难得盛赞一优点

卡位战大胜吉林33分!没想到赛后杜锋这样说,难得盛赞一优点

奇迹行者在刷野
2026-04-11 04:00:34
涉嫌严重违纪违法,江苏2名干部被查

涉嫌严重违纪违法,江苏2名干部被查

东南西北侃
2026-04-09 18:28:30
冯唐 9 年前火遍全网的文章,成年人应该每年都读一遍

冯唐 9 年前火遍全网的文章,成年人应该每年都读一遍

互联网思维
2026-04-09 23:49:40
金价要重现历史了,要有心理准备,月初金价可能将重现2015年历史

金价要重现历史了,要有心理准备,月初金价可能将重现2015年历史

南宗历史
2026-04-06 20:53:06
“穷养女真可怜”,买10分钟商务坐拍了9分钟,鞋子让人无语

“穷养女真可怜”,买10分钟商务坐拍了9分钟,鞋子让人无语

蝴蝶花雨话教育
2026-04-10 12:52:50
陈紫函傲人胸围,这“奶白肌”身材是完美无缺?

陈紫函傲人胸围,这“奶白肌”身材是完美无缺?

娱乐领航家
2026-03-12 19:30:08
以色列宣布:不停火,将继续在黎作战,伊朗已虚弱,真主党已被孤立!特朗普最新表态,伊朗发声!内塔尼亚胡腐败案将恢复审理

以色列宣布:不停火,将继续在黎作战,伊朗已虚弱,真主党已被孤立!特朗普最新表态,伊朗发声!内塔尼亚胡腐败案将恢复审理

每日经济新闻
2026-04-10 20:48:29
俄军败退基辅四周年!莫斯科竟还让乌克兰主动撤出顿巴斯

俄军败退基辅四周年!莫斯科竟还让乌克兰主动撤出顿巴斯

项鹏飞
2026-04-02 20:36:35
中美俄雷达差距太大!俄预警6000公里,美5500公里,中国令人意外

中美俄雷达差距太大!俄预警6000公里,美5500公里,中国令人意外

阿器谈史
2026-04-02 15:36:40
细思极恐!美国30年前不打中国,不是仁慈,是算错了一笔致命大账

细思极恐!美国30年前不打中国,不是仁慈,是算错了一笔致命大账

贱议你读史
2026-04-08 00:31:32
“狡黠”不读jiǎo jié!也不读jiǎo xié,别再错,丢不起那人!

“狡黠”不读jiǎo jié!也不读jiǎo xié,别再错,丢不起那人!

未央看点
2026-04-10 00:09:12
告诉你一个铁律:被人欺负时,要把事情闹大,他们就是赌你会沉默

告诉你一个铁律:被人欺负时,要把事情闹大,他们就是赌你会沉默

富书
2026-04-09 11:45:17
2026-04-11 07:55:00
36氪 incentive-icons
36氪
让一部分人先看到未来
151117文章数 2848724关注度
往期回顾 全部

科技要闻

马斯克狂发大火箭也养不起AI 年亏50亿美元

头条要闻

推动停火 巴基斯坦被指取得近年来最大的外交胜利之一

头条要闻

推动停火 巴基斯坦被指取得近年来最大的外交胜利之一

体育要闻

17岁赚了一百万美元,25岁被CBA裁员

娱乐要闻

黄景瑜王玉雯否认恋情!聚会细节被扒

财经要闻

李强主持召开经济形势专家和企业家座谈会

汽车要闻

搭载第二代刀片电池及闪充技术 腾势N8L闪充版预售35万起

态度原创

数码
艺术
旅游
家居
房产

数码要闻

联想推出2026款来酷斗战者“战7000”笔记本,7699元起

艺术要闻

曾熙『仿思翁山水册』

旅游要闻

巴西记者“桥”见武汉

家居要闻

复古风格 自然简约

房产要闻

28条新规落地!好房子,终于有了“广州标准”!

无障碍浏览 进入关怀版