网易首页 > 网易号 > 正文 申请入驻

实测豆包语音大模型:你不说谁知道这是AI啊

0
分享至

作者|陶然 编辑|魏晓

赶在春节前最后一周,字节掏出了今年国产语音大模型的天花板,豆包实时语音大模型。

收官之作,依然延续了过去大半年字节AI团队的风格——不掏则已,一掏就是王炸。

从年中的基础模型、视频生成模型,到年尾的视觉理解模型,对比同行来看豆包通常不是那个发的最快的,可一旦做出来,基本就预定了赛道内未来一段时间的No.1。

实时语音模型,又是这个节奏。

对话模型的风口由OpenAI掀起,GPT-4o实时对话刚发布那会儿,圈里人惊呼Her或者Jarvis这类影视作品中的AI助理概念神终于出现在了现实当中。

国内玩家自然也是也迅速跟进,本就擅长语音技术的科大讯飞在八月更新了“超拟人交互”,豆包之前的国内AI顶流Kimi也在10月份更新了实时AI电话(但本质上是T2S,转文字处理再转回语音输出)。

不过现在豆包来了,而且又双叒后来居上、直接封王了。

“你不说

这谁听得出来是AI啊?”

以下内容建议佩戴耳机浏览。

无不良引导,主要是希望你开大点声仔细听,才能听到各家语音大模型输出上的差异,以及最重要的,豆包团队在声音细节方面究竟打磨到了什么程度。

年关将至,又到了回家团圆的美好氛围,被七大姑八大姨的夺命连环Q击碎的时候:上班了吗发钱了吗奖金有吗买房了吗买车了吗谈对象了吗要孩子了吗。

让AI给你答题已经是去年的玩法了,今年,AI除了能告诉你怎么脱困之外,还能给你带来足额精神慰藉,拉满的情绪价值。

再次建议佩戴耳机,听得细致些。

我:“唉这马上要过年了,我这心里真是又期待又发愁。回家跟家人团聚是挺好的一件事,但我一想到那七大姑八大姨就头疼。你知道我每一次回去,就肯定有一票的人追着问我什么相亲啊,工作啊,工资啊这些事情。就坐在桌子上跟被审问一样,我怎么办呢我天?”

Kimi语音片段

Kimi:“这确实挺让人头疼的。我每次回家也差不多,不过你可以在被问到的时候,就简单说一些比较正面的话,比如说你对工作的满意程度,或者你对未来的规划。这样他们可能就不会一直追问了。怎么样,可以试试看吗?”

首先Kimi这个明显感觉有点卡,从结束收音(屏幕中间那个音量标识停止跳动)到Kimi开始回答问题,中间起码等待了大概一两秒的时间,显示Kimi思考中。

回答内容问题不大,但你听起来(尤其经常用AI,哪怕是AI骚扰电话接多了的人)会察觉到一股机械感。语音语调过于平稳、没有起伏是一方面,AI回答的每个句子之间断句和衔接非常突然,真人平时说话的时候两句中间喘口气、顿一下的感觉完全没有,甚至听起来像是刻意被切掉了。

只有一处“……比较正面的话”和“比如说……”中间听起来像是有人聊天时候的停顿和吸气。

顿挫这个点很关键,Mark一下继续往后听。

讯飞星火语音片段

讯飞星火:“过年回家确实让人又爱又恨啊。七大姑八大姨的关心有时候真的会让人有点受不了。要不你提前给自己找些话题,比如聊聊你的兴趣爱好,或者讲讲最近看的电影、书什么的?这样他们就不会一直问那些让你烦心的问题了。”

讯飞的速度和效果比Kimi好一些,至少句子之间接的比较自然,间隔合理。但还是有些问题没有解决,首先是语音语调,从开始到结束都极为平稳,毫无波澜就显得非常不自然非常AI,唯一一处能听到换气声音的地方又在“比如”这个词前后:……找些话题,比如聊聊……

猜测大概是和Kimi类似,模型训练语料库当中包含“比如”的句子前面都有一个明显的吸气和停顿,所以AI也get到了这个习惯。毕竟人一般聊天的时候,拿比如举例子前面基本都是要顿一下的。

回看Kimi和讯飞的回复内容,文字也是一个套路:xxxx确实xxx,然后回答问题。

这样是OK的,但不够好。具体怎么不够好,听完豆包的回答你就知道了。

豆包语音片段

豆包:“我懂我懂,这过年本来是开心的事儿结果还要被盘问,真是够够的,那你要不这样,就提前准备一些万能回复,比如说,嗯,工作还行啦谢谢关心,啊我还不着急结婚呢遇到合适的再说。或者你也可以用一些幽默的方式化解,就打个哈哈就过去了嘛。那你之前有没有试过什么办法?”

没反应过来就对着文字再听一遍,什么叫以假乱真,什么叫高下立判。

简单解释一下豆包神在哪里:先看文字部分,没有公式化的承接,套路化的确实,你面对的就是身边一个跟你玩的非常非常熟络的姐妹,“我懂我懂,真是够够的”,估计平时聊八卦或者追星也是这个调调。

“那要不你这样”、“打个哈哈”也是一样的口语化表达。

还有,仔细听每两句话中间的衔接:“还要被盘问(嘶,吸气)音,真是够够的(嘶,又是一遍吸气音)”、“比如说,嗯…(停顿思考音)”,“(吸气)啊…我还不着急结婚呢”……

这个东西没法再用语言去过多的解释,你抓个身边人聊聊会发现人和人平时聊天就是这么聊的。

豆包做到了没有机械感,完全没有。

蓝媒君把这个视频转成录音发给了好兄弟,没跟他说是AI,几分钟后的回复是:“哦呦,有情况啊今年?嫂子声音还挺好听(狗头)”

真的,你不说这谁听得出来是AI啊。

真实流畅背后的技术密码

这就是国产AI语音新的天花板,豆包把原来的顶层捅了个干净,然后往上又加盖了好几层。

怎么做到的呢?

长久以来,传统语音对话系统多采用级联模式,即先通过自动语音识别(ASR)将语音转成文本,再由大语言模型(LLM)生成对话文本,最后经文本转语音(T2S)输出。

这种模式虽广泛应用,但问题不少。比如,它对用户情绪及语音中的细微信息理解欠佳,生成语音的情绪表现有限,难以遵循复杂语音指令,且在实时交互中存在高延迟问题。

豆包语音大模型则另辟蹊径,研发出端到端框架。该框架面向语音生成和理解统一建模,深度融合语音与文本模态。在预训练阶段,对海量的各模态交织数据进行深入挖掘,借助Scaling理念,将语音与文本能力深度融合,实现能力的涌现。

这就好比搭建一座大厦,传统模式是各部分分开建造再拼接,而豆包语音大模型则是从地基开始就整体规划,让语音与文本紧密相连,为后续的优秀表现奠定基础。

图片由豆包大模型生成

同时,为实现拟人化情感承接,团队在数据收集阶段,就精心挑选各类包含丰富情感的语音数据,从欢乐到悲伤,从兴奋到沮丧,为模型提供充足养分。

预训练时,又设计专门算法,让模型精准捕捉语音中的情感特征;后训练阶段,再通过真实与高质量合成的语音对话数据进一步优化,使模型能敏锐感知用户情绪。当用户开心时,它以欢快语气回应;用户低落时,送上温暖安慰,真正做到与用户共情。

至于蓝媒君前面写的顿挫那些细节,豆包团队也做了解释:在智商与表现力之间找到平衡。

在语音输入时,它深度理解各维度信息,确保输出内容真实有用。同时,输出语音极具真人表现力,包含语气词、停顿思考等类人副语言特征。为实现这一目标,团队在数据和算法上发力,保证多模态语音对话数据语义正确且表现自然。通过多轮数据合成生成高质量语音数据,并定期进行多维度评测,依据结果调整训练策略,始终维持平衡。此外,实时联网功能让模型能获取最新信息,精准回应时效问题。

找到正确的技术路径+大力出奇迹的方法论,被字节再次验证。

One More Thing

豆包现在有多猛呢?一家撑起了中国2CAI的半边天。

研究机构QuestMobile数据显示,截至2024年11月底,中国AIGC APP整体月活用户数量已经破亿,相比6月份的统计数据实现了翻倍增长。

而在众多AIGC APP中,字节跳动旗下的豆包表现一枝独秀、一家独大:豆包11月月活达到5600万左右,占据了行业近半数的月活用户。后方像Kimi、文小言等APP,尽管看排名仍是头部,但和豆包已经有了明显的体量差距;而在12月,豆包的月活规模进一步增长至7522万。

图源/QuestMobile

另据AI产品榜的APP统计(两机构数据略有出入)显示,截至12月底,豆包的MAU超过7100万,而榜单前十名中,除去豆包之外其余APP的MAU总和才仅为6900万(Kimi和文小言的MAU分别为1600万和1300万)。

2024 AI 年度总结其一:大模型时代的第一个超级APP,大约已经出现了。

Lanmeih/今日话题

你体验豆包语音大模型了吗,感觉如何?

咱们评论区聊聊~

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
商业航天进入井喷期!火箭、卫星、运营产业链最强6巨头名单在此

商业航天进入井喷期!火箭、卫星、运营产业链最强6巨头名单在此

小白鸽财经
2025-12-19 07:05:03
打击网络诈骗国际会议在曼谷召开

打击网络诈骗国际会议在曼谷召开

财联社
2025-12-18 17:05:04
吴敬中死前对余则成说:"在天津找穿蓝旗袍的女人,她知道你身份"

吴敬中死前对余则成说:"在天津找穿蓝旗袍的女人,她知道你身份"

饭小妹说历史
2025-12-16 16:38:39
410次开房记录流出:央企“女老虎”陶荔芳,背后还有多少同伙

410次开房记录流出:央企“女老虎”陶荔芳,背后还有多少同伙

深度报
2025-12-14 22:36:54
官宣!中国男篮核心遭重伤!打日本队需大换血,郭士强或带2小将

官宣!中国男篮核心遭重伤!打日本队需大换血,郭士强或带2小将

老吴说体育
2025-12-19 22:50:11
没有商量余地,中国直接收回,17万日本人泪奔,高市闯祸了!

没有商量余地,中国直接收回,17万日本人泪奔,高市闯祸了!

靓仔情感
2025-12-20 01:58:40
美国经济难于摆脱严重衰退 1975年11月19日《人民日报》

美国经济难于摆脱严重衰退 1975年11月19日《人民日报》

那些看得见的老照片
2025-12-17 17:13:44
2026收入上涨!中央定调,这6类人补贴细则全公开,你符合条件吗

2026收入上涨!中央定调,这6类人补贴细则全公开,你符合条件吗

三农雷哥
2025-12-18 19:29:54
美国售台60辆M109A7自行火炮、82辆“海马斯”火箭炮,威胁会多大

美国售台60辆M109A7自行火炮、82辆“海马斯”火箭炮,威胁会多大

蓝星杂谈
2025-12-18 18:29:45
柬埔寨士兵吃着糟糕的食物,豪富的洪家却不愿给他们稍微吃好点

柬埔寨士兵吃着糟糕的食物,豪富的洪家却不愿给他们稍微吃好点

老马拉车莫少装
2025-12-16 03:01:51
全国统一体制内口头禅,一出口就知道,网友:味太正了!

全国统一体制内口头禅,一出口就知道,网友:味太正了!

另子维爱读史
2025-12-18 16:59:41
拜登带病提醒,特朗普迅速回过神来:对台海,做了一个错误的决定

拜登带病提醒,特朗普迅速回过神来:对台海,做了一个错误的决定

悦心知足
2025-12-19 23:49:40
教育部中小学考试新规发布,考试做减法!家长喜忧参半,你怎么看?

教育部中小学考试新规发布,考试做减法!家长喜忧参半,你怎么看?

闪电新闻
2025-12-19 10:08:18
澳大利亚17岁女生好心搭载陌生人,结果被性侵,涉案共4人

澳大利亚17岁女生好心搭载陌生人,结果被性侵,涉案共4人

潇湘晨报
2025-12-18 21:37:11
连续4天!泰军彻夜播放鬼叫声恐吓柬村民

连续4天!泰军彻夜播放鬼叫声恐吓柬村民

看看新闻Knews
2025-12-18 16:56:05
别在楼下售水机里打水喝了!我打了半个月水,发现4个大问题

别在楼下售水机里打水喝了!我打了半个月水,发现4个大问题

小虎新车推荐员
2025-12-19 13:45:05
军方突袭边境仓库,查扣泰柬夫妇巨额现金与黄金

军方突袭边境仓库,查扣泰柬夫妇巨额现金与黄金

曼谷陈大叔
2025-12-19 17:45:18
翻出10年前的订单,网约车司机感慨万千!黄金时代一去不回

翻出10年前的订单,网约车司机感慨万千!黄金时代一去不回

网约车观察室
2025-12-18 17:54:25
越南再论中越战争:若中国五日内不撤军,谅山主力或遭全歼,最终结局怎样?

越南再论中越战争:若中国五日内不撤军,谅山主力或遭全歼,最终结局怎样?

孔孔说体育
2025-12-19 07:08:27
随着广东97-94险胜广州,上海送江苏3连败,CBA最新排行:前3同分

随着广东97-94险胜广州,上海送江苏3连败,CBA最新排行:前3同分

小火箭爱体育
2025-12-19 21:47:57
2025-12-20 04:20:49
蓝媒汇财经plus incentive-icons
蓝媒汇财经plus
聚焦财经热点解读行业动态
560文章数 251关注度
往期回顾 全部

科技要闻

许四清:具身智能的"ChatGPT时刻"还未到来

头条要闻

普京:俄方愿在乌克兰选举期间暂时停止打击

头条要闻

普京:俄方愿在乌克兰选举期间暂时停止打击

体育要闻

“恶龙”埃托奥,正在毁灭喀麦隆足球

娱乐要闻

曲协表态仅6天,郭德纲担心的事还是发生

财经要闻

日元加息,恐慌来了?货币三国杀

汽车要闻

“一体压铸”再引热议 一旦受损真的修不起吗?

态度原创

教育
家居
数码
健康
公开课

教育要闻

扬州大学广陵学院权威电话!一键解决咨询难题

家居要闻

高端私宅 理想隐居圣地

数码要闻

机械大师E06卧式ITX机箱上市:支持200mm长半高显卡,298元

这些新疗法,让化疗不再那么痛苦

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版