网易首页 > 网易号 > 正文 申请入驻

读2万字论文秒出播客,给链接就能唠!揭秘豆包最新语音模型技术

0
分享至

智东西

作者 | 陈骏达

编辑 | 漠影

国产语音模型又进化啦!

智东西6月12日报道,昨天,在火山引擎Force原动力大会上,豆包语音模型家族迎来上新,豆包·实时语音模型全量上线火山方舟,并对企业客户开放使用。

在豆包端到端语音对话系统基础上打造的豆包·语音播客模型,也在会上正式亮相。这一模型可在数秒内生成双人对话式播客作品,效果自然,具有互相附和、插话、犹豫等播客节奏,为用户带来了以假乱真的收听体验。

以上2款模型只是豆包语音模型家族的冰山一角。

在昨日大会期间举办的AI应用专场论坛中,字节跳动语音产研负责人叶顺平透露,目前,字节语音技术涵盖了音频生成与创作、音频理解与生成和音乐理解与生成三大能力矩阵,可在语音助手、智能客服、在线教育、虚拟陪伴、有声内容生产等场景发挥价值,日均语音处理量达到约150亿次,应用到超30个行业。

亮眼数据背后,是字节在语音技术方面的持续投入。端到端架构的应用为语音交互注入了“灵魂”;数据收集、预训练、后训练的协同作用,赋予了模型情感表现力和洞察力;强化学习等技术的引入,也为模型的持续优化和智能水平提升提供了有力支持。

这些技术突破共同推动了豆包语音模型家族在实时语音交互、语音播客等场景下的出色表现,也让我们看见了国产语音模型的广阔前景。

一、语音交互人机感太重?用端到端架构给AI注入“灵魂”

过去的AI语音交互系统大多采用多阶段级联架构,包含语音识别、文本生成和语音合成三大模块,冗长的处理链路限制了响应速度、控制能力和多模态一致性。

此外,由于各模块独立运行,此类系统难以理解语音中的情绪、语气和停顿等副语言信息,使得语音交互始终“人机感”浓重。

随着大模型技术的发展,如今的语音交互实现了语音理解与生成在同一模型中的协同完成,能够更自然流畅地进行对话。

去年,GPT-4o向世界展示了“真人感”语音交互的可能性,但在中文表现上仍有局限。而火山引擎今年年初发布的豆包·实时语音模型,凭借更强的中文理解力和高情商反馈,展现了中文语音交互的理想雏形。

要与这款实时语音模型对话,用户仅需在豆包App中点击右上角的电话按钮。在实测中,这款模型的“拟人感”让人印象深刻,在语气、用语、思考方式上更接近人类,可根据用户情绪和语境提供实时的高情商回复,还能演会唱,支持打断和主动搭话。

下方案例中,豆包不但根据“5岁孩子”的语境信息调整了所传达的信息,使用了极具亲和力的语气,二者相辅相成,很好地完成了交互的目的。模型生成这段语音的速度极快,在实际使用中用户对延迟的感知并不明显。

00:24

豆包·实时语音模型的端到端语音系统框架是实现这一切的基础。这一框架面向语音生成和理解进行统一建模,实现多模态输入和输出效果,从根本上避免了传统级联系统的种种劣势。

更进一步,豆包实时语音模型具备丰富的高阶语音控制与演绎能力。它不仅能根据用户的复杂指令进行语音风格的精细调控,如语速、语调、节奏等,还拥有不错的情绪演绎能力,能在喜怒哀乐之间自然切换,并在讲故事、角色对话等任务中表现出极强的表现力和声音创造力。

令人惊喜的是,得益于预训练阶段的大量数据泛化,模型已涌现出初步的方言与口音模仿能力,显示出语言迁移与适应能力。

00:10

豆包·实时语音模型即将上线的“声音复刻”能力,可以视作是上述高阶能力的延申。声音复刻实现了从“复刻音色”到“复刻表达”的全面升级,不仅能通过少量语音样本高度还原用户音色,更能在对话中根据语境复刻情绪与语气,实现情感一致、自然拟人的语音表达。

二、AI播客赛道热度不减,国产方案如何打造差异化优势?

豆包语音模型家族在不断扩展,其最新成员之一是于今年5月下旬推出的豆包·语音播客模型

这一模型的推出,恰逢播客市场的蓬勃增长。《2025播客营销白皮书》显示,2024年,全球播客听众数量约为5亿人,播客市场规模预计突破300亿美元,同年,中文播客听众数量的增速达到43.6%,位居全球第一,2025年预计这一数字预计将突破1.5亿。

无论是对行业头部的专业创作者和机构,还是个人创作者而言,高度拟真的AI播客模型,都有望降低制作成本,扩展内容的丰富程度,提升创作效率。

其实,在过去很长一段时间内,AI播客届的明星产品一直是来自谷歌的NotebookLM。在智东西的日常体验中,NotebookLM能围绕既有材料和信息,以双人播客形式输出内容,但是内容的自然度、流畅度上仍稍显欠缺,在中文场景尤为明显。

这正是豆包·语音播客模型想要解决的问题。这一模型在实时语音模型的基座之上,对中文播客场景做了针对性优化,使播客内容、结构和对话推进更符合中文特点,包括口语化、双人互动等,对话节奏和感觉也更接近真人主播。

目前,这一播客模型已经可在豆包PC端、扣子空间等产品中体验。在豆包PC端,用户可上传PDF文档或是添加网页链接来生成播客。这一模型的生成速度极快,在智东西上传一篇论文后,豆包在几秒内便返回了可供收听的播客。

用户还可在地址栏的右侧找到网页播客按钮,点击后便可立即收听AI播客。

豆包·语音播客模型能对用户上传的信息进行改造,使其更适合听众消费。例如,智东西上传了长达2万余字的论文本身采取了相对结构化的写作模式,如果照搬原文行文逻辑,播客的收听体验将会大打折扣。

但模型并未受到原文本的影响,会以问答的形式推进播客。每个问答的长度适中,凝练的问题为听众提供了更为清晰的收听体验,不会在长篇大论中失去方向。

豆包生成的播客文稿中有大量的语气词、附和、停顿,这很好地模拟了真人专业博客中的口语习惯,有效提升了拟人程度。

豆包·语音播客模型所生成播客的部分文字稿

为实现上述效果,豆包·语音播客模型先是对播客这一内容形式进行了详细的体验拆解,分析真人对话的节奏、自然度、信息密度等维度,基于这些认知,对模型的输出效果进行调整。

专业播客创作者也参与到了这一过程中,与模型团队共同探索和生产高质量数据,并在评测中不断优化模型生成的内容。

除了依赖豆包·实时语音模型在预训练阶段培养的拟人化交互能力,有监督微调(SFT)也对播客模型交互性、真实感的提升起到了重要作用。该团队对数据进行了细致的打磨与标注,为模型学习真人交互感提供了重要参考。

三、字节加速语音能力对外输出,合成、识别、翻译能力全面提升

在昨日下午的AI应用分论坛上,叶顺平向外界透露豆包语音模型家族未来的发展方向。在全量上线后,豆包·实时语音模型将会提供更多音色,玩法方面扩展音色克隆、歌唱能力等等。近期,豆包在歌唱场景的指令遵循、音准等属性已迎来提升。

近期爆火的豆包·语音播客模型,已在实践中展现出了几大可优化的方向。未来,这一模型生成的播客信息密度会进一步提高,用于提升对话自然度的语气词、句式会更加多样化,不仅只有简单的承接,还能有观点的交流与碰撞。

当下,豆包·语音播客模型提供了一男一女两个音色,不过不同风格的音色已经在开发中。未来,这款模型还可能探索更为丰富的音色组合,例如给娱乐、科技等不同细分领域的播客提供不同音色,提升收听体验。

豆包·语音播客模型未来或将支持单口播客、多人对谈播客等形式,甚至探索互动播客的形式——允许用户在收听过程中插话,甚至影响播客的内容走向。

通过提供种种更多的选择,豆包·语音播客模型有望进一步释放用户在播客和泛音频内容场景的消费潜力。

字节还在近期将其语音合成模型Seed-TTS升级至2.0版本,进一步提升模型表现力,提供给用户更丰富的指令控制能力;Seed-ASR语音识别模型基座再次升级,支持更友好的上下文理解能力,识别准确率进一步提升;端到端同声传译模型已经在豆包和飞书内部落地,在教育、金融、体育等等领域的中英互译效果已媲美人类译员。

未来,字节跳动将大力加速语音能力对外输出。相关举措包括全量开放豆包·实时语音模型、提供更多豆包同款音色,播客模型也有望在近期对外部客户开放。对业内企业而言,字节语音模型家族近期的集中上新,意味着革新业务的机遇。

结语:押注下一代交互入口,字节抢占领先身位

语音交互的庞大潜力,已在业内成为共识。这一交互形态原生的沉浸感、陪伴感,使其在语音助手、AI硬件、内容制作与消费等领域展现出独特的优势和广阔的应用场景。随着生成式AI驱动的语音技术不断进化,语音或许有望成为下一代人机交互的主要入口之一。

作为国内少数在语音模型侧和语音交互产品侧都占据行业领先身位的玩家,字节有望通过底层技术的持续提升和真实数据指导下的能力优化,为行业和用户带来更加智能、便捷和自然的语音交互体验。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
卡拉格:瓜帅带队10年只有一座欧冠,我觉得曼城高层会失望的

卡拉格:瓜帅带队10年只有一座欧冠,我觉得曼城高层会失望的

懂球帝
2026-03-12 19:13:08
大闹耐克店后续:身份曝光,真实目的藏不住,退包女社死被带走

大闹耐克店后续:身份曝光,真实目的藏不住,退包女社死被带走

离离言几许
2026-03-12 16:08:32
楼市大局已定:不出意外,2026年中国房价或迎来3大变化,很现实

楼市大局已定:不出意外,2026年中国房价或迎来3大变化,很现实

猫叔东山再起
2026-03-12 08:50:07
伊朗警察总长:街头即战场,抗议者是敌人

伊朗警察总长:街头即战场,抗议者是敌人

老马拉车莫少装
2026-03-11 07:55:28
59岁陈小春重庆吃火锅,痞帅装扮配酷拽表情好似故意在装嫩

59岁陈小春重庆吃火锅,痞帅装扮配酷拽表情好似故意在装嫩

强大气场的注视
2026-03-12 05:57:52
宣布了!东契奇解除婚约!10年感情彻底破裂

宣布了!东契奇解除婚约!10年感情彻底破裂

篮球实战宝典
2026-03-11 23:23:10
伊朗宗教领袖发布圣战令点名特朗普,随后传出空袭身亡消息

伊朗宗教领袖发布圣战令点名特朗普,随后传出空袭身亡消息

桂系007
2026-03-12 06:30:59
化肥涨价潮来袭!这3家公司最受益!

化肥涨价潮来袭!这3家公司最受益!

北方农资周刊
2026-03-12 16:48:55
爆冷!世界冠军被21岁小将零封,张本美和不战而胜,国乒4连胜

爆冷!世界冠军被21岁小将零封,张本美和不战而胜,国乒4连胜

胡一舸南游y
2026-03-12 15:11:37
苹果回应有人购买iPhone后换屏退货赚差价

苹果回应有人购买iPhone后换屏退货赚差价

中国能源网
2026-03-12 09:56:08
史上最狠的一首骂人诗,短短四句,不带脏字,但却骂了十几万男儿

史上最狠的一首骂人诗,短短四句,不带脏字,但却骂了十几万男儿

铭记历史呀
2026-03-11 18:17:40
难怪特朗普想停战:特朗普之子有了大麻烦,以色列的命根子被炸了

难怪特朗普想停战:特朗普之子有了大麻烦,以色列的命根子被炸了

混沌录
2026-03-11 16:58:08
全国人大代表建议,增加三个全国法定节假日

全国人大代表建议,增加三个全国法定节假日

杨兴文
2026-03-11 20:42:02
阿尔本:原本打算在不丹向何沐妮求婚;整套流程一样不落

阿尔本:原本打算在不丹向何沐妮求婚;整套流程一样不落

科学发掘
2026-03-12 13:23:44
59岁宋祖英现身活动状态惊艳!短发利落大气,黑色套装优雅端庄

59岁宋祖英现身活动状态惊艳!短发利落大气,黑色套装优雅端庄

琴声飞扬
2026-02-12 11:51:25
601088,近万亿巨头历史新高!储能龙头被盯上,融资客大幅加仓(附名单)

601088,近万亿巨头历史新高!储能龙头被盯上,融资客大幅加仓(附名单)

数据宝
2026-03-12 12:25:53
伦纳德45分!快船153-128屠狼!诞生5个现实:2换1、2换5交易稳赚

伦纳德45分!快船153-128屠狼!诞生5个现实:2换1、2换5交易稳赚

毒舌NBA
2026-03-12 13:09:18
油价调整:注意,预计上调1080元/吨,油价涨幅稍稍放缓!

油价调整:注意,预计上调1080元/吨,油价涨幅稍稍放缓!

金投网
2026-03-12 11:47:39
资本让老头老太太连垃圾都捡不了!武汉部分小区,惊现废品回收机

资本让老头老太太连垃圾都捡不了!武汉部分小区,惊现废品回收机

火山詩话
2026-03-11 14:33:00
起征点提高!

起征点提高!

三衢
2026-03-12 11:45:58
2026-03-12 21:48:49
智东西 incentive-icons
智东西
聚焦智能变革,服务产业升级。
11360文章数 116991关注度
往期回顾 全部

科技要闻

当养虾人开始卸载,大厂的战争才真正开始

头条要闻

伊朗最高领袖:不会放弃复仇 霍尔木兹海峡将继续关闭

头条要闻

伊朗最高领袖:不会放弃复仇 霍尔木兹海峡将继续关闭

体育要闻

建议将“出球型门将”纳入反诈app

娱乐要闻

田亮一家新年全家福!森碟变清纯少女

财经要闻

卢锋:从特朗普团队群演看时代变局

汽车要闻

大众2025财报:转型虽有阵痛 "大象"已然起跑

态度原创

旅游
游戏
本地
时尚
公开课

旅游要闻

瞰中国|福建屏南:厦地花开春意满

新的到了旧的怎么处理?网友求助NS退役方式引热议!

本地新闻

坐标北京,过敏季反向迁徒

风衣+大包,春季最气质搭配!

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版