网易首页 > 网易号 > 正文 申请入驻

AIGC产业研究报告 2023——音频生成篇

0
分享至

易观:今年以来,随着人工智能技术不断实现突破迭代,生成式AI的话题多次成为热门,而人工智能内容生成(AIGC)的产业发展、市场反应与相应监管要求也受到了广泛关注。为了更好地探寻其在各行业落地应用的可行性和发展趋势,易观对AIGC产业进行了探索并将发布AIGC产业研究报告系列。

报告以内容生成模态作为视角,涵盖了AIGC在语言生成、图像生成、音频生成、视频生成、三维生成、分子发现与电路设计(图生成)等领域的技术发展、关键能力、典型应用场景,我国AIGC产业在商业化落地过程所面临的挑战和对前景的展望。希望通过梳理和把握AIGC产业的发展脉络,为各领域的应用开发者和使用者提供参考。

在本期音频生成篇中,报告从音频技术的发展历程展开,回顾了拼接合成、参数合成、端到端合成三个关键阶段,分析了生成速度、语音质量、控制能力等模型关键能力的应用表现、国内外市场上的主流产品,以及在进行商业化落地时,来自数据、性能、需求三方面的挑战和解决思路。

定义

音频生成是指根据所输入的数据合成对应的声音波形的过程,主要包括根据文本合成语音(text-to-speech),进行不同语言之间的语音转换,根据视觉内容(图像或视频)进行语音描述,以及生成旋律、音乐等。

细分类型和主要应用领域

组成声音的结构包括音素、音节、音位、语素等,音频生成能够对这些基本单位进行预测和组合,通过频谱逼近或波形逼近的合成策略来实现音频的生成。

按照输入数据类型的不同,音频生成可以分为根据文字信息、音频信息、肌肉震动、视觉内容等数据进行的声音合成。按照场景的不同,音频生成又可以分为非流式语音生成和流式语音生成。其中,非流式语音可进行一次性输入和输出,强调对整体语音合成速度的把握,适合应用在语音输出为主的相关场景;流式语音则可以对输入数据进行分段合成,响应时间短,应用在语音交互相关场景中,能够带来更好的体验。

决定音频生成效果的关键因素主要包括生成速度、分词的准确程度、合成语音的自然度,以及语音是否具有多样化的韵律和表现力等。音频生成在智能客服、语音导航、同声传译、音乐和影视制作、有声书阅读等场景均有广阔的应用空间。另外,近年来语音生成设备在医疗领域也显现出了巨大的应用潜力,例如帮助语言障碍者与他人进行交流,方便视觉障碍者有效获取文本和图片信息等。

技术发展的关键阶段

音频生成早期是基于物理机理,通过机械装置、电子合成器等实现对人声的模拟。随着计算机技术的发展,音频生成逐渐形成了以“文本分析-声学模型-声码器”为基本结构的语音合成方法。基于对这个结构部分模块的替代或优化,音频生成的关键技术大致经历了拼接合成阶段、参数合成阶段、端到端合成阶段三个时期。目前,音频生成作为一种比较成熟的技术,已经具备产业化应用的能力。

● 拼接合成阶段:

波形拼接法是通过对语句的音素、音节、单词进行特征标注和切分后,在事先录制的语音库中查找基本单位并将音素片段拼接合成语音。波形拼接法的优点是基于真人录制的语音音质较好,听觉上比较真实,但拼接效果依赖于语音库的数据量,需要录制大量的语音才能保证覆盖率,且字词的衔接过渡较为生硬。

● 参数合成阶段:

参数合成法是对已有声音数据的声学特征参数构建统计模型,训练好的模型对输入数据进行分词、断句、韵律分析等,根据语言学特征生成声学特征,再由声码器合成语音。这种方法的优点在于所需的原始声音数据规模小且流畅度较好,但声码器不可避免会带来音质损失,杂音多且语音的机械感较重。

● 端到端合成阶段:

语音合成的本质是通过对于语句结构和关系的学习来预测其声学特征,还原声音波形的过程。

传统的语音合成框架由于语言学知识的复杂性、数据规模和模型性能等问题,语音合成往往难以取得满意的听觉效果,使其实用性受限。近年来随着深度神经网络技术的发展,在传统的参数合成法结构的基础上,端到端合成的方法采用编码器-注意力机制-解码器(Encoder-Attention-Decoder)的声学模型,能够直接将字符或音素序列作为输入输出梅尔频谱并生成波形,从而通过机器学习来简化特征抽取的过程,降低了面对不同语言学知识的训练难度,使声音合成更加自然,趋近真人发声效果。

利用深度学习能力形成的端到端合成方法明显改善了语音质量,模型性能和应用能力的提升使其逐渐成为主流。目前,语音生成领域应用广泛且效果优秀的产品均基于端到端合成框架实现的。

主流模型实现原理及优缺点

● 主流模型解析

Tacotron2

1、实现原理:Tacotron2是在对WaveNet和Tacotron结合的基础上,由声谱预测网络和声码器构成的端到端语音合成模型。其中,序列到序列的预测网络将文本特征提取输入模型,将预测值叠加到梅尔频谱上,声码器根据预测的序列生成时域波形。

2、模型优缺点:Tacotron2引入注意力机制替换传统语音合成的时长模型,通过神经网络提取结构特征,学习文本和声学特征之间的对应关系。Tacotron2的优点是通过对注意力机制的改进优化了梯度消失问题,语音生成的音质较好,并且对输入的文本数据具有较好的鲁棒性。但缺点是使用RNN结构的自回归模型的合成速度慢,对复杂单词的发音困难,生成的语音缺乏感情色彩,并且对于大数据集的训练时间和成本较高,模型缺乏可控性。

Transformer-TTS

1、实现原理:Transformer-TTS是将Transformer结构进行结合应用到TTS系统中的端到端语音生成模型。具体而言,Transformer-TTS通过引入多头注意力机制构造编码器-解码器结构来提高训练效率,使用音素序列作为输入生成梅尔频谱,并通过WaveNet声码器输出波形。

2、模型优缺点:Transformer结构的语音模型能够加快训练速度,解决了Tacotron2中存在的训练速度低下和难以建立长依赖性模型的问题,Transformer基于对语义和关系的理解,也使声音合成的效果更自然。但自回归模型仍然存在推理较慢和自回归误差累积带来的模型偏差的问题。

FastSpeech

1、实现原理:Fastspeech是一个非自回归的序列到序列语音合成模型,其工作原理是将音素序列作为输入,通过长度调节器对齐结果输出梅尔频谱,并通过可并行的网络结构来提升语音合成速度。

2、模型优缺点:Fastspeech的优点是非自回归解码的方式可以并行化生成梅尔频谱,计算速度明显提高。同时,时长模型保证了音素跟梅尔特征的对应,提高了合成速度和语音质量,且生成音频的可控性较好。但Fastspeech的缺点是使用知识蒸馏进行训练的会存在信息损失,从而导致合成结果不准确的情况出现。

DeepVoice3

1、实现原理:DeepVoice3是基于全卷积架构的语音系统,通过完全并行计算方式,将各种文本特征转换为声码器参数,将其并作为波形合成模型的输入来生成语音。

2、模型优缺点:DeepVoice3拓展了语音合成训练的数据集规模,能够快速应用于不同新型数据集的训练,适用于多说话人的语音合成任务。同时,模型采用全卷积方式提取文本特征,能够明显提升训练速度和GPU的利用率,降低训练成本。

AudioLM

1、实现原理:AudioLM基于语言模型的训练原理,通过Transformer结构对语义标记和声学标记建模训练,从而根据音频提示进行语义信息推理,生成后续的语音或钢琴音乐。

2、模型优缺点:AudioLM无需在标注数据上训练,能够保留原提示音频的说话人特征或乐曲风格,生成语义一致、风格一致的新音频,生成的声音自然度、连贯性较好。

● 国内外代表模型:

影响模型应用能力的关键因素

从声音传播的特征和实际应用视角出发,无论是交流对话、播报、翻译等场景,实时性和内容准确性都是使用者对音频生成的两个基本需求,而影响使用体验的更多因素则来自声音的自然度、连贯性,包括语速快慢、声音强弱、情绪等具备人类情感信息的能力。因此,音频生成模型在生成速度、语音质量、控制能力等方面的差异,也就决定了其在场景中的应用能力,而不同类型的用户和行业在应用中也会侧重关注不同的方面,在训练提升模型性能的过程中应根据实际需求进行优化和调整。

● 生成速度

语音的生成速度主要取决于模型合成梅尔频谱的速度,很多场景下对语音生成速度的要求非常高,能否满足实时流畅的效果是语音产品实现商业化应用的前提。

其中,个人用户注重语音生成能否实时响应本人当前的需求,例如语音助手、旅行翻译、交通导航等场景需要及时响应用户指令,快速识别并调用生成模型来合成语音;行业用户则更关注生成速度对业务流程的影响,例如智能客服、同声传译等场景中需要在短时间内生成语音,从而提高工作效率和服务体验。

● 语音质量

强歧义性是AIGC领域中语音生成所特有的问题,需要音频生成具备高准确率,避免出现漏词、重复、分词断句错误等问题。另外,由于语音特征的提取容易受到环境、噪音、多人说话等干扰因素的影响,导致识别和生成准确性偏差,因此考量语音生成质量还取决于抗干扰能力,也就是在采样条件比较困难的情况下,模型是否具备一定的鲁棒性,仍然能够输出高质量的语音。

● 控制能力

控制能力包括模型对语音速度、节奏、韵律等细节的控制,对不同语言背景的文本、语音理解能力,以及对情感音素特征的把握,控制能力决定了语音的表现力,从应用层面来说,包括听感上的清晰度、自然度和真实度,例如在有声阅读、语言教学等场景中接近真人说话的效果,将为个人用户带来更沉浸的体验。

对于行业用户而言,对控制能力的要求还表现在语音产品的定制化程度上,例如对企业数字人形象的音色、语调、情绪等进行细节控制,能够使其更加符合整体定位,从而提升对客服务体验和品牌影响力。

典型产业应用场景

与音频生成相关的典型应用场景有语音识别、语音合成、语音交互、语音转换、语音增强、语音修复、音乐生成等,能够广泛应用于生产生活当中,提升信息传输的效率、人机交互的便捷性与使用体验,在公共服务、娱乐、教育、交通等领域具有巨大的商业化价值。

● 语音识别:通过将输入的音频进行特征提取转换为对应的文本或命令,能够实现对人声口述或各类音频内容的文字转换,其中以智能手机的语音输入法、口述笔记等C端场景应用最为典型。在行业应用场景中,档案检索、电子病历录入、影视字幕制作等方面也存在较大的应用空间。另外,对声纹的识别能够进行人的身份信息特征提取,可应用于金融和公共服务领域的身份安全验证、反欺诈等场景。

● 语音合成:可以在泛娱乐领域得到大量应用,例如新闻播报、有声阅读等长声音制作场景,在电影、短视频创作中根据给定的脚本生成与场景、人物口型同步的语音;在交通、工业制造方面,利用语音合成可以进行语音导航、交通指挥、工业自动化控制等工作;跨语言合成可应用在语音翻译、语言学习等场景;在医学领域,语音合成应用在人工喉等医疗可穿戴设备上,帮助语言障碍者提高交流能力和生活质量。

● 语音交互:可以广泛应用在各类人机对话场景中,并能够在不同行业实现多元化的应用场景拓展。例如企业服务、金融等行业可以通过智能客服机器人与客户进行语音问答,有效节约人工成本;在家电、汽车等行业可大量应用在智能家居、智能车载场景中,通过语音助手完成用户的各类指令;在新闻传媒等行业,语音交互可以在国际会议、展览等活动中进行同声传译工作。

● 语音转换:可实现对语音的性别、音色、口音等风格迁移,适用于影视、动漫、游戏等领域不同角色声音的设置,也可以应用在一些涉及个人隐私安全的场景,对声音进行隐私处理。此外,语音转换的作用还在于能够构成合成数据,增加训练数据规模来提升模型性能。

● 语音增强、语音修复:可以对语音信号进行降噪、滤波、增益等处理,应用于电话录音、视频会议、公共环境中的语音交互服务方面,可提高语音识别能力和生成质量。另外还可以进行历史音频资料的修复,以及古代语言发音的推测合成等,对于历史研究具有重要的应用价值。

● 音乐生成:可以根据提示的音频片段或文本描述生成语义、风格一致的连贯音乐,在音乐和影视领域,可以帮助创作者进行歌曲编曲、音乐风格精修、背景音乐和环境音生成等工作。

商业化落地过程中面临的挑战

音频生成在商业化落地过程中,需要通过语音识别、理解、合成、交互等多种下游任务的组合,构建人机交互链路,通过智能语音平台或产品形成面向不同类型客户的多样化服务,因此也需要从智能语音市场的整体情况来考量相应的商业布局及面临的挑战。

近年来,国外头部科技公司如微软、亚马逊、谷歌、苹果等,均展开了技术研究并在智能语音市场积极布局。其中,微软在收购语音厂商Nuance后,将其技术优势与Azure的能力相结合,面向C端提供在线语音生成工具,面向B端提供语音定制开发、云端边灵活部署的服务策略。在与OpenAI深度合作后,能够依托微软办公生态的数据壁垒,以云+AI能力提升语音交互产品的智能化和灵活性,有利于构建其核心竞争优势。另外如亚马逊Alexa、谷歌Assistant、苹果Siri等产品,目前主要是以语音助手的形式搭载在家居设备或手机端,通过与物联网技术深度融合来拓展C端应用场景,提升使用体验实现用户增长。

国内智能语音市场规模近几年保持稳定增长,头部厂商如科大讯飞、百度、阿里等积累了庞大的用户资源,并向多个专业领域进行渗透,面向C端的应用主要聚焦在智能家居、车载等场景,B端则主要面向电商、金融、医疗、教育等行业场景提供语音客服、营销平台等定制化服务。

随着人工智能技术的突破和不断迭代,类GPT模型的能力也让用户看到人机交流体验提升带来的巨大价值,消费端和产业端对AI产品的期待拉高,也将为国内智能语音市场带来新的增长。而提升语音质量和多样性,实现大规模的商业化落地,还需要应对来自数据、性能、需求方面的三个挑战。

● 数据缺口挑战

相比静态的文本或图像数据,由于声音信号本身具有自由度高、动态化的特点,对长时序列进行建模和预测的难度较高,生成连贯、高质量的音频需要依靠大量的文本-语音、语音-语音数据对进行训练,而目前语音训练数据主要来自开源数据集、企业自有数据等,但方言、小语种等低资源语音数据,用于语音翻译全流程对齐的标注数据仍然较少,另外还涉及到使用权限、用户隐私等数据安全问题,导致应用受限。

模型层面可以通过低资源语音合成训练策略、文本增强策略、构建合成数据等方法,扩大训练数据集;应用层面通过加密、数据隔离等措施,合规利用语音产品沉淀的用户数据提取特征,提升语音生成的质量和风格多样性。

● 多模态融合挑战

音频生成本身与场景信息强相关,容易受到环境因素的干扰,因此在复杂环境下合成高质量语音对算法和算力的要求也随之提高,实际应用中还需要结合语音识别、声纹识别、自然语言理解、视觉内容理解等能力,将感知、认知与合成技术融合应用,提升产品的可控性和泛化能力,在影视、短视频创作等领域将产生更强的商业价值。

● 定制化需求挑战

下阶段用户对于定制化语音的需求将明显增长,例如个人定制语音可以应用在早教、手机助手等场景,B端应用则体现在客服、营销、数字人等场景中,越来越多的企业将会希望为语音设备、数字人打造符合品牌形象的个性化语音,一方面需要模型支持不同类型的声学条件,支持通过小数据量训练、模型微调合成个性化语音,结合不同领域的专业知识提升交互能力,另外定制语音的组件化、可控性、部署交付等工程化能力也是实现大规模落地的关键因素。

前沿探索与趋势展望

对音频生成的前沿研究中,一方面聚焦在对模型性能的提升,包括多说话人语音学习和分离、非人工标注数据的情感识别、情感解耦、多模态转换等。另一方面是从应用视角出发,面向更多细分领域的特定需求进行研发,例如UCLA的一项研究通过颅内电极对大脑活动进行记录并控制虚拟声道来生成语音,能够对中风、创伤性脑损伤造成的语言障碍群体提供帮助。另外Meta近期提出的一项研究表明,还可以通过非侵入方式大脑记录解码语音,未来可扩展到将活动记录进行语音生成应用,将有助于在医学领域对患者的治疗和交流。在我国,清华大学近期创新研发了基于石墨烯的智能可穿戴人工喉,通过热声效应实现语音生成,帮助喉切除术患者恢复发声,可以预见的是,这些研究将为语音生成在医学领域带来更广阔的应用前景。

目前,音频生成技术的商业化已经进入相对成熟的时期,下阶段家居、教育、出行仍将是我国智能语音的关键增长点,提升语音助手唤醒、交互等功能的持续多轮对话能力,将有利于拓展产品商业化空间,提升用户体验。

AIGC产业研究报告系列共分为六个部分,包括语言生成篇、图像生成篇、音频生成篇、视频生成篇、三维生成篇、分子发现与电路设计篇,并将在本月陆续发布,欢迎关注并与我们共同探讨AIGC产业发展。

声明须知:易观分析在本文中引用的第三方数据和其他信息均来源于公开渠道,易观分析不对此承担任何责任。任何情况下,本文仅作为参考,不作为任何依据。本文著作权归发布者所有,未经易观分析授权,严禁转载、引用或以任何方式使用易观分析发布的任何内容。经授权后的任何媒体、网站或者个人使用时应原文引用并注明来源,且分析观点以易观分析官方发布的内容为准,不得进行任何形式的删减、增添、拼接、演绎、歪曲等。因不当使用而引发的争议,易观分析不承担因此产生的任何责任,并保留向相关责任主体进行责任追究的权利。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
22岁男子入室杀害前女友,曾称“你不过是长得漂亮,你凭啥?”

22岁男子入室杀害前女友,曾称“你不过是长得漂亮,你凭啥?”

中国新闻周刊
2026-06-02 18:00:54
李连杰一家三口拜见仁波切,64岁利智许久不见,颜值回春如昔日!

李连杰一家三口拜见仁波切,64岁利智许久不见,颜值回春如昔日!

娱乐团长
2026-06-02 15:09:12
车圈大地震!放弃华为智驾,赛力斯联手字节造车

车圈大地震!放弃华为智驾,赛力斯联手字节造车

蒋东文
2026-06-02 20:44:55
开启智驾40秒后撞上半挂!一家三口当场殒命。长安承认没激光雷达

开启智驾40秒后撞上半挂!一家三口当场殒命。长安承认没激光雷达

听心堂
2026-06-02 10:48:19
压降负债成本!多家民营银行下架3年期、5年期定期存款

压降负债成本!多家民营银行下架3年期、5年期定期存款

界面新闻
2026-06-02 20:06:53
广厦三核79分拒横扫:胡金秋30分大爆发 双小外49+14+15制胜

广厦三核79分拒横扫:胡金秋30分大爆发 双小外49+14+15制胜

醉卧浮生
2026-06-02 21:32:14
炸裂!捐精有多乱,双方直接在宾馆完成怀孕过程,一次八百到几万

炸裂!捐精有多乱,双方直接在宾馆完成怀孕过程,一次八百到几万

就一点
2026-06-02 15:45:51
22岁身价1.4亿欧,世一腰横空出世!手握2座欧冠,曼联苦笑

22岁身价1.4亿欧,世一腰横空出世!手握2座欧冠,曼联苦笑

万花筒体育球球
2026-06-02 20:20:00
佩斯科夫称,如果乌克兰从“俄罗斯地区”撤军,战争可在当天结束

佩斯科夫称,如果乌克兰从“俄罗斯地区”撤军,战争可在当天结束

山河路口
2026-06-02 19:29:15
王守业贪污1.6亿,2005年“双规”后却被放出,他叫嚣:我摆平了

王守业贪污1.6亿,2005年“双规”后却被放出,他叫嚣:我摆平了

帝哥说史
2026-06-02 21:40:03
随着19岁乔达尔0-3完败,法网男单四强诞生第一席:世界第3率先晋级

随着19岁乔达尔0-3完败,法网男单四强诞生第一席:世界第3率先晋级

侧身凌空斩
2026-06-02 23:15:57
男子自驾青海失联9个月,家属再赴事发地寻找 救援人员计划向牧民发寻人信息寻找目击者

男子自驾青海失联9个月,家属再赴事发地寻找 救援人员计划向牧民发寻人信息寻找目击者

红星新闻
2026-06-02 17:40:41
荷兰没料到,闯中国领空这事没完,当着多国的面,让荷兰难堪至极

荷兰没料到,闯中国领空这事没完,当着多国的面,让荷兰难堪至极

流史岁月
2026-06-02 16:10:03
一公务员被指玩弄女性感情,两米多高易拉宝摆放在财政局门外,佛山市财政局回应

一公务员被指玩弄女性感情,两米多高易拉宝摆放在财政局门外,佛山市财政局回应

深圳晚报
2026-06-02 14:20:18
46岁董洁花期太短了,这是董洁为某时尚杂志拍的大片,董洁贴上假胡子,脸上戴着厚重的网纱,脖子上挂着繁复的花朵,这妆造真的太前卫了

46岁董洁花期太短了,这是董洁为某时尚杂志拍的大片,董洁贴上假胡子,脸上戴着厚重的网纱,脖子上挂着繁复的花朵,这妆造真的太前卫了

牛油果生活观
2026-06-02 19:09:43
胡金秋16中13高效30分:创总决赛生涯纪录 统治内线无愧国产邓肯

胡金秋16中13高效30分:创总决赛生涯纪录 统治内线无愧国产邓肯

醉卧浮生
2026-06-02 21:37:29
养老金上涨正式敲定!新标准出炉,快看看你每月多领多少?

养老金上涨正式敲定!新标准出炉,快看看你每月多领多少?

新国学文化
2026-06-01 19:33:28
“办案人员篡改伪造证人笔录,没被追责还升职了”,云南镇雄公安局原副局长刑满出狱后公开举报

“办案人员篡改伪造证人笔录,没被追责还升职了”,云南镇雄公安局原副局长刑满出狱后公开举报

大风新闻
2026-06-02 19:35:11
2026年最寒心的“农夫与蛇”:恩将仇报连狗都不如

2026年最寒心的“农夫与蛇”:恩将仇报连狗都不如

红色少女主播
2026-05-31 15:18:01
骄傲!足球小将勇夺意大利杯冠军 董路展示五星红旗 球员空翻庆祝

骄傲!足球小将勇夺意大利杯冠军 董路展示五星红旗 球员空翻庆祝

念洲
2026-06-02 19:16:48
2026-06-03 04:48:49
易观分析
易观分析
激发科技与创新活力
881文章数 121关注度
往期回顾 全部

科技要闻

烧掉千亿后,美团、阿里、京东谁先止血?

头条要闻

演员魏宗万去世 曾在94版《三国演义》中饰演"司马懿"

头条要闻

演员魏宗万去世 曾在94版《三国演义》中饰演"司马懿"

体育要闻

1米74的业余联赛替补,在英超踢中卫

娱乐要闻

奚梦瑶何猷君补办婚礼超幸福

财经要闻

智元和宇树的“暗战”愈演愈烈

汽车要闻

星途神秘新车轮廓曝光 又一款性能SUV要来了?

态度原创

时尚
本地
教育
公开课
军事航空

蓝色系下装看着清爽不闷,裤子、裙子都凉快,随便穿都不出错

本地新闻

用剪纸的方式,打开江苏扬州

教育要闻

“没选上少先队,我女儿疯了”,无理取闹的家长,养不出正常孩子

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

伊朗媒体新发布最高领袖照片

无障碍浏览 进入关怀版