网易首页 > 网易号 > 正文 申请入驻

喜马拉雅音频大模型亮相云栖大会,用AI赋能内容创作者

0
分享至

©商业与生活 文|朱晓培

校对|大道格

过去一年多,人工智能AI发展的速度超过任何历史时期,特别是生成式人工智能(AIGC)带来的新想象力,引人憧憬。

根据各地网信办发布的公告,截至2024年7月30日,全国范围内已有197个生成式人工智能服务通过网信办备案。人们最关心的莫过于,这些大模型,到底会如何落地,又会给物理世界带来什么样的改变?

9月19-21日,2024云栖大会上,人们可以发现一些答案。特别是AI的前沿应用馆里,因为汇聚了多家公司的AI应用成果,成为了做具人气的展馆。

在这个展馆里,喜马拉雅不大的展台,格外引人瞩目。与在其他展台面前观众排队等着体验AI游戏不同,展台上的一个二维码,引得众多观众掏出手机扫码入群。这个叫做“珠峰AI音色数字克隆人”的群,是专门为了喜马拉雅的珠峰AI音视频创作平台的VIP权限开通所用。

据现场的工作人员介绍,珠峰AI音视频创作平台,是通过珠峰AI音频多模态大模型(简称“喜马拉雅大模型”),结合喜马拉雅独有的全品类音色库和数字人大模型,为创作人提供高品质的AIGC和数智人服务。

用户获得珠峰AI的VIP权限后,可以上传一段15秒至1分钟的露脸视频,生成属于自己的视频数字人,然后上传文案、选择声音,就可以创作自己的音视频作品,还可以通过克隆音色制作音频作品。这一功能,吸引了大量的创作者,19日下午,《商业与生活》去展台参观的时候,就已经开到了VIP3群。

AI声音要做到自然,其实是很难的,需要模仿人类的呼吸、停顿、语气词等,珠峰AI的效果很棒,让人听不出来是AI合成的,对于创作人来说,是不可多得的工具。”一位用户评价说。

01

喜马拉雅大模型‍

首个备案音频大模型亮相

2024云栖大会上,喜马拉雅展示的大模型,是其自主研发的AI音频生成大模型。

就在9月9日,喜马拉雅音频大模型与米哈游、阅文集团的筑梦岛等文本大模型共同进入了上海网信办发布的新一批上海市生成式大模型备案通过名单,成为全国首个通过网信办生成式人工智能服务的音频生成类大模型。

据《商业与生活》了解,喜马拉雅音频大模型也是全球首个第四代多情感演绎、超自然表达的音频生成大模型。该模型是珠峰AI团队基于自研文本音频联合建模的LLM框架,在同一空间向量表征下实现音频与文本的联合建模训练。这种联合建模的方法,充分赋予了音频生成任务以强大的语义信息,并充分利用它们之间的内在联系和互补信息,大幅度提高模型的性能和泛化能力,这也是第四代音频大模型超越上一代的核心技术突破。

在训练过程中,喜马拉雅珠峰AI首先将音频数据和文本数据分别进行预处理,将它们转化为适合模型输入的 token 形式。将音频 token 和文本 token 映射到同一空间向量表征中,通过使用共享的嵌入层将音频 token 和文本 token 映射到一个共同的高维向量空间中,从而使得模型能够更好地理解和处理音频和文本之间的关系。整体训练流程包括预训练(Pretraining)、有监督微调(SFT)、领域有监督微调(Domain SFT)、说话人有监督微调(Speaker SFT)、强化学习(RL)几个主要流程。

通过这几个流程的训练,依托百万小时的自有版权音频数据进行训练后,喜马拉雅音频大模型具备情感输出、自然表达、语种互译、超拟人、多情感、15s音色克隆能力和声音转换等技术能力,在音频生成领域实现了多维度突破。

基于喜马拉雅音频大模型,可生成一系列情感丰富的有声书作品:

擅长进行超拟人、副语言可控的语音生成,做到媲美真人的真实对话风格语音生成:

只需要使用15s以内音频,即可快速克隆音色,超低成本个性化音色制作,可同时进行个性化音频内容生成和变声:

音频prompt:

文生音克隆:

还支持跨语种的声音合成,如单老的中英混读:

此外,方言的合成也不在话下:

并且还能生成一些特色音,如助眠音的合成:

结合喜马拉雅音频大模型的快速声音克隆能力,叠加珠峰AI团队自研的单图驱动口唇技术,使用一张图和一段声音,可快速生成趣味配音视频,具备高自然度的语音和口唇对齐效果:

《商业与生活》在现场体验了喜马拉雅的AI文本驱动功能后,也深刻感觉,‍‍‍‍‍ 对于创作者来说,如何让AI成为自己的第二大脑,把创意更便捷、更迅速的落地,已经成为了一个重要的命题。‍‍‍‍‍‍‍

02

AI赋能内容创作者‍

重塑内容生态

AI技术的飞速发展,正以前所未有的速度推动着内容创作行业的变革。有业内人士指出,眼下,AI将不仅仅是辅助工具,更可能会成为内容创作的主导力量。内容生产由传统的“全人工生产”模式,转向为“人工+AI Copilot”模式,极大的提升了内容生产的效率。

喜马拉雅,也将AI相关业务,列为头号任务,在战略中明确表示,“继续发展面向未来的技术,AI及大数据能力”。

在内容生态体系中,内容制作成本高昂一直是众多内容平台的一大症结。从版权采买,到匹配创作者,再到漫长的制作周期,每一环都是人力和成本的堆积。

洞察到内容创作这一痛点的喜马拉雅,选择通过AI赋能创作者和平台,便捷创作者的内容生产,形成像“AI制作人”一样的人机协同。

有了AIGC的演绎能力,喜马拉雅可以帮助创作者极大提升效率。过去平均生成一本书可能要几十天或者一两个月。现在可能一两天,甚至十几个小时就能完成。播客主潇潇使用喜马拉雅智能创作工具“音剪”后说,过去需要100分钟剪辑的音频,现在不到10分钟就可以处理完。可以节省出更多的时间,用来琢磨精品的内容。

有数据显示,在喜马拉雅,AI贯穿着有声读物的预录制、录制、后期等全过程,相比于人工创作的耗时,AI提效超过50倍;而由AI制作、人有限参与的精制作,相比于人工创作提效逾3倍。以宣传物料为例,以往,真人主播在制作一张专辑,专辑封面图、推广物料等,如果外包给外部工作室的费用至少千元。但使用喜马拉雅的AI工具,主播制作一张专辑在各环节需要的图片,设计成本可以降到几毛钱,且效率奇高,几分钟就能完成图片生成。

除了将AI技术深入应用于PGC、PUGC、UGC的创作全流程,帮助创作者实现降本增效外,AIGC本身也开始成为喜马拉雅的一大内容生产方式。数据显示,截至2023年12月底,喜马拉雅平台上的AIGC内容达2.4亿分钟,占平台音频内容的6.6%。

此次云栖大会展示的珠峰AI创作服务平台——珠峰AI音视频创作平台,就是依托通义文本大模型对文本内容语义的深度理解,打造珠峰AI音频大模型,结合喜马拉雅独有的全品类音色库和数字人大模型,为创作者提供高品质的AIGC音频和数智人服务,建立了包含535种合成声音组成的音色库,以适配不同情景下展示人类的感受及情感。

最近爆火的有声书《我的阿勒泰》,就是由喜马拉雅音频大模型生成的。更早些时候,喜马拉雅的技术团队,还利用运用AIGC技术还原了已故评书大师单田芳先生的独特嗓音,并使用他的AI合成音来全新演绎其经典之作。

喜马拉雅珠峰AI表示,音频大模型能力已经在珠峰AI官网(zhufengai.ximalaya.com)上可以直接体验使用了,用户可以直接创作用户自己的音频内容。相信有了喜马拉雅AI的助力,国内的内容生产者能够更高效地创作出更多高质量、个性化的内容,满足广大听众的需求,推动整个内容产业的创新和发展。

03

AI in All

给喜马拉雅带来新的想象空间

作为音频行业领头羊企业,喜马拉雅曾首创PUGC内容生产方式,并通过“PGC+PUGC+UGC”三位一体战略,实现了从头部专业生产内容到长尾用户生产内容的音频内容全方位覆盖,打造出自己的“声音宇宙”。

如今,AIGC的出现,为喜马拉雅带来了新的想象空间。

众所周知,高质量的数据库,是AI大模型落地的基石,是AI大模型进化的燃料。而喜马拉雅拥有全面的音频内容生态,包括体量庞大的音频内容库,以及数量众多的音频内容创作者。据公开数据显示,截至2023年12月底,喜马拉雅拥有约4.9亿条音频内容,总内容时长为36亿分钟。喜马拉雅拥有的庞大的语音库,让喜马拉雅大模型拥有了不断演进的AI能力,这也是喜马拉雅在AI时代的竞争优势。

喜马拉雅不仅在AI上拥有数据和技术上的优势,而且,AI还在智能化广告营销中发挥更突出的作用,给喜马拉雅带来了更多的商业变现场景。比如,通过AIGC原生声音流,实现“广告即内容”。

此前,喜马拉雅就联合贵州茅台推出了“单田芳AI声音重现”春运公益活动。不久前,喜马拉雅联合慕思共同打造的“邀李白共启AI穿越之旅”活动,在西安大明宫举办的“慕思奇妙夜之 AI 梦长安” 开馆活动上,喜马拉雅大模型技术助力慕思博物馆馆长与李白进行了一场跨越时空的对话,让人仿佛置身于古代文人雅士的聚会之中。

随着AI技术的不断融入与创新应用,喜马拉雅不仅改变了内容创作的边界,也在商业化探索上开辟了新的广阔天地。通过将AI技术与传统文化、商业品牌深度融合,可以打造出一系列既富有文化底蕴又极具商业价值的活动,助力品牌策划出更加精准有效的营销活动,开启全新的商业增长点。

在云栖大会会场,可以深刻感受到,AI技术正快速从实验室走向实际应用,影响着各行各业的发展。在内容创作方面,AI与人类创作者之间的协作,已经在成为内容创作的大势所趋。

而在上海张江的喜马拉雅园区,随处可见“AI in All”的标语。这家国内知名的音频在线平台,正在内部掀起一场全方位的 AI 变革,也打开了新的增长曲线。

—End—

更多关注:商业与生活,ID:xiaopeizhu8

内容同步:网易号、同花顺、百家号、今日头条、UC、雪球、企鹅号、一点资讯、知乎、搜狐等。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
汪精卫本是民国美男,教材形象为何反差巨大

汪精卫本是民国美男,教材形象为何反差巨大

唠叨说历史
2026-06-01 11:06:02
章泽天戴300万腕表看欧冠决赛,穿4万的香奈儿马甲,这是真老钱风

章泽天戴300万腕表看欧冠决赛,穿4万的香奈儿马甲,这是真老钱风

可乐谈情感
2026-06-01 18:49:37
你的生日数字,早就暴露了你的性格弱点

你的生日数字,早就暴露了你的性格弱点

山野有晚风
2026-06-02 00:18:01
NBA总决赛转折点:哈珀与布里奇斯的X因素之战

NBA总决赛转折点:哈珀与布里奇斯的X因素之战

温柔且自由
2026-06-03 02:07:30
张雪发文:望国际摩联解除油门限制

张雪发文:望国际摩联解除油门限制

网络易不易
2026-06-02 11:55:25
佟丽娅为陈思诚整理衣服疑似复婚!离婚后首同框,一家三口超有爱

佟丽娅为陈思诚整理衣服疑似复婚!离婚后首同框,一家三口超有爱

八卦王者
2026-05-22 09:30:17
德天空:菲利佩没欧足联教练证书,摩纳哥愿每场为他支付罚款

德天空:菲利佩没欧足联教练证书,摩纳哥愿每场为他支付罚款

懂球帝
2026-06-02 18:53:21
罗马诺爆料!曼联全力挖角皇马巨星,有望成B费之后队史最佳引援

罗马诺爆料!曼联全力挖角皇马巨星,有望成B费之后队史最佳引援

夜白侃球
2026-06-02 11:05:46
太阴险!相亲女喝了咖啡后呕吐,怀疑男方下药而报警,结果是孕反

太阴险!相亲女喝了咖啡后呕吐,怀疑男方下药而报警,结果是孕反

谭谈社会
2026-06-02 10:41:44
“冤不冤?”内蒙古,一女子还在哺乳期,就开始做上门按摩服务

“冤不冤?”内蒙古,一女子还在哺乳期,就开始做上门按摩服务

阿振观点
2026-06-01 20:09:42
心理学上有个词叫:破窗效应(如果一个休学的孩子,整天不读书、不出门、不运动,无爱好、无目标、无期望,那他的状态只会越来越糟)

心理学上有个词叫:破窗效应(如果一个休学的孩子,整天不读书、不出门、不运动,无爱好、无目标、无期望,那他的状态只会越来越糟)

掌门1对1
2026-06-02 16:27:26
1989年安徽拍戏,25岁巩俐零替身出演,这片凭啥成经典

1989年安徽拍戏,25岁巩俐零替身出演,这片凭啥成经典

手工制作阿歼
2026-05-27 00:05:04
鲁尼钦点!曼联捡漏欧洲顶级前锋 合同只剩一年白菜价

鲁尼钦点!曼联捡漏欧洲顶级前锋 合同只剩一年白菜价

澜归序
2026-06-02 06:53:50
公然调戏女主播!前CBA外援太恶臭,希望以后别来

公然调戏女主播!前CBA外援太恶臭,希望以后别来

德译洋洋
2026-06-02 12:04:43
退休后才发现,一个人有钱没钱,一眼就能看出:没钱的人,大多有这3个“穷习惯”

退休后才发现,一个人有钱没钱,一眼就能看出:没钱的人,大多有这3个“穷习惯”

风起见你
2026-04-11 15:31:29
世体:新月对坎塞洛离队态度缓和,已不再坚持1500万欧要价

世体:新月对坎塞洛离队态度缓和,已不再坚持1500万欧要价

懂球帝
2026-06-03 02:36:18
大满贯8连胜终结!张帅0-2输德比:无缘法网8强,进账85万奖金!

大满贯8连胜终结!张帅0-2输德比:无缘法网8强,进账85万奖金!

刘姚尧的文字城堡
2026-06-02 07:48:16
“脖子上已经有草莓了”,贫民窟大小姐,证明了富养教育的必要

“脖子上已经有草莓了”,贫民窟大小姐,证明了富养教育的必要

泽泽先生
2026-05-09 18:11:34
美股芯片股爆发,迈威尔科技飙涨26%,中概股大涨

美股芯片股爆发,迈威尔科技飙涨26%,中概股大涨

21世纪经济报道
2026-06-02 22:39:11
我不敢打羽毛球

我不敢打羽毛球

球村冷知识
2026-06-01 16:48:20
2026-06-03 03:36:49
商业与生活 incentive-icons
商业与生活
关注互联网创业
818文章数 882关注度
往期回顾 全部

科技要闻

烧掉千亿后,美团、阿里、京东谁先止血?

头条要闻

演员魏宗万去世 曾在94版《三国演义》中饰演"司马懿"

头条要闻

演员魏宗万去世 曾在94版《三国演义》中饰演"司马懿"

体育要闻

1米74的业余联赛替补,在英超踢中卫

娱乐要闻

奚梦瑶何猷君补办婚礼超幸福

财经要闻

智元和宇树的“暗战”愈演愈烈

汽车要闻

星途神秘新车轮廓曝光 又一款性能SUV要来了?

态度原创

教育
时尚
房产
旅游
家居

教育要闻

“没选上少先队,我女儿疯了”,无理取闹的家长,养不出正常孩子

蓝色系下装看着清爽不闷,裤子、裙子都凉快,随便穿都不出错

房产要闻

5200巨量投资曝光!未来五年,海南格局大变!

旅游要闻

北京位列全球数字旅游引领型城市榜首

家居要闻

流线型轮廓 包容多元身形

无障碍浏览 进入关怀版