网易首页 > 网易号 > 正文 申请入驻

前DeepMind大佬创业,做出喜怒哀乐以假乱真的AI语音大模型

0
分享至


智东西
编译 徐豫
编辑 云鹏

智东西2月27日消息,美国情感智能技术AI创企Hume AI昨天发布了新款文生语音大模型Octave,该大模型可依据用户输入的提示词或剧本,生成有人设特点、有语调起伏、有情感色彩的AI语音,并允许用户通过文本指令二次调整和创作。该公司由DeepMind前研究员Alan Cowen于2021年创立,最近一轮融资后估值为2.19亿美元

Hume AI联合创始人兼CEO Alan Cowen在接受VentureBeat视频电话采访时说道:“我们推出了首个AI文生语音大模型,该模型能够理解上下文中的词汇,并预测出适当的情绪、节奏、韵律和重音,从而使AI语音听起来比以往更人性化。”

//oss.zhidx.com/uploads/2025/02/67c028c136881_67c028c132c50_67c028c132c29_Hume-2.mp4

▲Octave可以根据简单提示词变换AI语音的语气和语调(图源:Hume AI官网)

换而言之,相比于过往一板一眼念文本的AI味语音,Octave旨在让AI语音更有人情味。按照Cowen的描述,这些AI语音不仅带有愤怒、悲伤或快乐等情绪,还可以把多种情感交织融合在一起,例如“夹杂着幽默或恼怒的轻度沮丧”。在Cowen看来,该模型较为适合需要预先制作的有声读物、播客、视频画外音和视频游戏角色配音。

//oss.zhidx.com/uploads/2025/02/67c028b70167e_67c028b6f1ae1_67c028b6f1abc_Hume.mp4

▲Octave可以表达开心、愤怒、焦虑等多种情感(图源:Hume AI官网)

该公司在社交媒体平台X上也连发多帖说明Octave的具体功能和训练过程。据Hume AI方面透露,用于训练Octave的语言数据是传统文生语音大模型的1000倍,这也是Octave能够像人类演员一样理解剧本,并使用更逼真的情感、语义、节奏、词语、重音等要素的原因。其训练数据中包含了数百万小时的公开长篇语音数据和Hume AI独家采集的声音、视频数据。

除了文生语音大模型,Hume AI还在利用Octave训练AI系统,以更好地预判用户的AI语音生成需求。

在一项人类评审盲测的对比实验中,Octave的输出在音质、自然度以及语音生成与预期描述匹配度等方面均优于 ElevenLabs,这意味着其AI语音生成过程的可控性和AI语音生成质量均高于行业水准


▲Octave所生成的AI语音在自然度、提示词匹配度、音频质量方面超过了ElevenLabs(图源:Hume AI官网)

在推出Octave前,Hume AI已推出了两代自研的同理心语音界面(EVI),该公司声称EVI是第一个具有情商的对话式AI

当前首发版本的Octave主要支持的语言是英语,其次是西班牙语,后续可能还会上线更多语种。此外,该模型在Hume AI开发者平台上的使用强度有一定限制,现支持的音频格式有MP3、WAV和PCM

一、4大AI语音生成功能,能代入情节和人设

Octave文生语音大模型不仅支持生成带有人设和人类情感色彩AI语音,还将推出语音克隆功能。

Cowen称,该模型除了能理解单个句子内的情感,还能进一步捕捉上下文之间的情感联系,从而更具表达力和细节度。Octave除了能够理解情节转折、情感暗示、角色特征,还学会了如何将它们结合起来,因此它不仅可以“温柔地朗读情书”,也能“充满活力地播报体育赛事”。

1、语音生成:具有情境感知能力且人性化

Octave能够预测语音的调性、节奏和音色,并判断初何时应低语密谋、何时应放声高喊、何时应平静地解释事实。

换句话说,Octave能够解析剧本或提示词中的情节转折、情感暗示和角色特征,并将其转化为自然带感情的语音,听起来就像演员在朗读剧本一样。

//oss.zhidx.com/uploads/2025/02/67c028cd14e7f_67c028cd0ea6f_67c028cd0ea3e_Hume-4.mp4

▲Octave可以根据上下文内容转变AI朗读的语气和语调(图源:Hume AI官网)

2、语音设计:可深入理解提示词和剧本含义

基于提示词或剧本,Octave能够生成各种设定的AI语音。这是由于它会自动解析一段文字内容的含义和风格,包括人称代词、简称、用词等等,从而生成一段与角色相符的连贯语音内容。

此外,在语音设计功能中,你还可以通过更具体的角色描述来引导Octave,例如结合特定口音、人设特征、职业角色等。相关描述类似于“耐心且富有同理心、用ASMR方式说话的咨询师”、“戏剧化的中世纪骑士”、“中年好莱坞电影预告片解说员”。

//oss.zhidx.com/uploads/2025/02/67c028d08eb67_67c028d08a9d8_67c028d08a9aa_Hume-5.mp4

▲Octave可以理解较为复杂的人设或角色(图源:Hume AI官网)

同时,你也可以选择跳过语音设计功能,直接在Playground上即时生成语音。只点击页面上的“生成”按键,而不勾选“语音设计”功能,Octave就会仅依据剧本生成语音,并且可以将其另存为一段新语音。

不过出于安全考虑,涉及较为逼真的孩童语音和特定人物的模仿语音,其AI语音生成将受限。

3、表演指令:用生成的AI语音二次创作

参照人类演员,Octave也能接受并理解指令。

在表演指令功能中,其可以基于现有语音类型,进一步用指定的情感或说话风格来朗读新剧本。

//oss.zhidx.com/uploads/2025/02/67c028c98fdb5_67c028c98bc65_67c028c98bc39_Hume-3.mp4

▲Octave支持用户二次调整句子的语气和语调(图源:Hume AI官网)

4、语音克隆:即将上线

Hume AI AI称,只需一段5秒的音频,Octave就能快速克隆出其语音。而Octave开发团队正为这一语音克隆功能寻求安全保障,因此该功能将于接下来几周内稍晚推出。

未来几周内,该公司还有计划改进Octave的核心功能,持续优化富有表现力的语音生成、不同情感和风格的提示、新语音生成以及多位说话者间流畅对话等方面。

二、40多种预设语音,开发者现可上手使用

Octave现已在platform.hume.ai平台和Hume AI的API上线。

目前,在线平台上,创作者和开发者可使用Octave以下4项功能:

  • 语音设计;
  • 表演指令;
  • 超过40种预设语音的语音库;
  • 用于生成有声书、播客等长篇内容的项目界面(预览版)。

而在开发者平台上,Octave可通过Python和TypeScript SDK访问,这些SDK会处理身份验证,并提供类型化接口,以确保集成的可靠性。其命令行界面支持快速原型设计、测试以及直接从终端批量处理。
这些开发者工具简化了用Octave生成语音素材的过程,缩短了新语音应用的上市时间。


▲Octave操作界面(图源:Hume AI官网)

目前,Hume AI的API允许开发人员每分钟对Octave模型发出最多50次请求,文本长度上限为5000个字符,描述上限为1000个字符。每个请求最多可生成5个输出,支持的音频格式包括MP3、WAV和PCM。

三、对比ElevenLabs,Octave更符合人类喜好

Hume AI AI对Octave开展了内部评估,将该大模型与业内领先的AI文生语音大模型ElevenLabs进行对比。

这项基准测试包含120个多样化语音描述的样本,用于模拟用户在文生语音大模型中会提出的各种语音风格。这些样本既覆盖了细腻、叙事化的描述,例如“温暖、父亲般的声音,具有丰富的低音,略带沙哑且语调令人安心,如同一位经验丰富的说书人”,也有简洁、简短的提示词,例如“充满活力、年轻、略带嘶哑”。

Hume AI团队用Gemini为每个描述生成了一段合理对话,然后分别让Octave和ElevenLabs的AI语音生成工具Voice Design各生成了3个语音样本,再让180位人类评审盲测对比上述两款文生语音大模型基于相同提示词生成的语音样本,并为音质、自然度以及提示词匹配度投票。

测试结果显示,Octave在这三项人类偏好指标上均略胜一筹,音质方面被71.6%的人类评审选择,自然度方面被51.7%的人类评审选择,而提示词匹配度方面有57.7%的人类评审认为其更契合预期。


▲在Hume AI内部测试中,其AI文生语音大模型Octave能力优于ElevenLabs(图源:Hume AI官网)

四、免费版声音定制不设限,专业版提供超8h使用额度

Hume AI目前采用订阅制的收费方式,主要分为免费、Creator、Creator Pro和Enterprise4大类收费项目。

  • 免费版:每月1万个字符的文本转语音,总时长约10分钟无限自定义声音
  • 入门版3美元/月) :每月3万个字符,总时长约30分钟,额外最多支持20个项目;
  • Creator10美元/月) :每月10万个字符,总时长约100分钟,额外字符按使用量定价(0.20美元/1000个),额外最多支持1000个项目;
  • 专业版50美元/月) :50万个字符,总时长约500分钟,额外字符按使用量定价(0.15美元/1000个),额外最多支持3000个项目。

规模化、商业和企业级接入使用收费标准则有所不同。

  • 规模(150美元/月) :200万个字符,总时长约2000分钟,额外字符按使用量定价(0.13 美元/1000个),额外最多支持1万个项目;
  • 商业(900美元/月) :1000万个字符,总时长约1万分钟,额外字符按使用量定价(0.10 美元/1000个),额外最多支持2万个项目;
  • 企业(自定义价格) :无限使用、自定义法律条款、安全保障、大幅折扣的批量价格和优先支持。
结语:AI语音类人化新突破,有望造福数字人等产业

AI语音仍是目前主要的人机交互方式。

Hume AI新的文生语音大模型Octave及其情感智能语音技术,有望解决长期以来AI语音应答机械、语调生硬、音色千篇一律的痛点,使得人机语音交互更接近于人与人之间沟通。

同时,Octave也可以为影视、视听、新媒体、数字人等多个行业产出定制化配音,加速AI语音的商业化落地。

来源:Hume AI X账号、Hume AI官方博客、VentureBeat

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
杜月笙的识人术:只看对方的一个站姿,就能知道他是龙还是虫

杜月笙的识人术:只看对方的一个站姿,就能知道他是龙还是虫

千秋文化
2026-03-23 20:09:06
白鹿,张凌赫被传复合?男方被曝只跟她谈过,热搜炸了:这俩兜兜转转,好体面....

白鹿,张凌赫被传复合?男方被曝只跟她谈过,热搜炸了:这俩兜兜转转,好体面....

阿废冷眼观察所
2026-03-27 00:13:22
第81波打击!以军司令部遭袭击,美迎来不眠之夜,特朗普求助35国

第81波打击!以军司令部遭袭击,美迎来不眠之夜,特朗普求助35国

丁丁鲤史纪
2026-03-26 20:46:22
全球最大军火商:外媒揭露美国军工巨头,全偷偷找中国“代工”

全球最大军火商:外媒揭露美国军工巨头,全偷偷找中国“代工”

甜到你心坎
2026-03-24 21:18:22
四川省文物局局长唐飞:眉山文物资源呈现出三大特点丨关注四川历史文化名城保护③

四川省文物局局长唐飞:眉山文物资源呈现出三大特点丨关注四川历史文化名城保护③

北青网-北京青年报
2026-03-25 19:43:12
奇怪的现象:凡是家里打扫的很干净的人,都有共同的特点

奇怪的现象:凡是家里打扫的很干净的人,都有共同的特点

木言观
2026-02-19 22:58:09
人有没有心梗,散步就知道?得心梗的人,散步常有这2个表现

人有没有心梗,散步就知道?得心梗的人,散步常有这2个表现

健康科普365
2025-12-18 10:01:25
汪小菲马筱梅基因太绝!家中“小炸毛”萌翻全网这颜值太招人疼!

汪小菲马筱梅基因太绝!家中“小炸毛”萌翻全网这颜值太招人疼!

孤酒老巷QA
2026-03-24 05:34:17
台积电突然断供?直接甩出“稀土”,外媒:这才是真正的杀手锏!

台积电突然断供?直接甩出“稀土”,外媒:这才是真正的杀手锏!

瑛派儿老黄
2026-03-24 18:56:06
欧洲人在性方面有多开放?德国再创历史!女厕所、女浴室随便进了

欧洲人在性方面有多开放?德国再创历史!女厕所、女浴室随便进了

西楼知趣杂谈
2026-03-24 14:38:30
浙江省政府领导班子有调整

浙江省政府领导班子有调整

极目新闻
2026-03-26 09:59:46
头皮发麻!绍兴一住户家中发现枪支

头皮发麻!绍兴一住户家中发现枪支

绍兴E网
2026-03-26 10:13:54
河南男子在县城买下127平房子,4年后回来结婚,打开房门他愣住了

河南男子在县城买下127平房子,4年后回来结婚,打开房门他愣住了

民间精选故事汇
2025-02-01 11:20:02
伊朗新最高领袖莫贾塔巴哈梅内伊已同意与美国进行谈判并达成协议

伊朗新最高领袖莫贾塔巴哈梅内伊已同意与美国进行谈判并达成协议

深度报
2026-03-25 22:47:08
加速冠心病恶化的行为:生气仅排第5,排第1的,很多人每天都在做

加速冠心病恶化的行为:生气仅排第5,排第1的,很多人每天都在做

健康科普365
2026-01-24 18:50:03
AI短剧冲击横店:有演员一个月只接到一部戏,有导演转型做AI剧,“都在寻找出路”

AI短剧冲击横店:有演员一个月只接到一部戏,有导演转型做AI剧,“都在寻找出路”

环球网资讯
2026-03-26 19:40:07
HBO把监狱女囚塞进5星酒店,观众追完4集后评分炸了

HBO把监狱女囚塞进5星酒店,观众追完4集后评分炸了

像素与芯片
2026-03-26 21:37:17
台退役上校呼吁:只要大陆答应2个条件,台湾随时都可以和平统一

台退役上校呼吁:只要大陆答应2个条件,台湾随时都可以和平统一

梦史
2026-03-27 01:05:45
中国摩托在越南被日本本田打的惨败!现在又一路翻盘,太解气!

中国摩托在越南被日本本田打的惨败!现在又一路翻盘,太解气!

万物知识圈
2026-03-26 15:19:33
广东91岁老人让儿子保管900多万养老钱,儿媳去世前却将300多万分给自己姐姐,老人瞬间傻眼,法院:钱是保管不是赠与,全额返还

广东91岁老人让儿子保管900多万养老钱,儿媳去世前却将300多万分给自己姐姐,老人瞬间傻眼,法院:钱是保管不是赠与,全额返还

观威海
2026-03-18 22:11:07
2026-03-27 05:20:49
智东西 incentive-icons
智东西
聚焦智能变革,服务产业升级。
11443文章数 117016关注度
往期回顾 全部

科技要闻

美团发布外卖大战后成绩单:亏损超200亿

头条要闻

特朗普:伊朗允许10艘油轮通行霍尔木兹海峡

头条要闻

特朗普:伊朗允许10艘油轮通行霍尔木兹海峡

体育要闻

申京努力了,然而杜兰特啊

娱乐要闻

刘晓庆妹妹发声!称姐姐受身边人挑拨

财经要闻

油价"驯服"特朗普?一到100美元就TACO

汽车要闻

一汽奥迪A6L e-tron开启预售 CLTC最大续航815km

态度原创

亲子
本地
时尚
手机
公开课

亲子要闻

试工育儿嫂被查出传染病,宝妈崩溃!家政服务“健康关”如何保障?

本地新闻

救命,这只酱板鸭已经在我手机复仇了一万遍

400万人爱过的女孩,被黄谣网暴180天后

手机要闻

1499 iQOO Z11系列发布丨9020mAh电池 165Hz高刷

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版