网易首页 > 网易号 > 正文 申请入驻

OpenAI发布Voice Engine,15秒克隆任何语音,霉霉说中文就靠它

0
分享至

久没动作的OpenAI,今天突然悄咪咪发布了一个新模型。

继文生视频工具Sora后,语音赛道迎来Voice Engine。一个仅使用文本输入和单个15秒音频样本,就能生成与原始说话者声音几乎一模一样,任何内容和语种的自然语音引擎。


官推这次的语气也异常谦虚,没有大张旗鼓地宣告,只是说“我们正在分享从 Voice Engine模型的小规模预览中获得的经验体会。”

毕竟根据他们自己介绍,这款Voice Engine早在2022年底就被开发出来了,最初是用来为文本到语音API以及ChatGPT语音和朗读功能提供支持。只是考虑到合成语音被滥用的潜在风险,才选择谨慎有序地推进和发布。

它最让OpenAI引以为豪的亮点在于,一个小型模型仅使用15秒样本,就能创造出富有感情和逼真的声音。

这听起来并不陌生吧?去年在微博和抖音爆火过一波,让霉霉十级中文唠家常、蔡明阿姨英伦腔讲段子的AIGC初创公司HeyGen,就是这个技术的早期采用者之一。


HeyGen通过使用Voice Engine进行视频翻译,把说话者的声音转换成多种语言,同时保留原始口音,并与面部嘴型无缝同步,形成以假乱真的数字虚拟人化身,应用于从产品营销到教学演示的各类内容。也让无数互联网用户惊呼轻松通晓十门外语不再是梦。

看看B站Up主「量化极客」使用HeyGen制作的李团长原声英文,很对味儿:

HeyGen自己也刚刚在推特发文公布了和OpenAI的合作关系。秘密保守到现在,终于可以光明正大的PR了!


其它内测应用实例

除了给HeyGen的内容创作提供语音翻译支持,从去年底开始,OpenAI也与少数其它合作伙伴进行了私下测试。获得一些Voice Engine模型在各个行业中的早期应用示例:

  1. 提供阅读辅助

对于儿童或没有阅读能力的人群,Vocie Engine可以用自然而富有感情的声音充当他们的阅读助手。儿童教育科技公司 Age of Learning就一直使用它生成预编排的配音内容,并与GPT-4结合来创建实时个性化响应,与学生互动。

比如有了下面这段解释物理概念“力”的语音:

就可以获得同样音色讲解其它学科,像是生物的音频内容。大大节省劳动力,配音员从此失业。


  1. 改善偏远地区基础服务,触及全球社区

对于一些发展相对滞后、非通用语种的地区,Vocie Engine能通过快速同步最新资讯,协助改善公民基础服务。例如专注于为全球公益组织提供尖端数字健康解决方案的初创公司Dimagi,就使用Voice Engine和GPT-4,为社区卫生工作者构建工具,帮助他们发展技能,并用他们的母语提供互动反馈。

下面这段参考语音是坦桑尼亚、肯尼亚和乌干达的官方语言斯瓦西里语,在非洲共有5500万人使用。

Voice Engine以此为基础,生成斯瓦西里语版的新手妈妈母乳咨询指导。打破了物理障碍,为本地人群提供极大便利。


  1. 辅助语音表达障碍人群

例如为语言能力受损的患者提供治疗应用程序,或为有学习需求的患者提供教育增强功能。

Livox是一款AI辅助沟通应用程序,为残疾人提供辅助及替代沟通设备,帮助他们交流。通过使用Voice Engine,Livox能够为无法用语音表达的人群提供独特且不机械化的语音选择。用户可以挑选最能代表自己个性的声音,双语人士还能在多语种中保持口音一致。

  1. 帮助患者恢复语音

针对那些遭受突发性或渐进性语言障碍的患者,布朗大学医学院附属的Norman Prince神经科学研究所正在探索AI在临床环境中的应用。他们一直在试验的一个项目,是用Voice Engine为因癌症或神经系统疾病导致语言障碍的个人提供帮助。

由于Voice Engine只需要15秒这样简短的音频样本,几位医生仅利用一位年轻患者曾经录制的视频,就为她恢复了因脑血管肿瘤而失去的流利语音。

这位患者现在声音听起来是下面的样子:

Hi everyone, this is what my voice sounds like using OpenAI's new text to speech model called Voice Engine. I was able to use just 15 seconds of a video that I made for a class project to be the reference audio source for the voice you hear right now. What do you think?

作为参考的是她健康时录制过的课堂项目视频声音:

在Voice Engine帮助下,她能够重拾曾经的声音,在餐厅给自己点一份薯条和草莓奶昔:

Can I please have a number one with large fries and with a strawberry shake?

构建Voice Engine的安全问题

对于近期合成语音引发的电信诈骗、版权侵害等社会风险问题,OpenAI也表示,开发过程中一直在与政府、媒体、教育等社会各界的美国和国际合作伙伴接触,保证听取和采纳反馈。并实施了一系列包括为Voice Engine生成的音频进行水印追踪来源、主动监控其使用情况等安全措施。

OpenAI把Voice Engine作为帮助社会理解技术前沿和AI所能实现的延续,现阶段选择预览但不广泛发布,未来会就是否以及如何大规模部署这项技术做出更明智的决定。

鉴于现在生成式AI在语音方面的巨大潜力,OpenAI也强烈指出全社会都要加强应对挑战的能力,并提出几点参考建议:

  1. 逐步淘汰基于语音的身份验证作为访问银行账户和其他敏感信息的安全措施。

  2. 探索保护个人声音在AI中使用的政策。

  3. 教育公众了解AI技术的能力和局限性,包括存在欺骗性AI内容的可能性。

  4. 加快开发和采用追踪视听内容来源的技术,以便随时明确您是与真人还是与AI互动。

  5. 无论OpenAI最终是否自己广泛部署这项技术,人们都要了解它的发展方向。期待继续与决策者、研究人员、开发者和创作者就合成语音的挑战和机遇展开对话。

此前Sam Altman表示会在官宣新的LLM前,逐步放出一系列新产品。如今的语音引擎Voice Engine应该就是其中之一。而且可以推测,今天放出的22年底预览版,经过一年半的训练,绝对已经进化成了更强大的样子。

OpenAI方方面面依然领跑?

AI爆料大神Jimmy Apples转发道:“我们最初在2022年底开发Voice Engine”就说明一切了,果然OpenAI又走在了前头。


网友大赞,表示AI的未来是语音而不是打字,如果这种声音复制和多语言切换技术集成到具身智能,人类与机器人对话将变得惊艳无比。

提起Hume AI刚发布的具有情感感知能力的对话式AI「EVI」,评论区也断言,OpenAI不会让Hume AI霸占聚光灯太久。


当然也有人说了,不公开发布都不算,继续等Sora。


继续有人抗议现在的GPT体验感越来越差。

(关于这一点,有小伙伴推测,为了节省算力服务更多用户,OpenAI一直在偷偷更换成更差的模型,在解决基础问题上表现大差不差即可,GPT-4现在只是个名字而已。不知大家怎么想?)


总体来说,今天OpenAI公开的这个语音模型Voice Engine,透露出这么几点讯息:

1. OpenAI早就开始了合成语音布局,现在分享的最早期版本只是小秀肌肉,内部应该已经强力迭代过。2. 从OpenAI通篇官宣文来看,面对合成语音这个日益敏感的领域,短期内估计不会向公众推出了。3. OpenAI现在非常注重塑造安全负责的企业形象,我们或许可以期待 Sora和Voice Engine以怎样的模式集成到下一代 GPT。

最后再插播一条突发新闻,The Information刚刚独家报道,据知情人士透露,微软和OpenAI将合力打造一台成本高达1000亿美元,拥有数百万个GPU的超级计算机「Stargate(星门)」。它将为OpenAI的人工智能提供动力,算力会比现在微软给OpenAI的支持直接提升几个量级。


昨天大家还在热议亚马逊给追加的Anthropic 27.5亿美元投资,今天OpenAI又来一个猛的——AI大战,真的是停不下来了。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
布林肯走了,大变局来了:将有哪些国家,会出现在“菜单”上?

布林肯走了,大变局来了:将有哪些国家,会出现在“菜单”上?

创作者_1660054629785
2024-04-29 10:44:32
最多90分药厂战平斯图加特 已无缘打破12/13赛季拜仁91分纪录

最多90分药厂战平斯图加特 已无缘打破12/13赛季拜仁91分纪录

直播吧
2024-04-28 16:39:12
高盛说了中国的房地产要跌到 2027 年,而且还要跌 40%。

高盛说了中国的房地产要跌到 2027 年,而且还要跌 40%。

维纳斯的眼泪
2024-04-24 19:04:01
美国多人使用“吸血鬼面膜”感染艾滋病:抽自己血扎自己脸,全球广泛应用

美国多人使用“吸血鬼面膜”感染艾滋病:抽自己血扎自己脸,全球广泛应用

金羊网
2024-04-29 08:16:31
湖人掘金公布G5伤病报告:范德彪有望复出 穆雷左腿拉伤出战成疑

湖人掘金公布G5伤病报告:范德彪有望复出 穆雷左腿拉伤出战成疑

罗说NBA
2024-04-29 07:42:30
穆雷受伤一幕曝光!跳投命中捂着小腿很痛苦,系列赛果然迎来转折

穆雷受伤一幕曝光!跳投命中捂着小腿很痛苦,系列赛果然迎来转折

开心体育站
2024-04-29 12:25:09
黄春梅谴责汪小菲忘恩负义:大S好心帮你养孩子,你却总利用大S

黄春梅谴责汪小菲忘恩负义:大S好心帮你养孩子,你却总利用大S

西瓜叨娱乐
2024-04-29 06:05:03
朱胜利任安徽海螺集团有限责任公司党委副书记,提名任董事、总经理

朱胜利任安徽海螺集团有限责任公司党委副书记,提名任董事、总经理

界面新闻
2024-04-29 12:56:37
人民银行为什么要在二级市场买卖国债?目的很简单,没有那么复杂

人民银行为什么要在二级市场买卖国债?目的很简单,没有那么复杂

居家理财
2024-04-28 23:27:54
中央5台直播足球时间表:4月29日CCTV5直播U23亚洲杯半决赛!

中央5台直播足球时间表:4月29日CCTV5直播U23亚洲杯半决赛!

阳阳聊情感
2024-04-29 12:50:09
1994年,尼克松遗言:我很后悔访华,我们可能创造了一个科学怪物

1994年,尼克松遗言:我很后悔访华,我们可能创造了一个科学怪物

百年历史老号
2024-04-26 16:47:47
玄学提醒:未来几年,尽量不要去人多的地方

玄学提醒:未来几年,尽量不要去人多的地方

神奇故事
2024-04-28 23:54:01
解放前,一侦查员将被处决,房东送断头饭时悄声道:这饭要仔细吃

解放前,一侦查员将被处决,房东送断头饭时悄声道:这饭要仔细吃

百年历史老号
2024-04-25 19:23:29
爱上兄弟的妈妈,兄弟竟有意撮合,从此我过上了不一样的生活

爱上兄弟的妈妈,兄弟竟有意撮合,从此我过上了不一样的生活

解忧坊
2023-11-01 00:00:03
中国人在越南旅游亲历:越南女人虽漂亮但不敢娶,原因令人新奇

中国人在越南旅游亲历:越南女人虽漂亮但不敢娶,原因令人新奇

侃侃儿谈
2024-03-21 11:59:06
王沪宁会见傅崐萁,释放重要信号

王沪宁会见傅崐萁,释放重要信号

政知新媒体
2024-04-28 16:44:46
当年为救钱学森,中国付出了什么代价?筹码大到让美国无法拒绝!

当年为救钱学森,中国付出了什么代价?筹码大到让美国无法拒绝!

可乐88
2024-04-15 09:01:57
笑麻了!南昌连续三次向游客喊话来旅游,网友:不会日语怎么办?

笑麻了!南昌连续三次向游客喊话来旅游,网友:不会日语怎么办?

小白探影8
2024-04-27 15:32:03
上海还是浙江?理性分析新疆次轮打谁胜率更大

上海还是浙江?理性分析新疆次轮打谁胜率更大

室内设计师阿喇
2024-04-29 12:38:16
四川夫妻吵架后要离婚,老公搂着娃一动不动,网友:感觉他要碎了

四川夫妻吵架后要离婚,老公搂着娃一动不动,网友:感觉他要碎了

大脸猫做局
2024-04-25 14:32:06
2024-04-29 14:18:44
硅星GenAI
硅星GenAI
比一部分人更先进入GenAl。
43文章数 5关注度
往期回顾 全部

科技要闻

马斯克想把特斯拉中国数据送出国 这事太难

头条要闻

睡实验室门口学者再晒照 质疑单位对其意见"已读不回"

头条要闻

睡实验室门口学者再晒照 质疑单位对其意见"已读不回"

体育要闻

湖人的G4,尽人事得到了回报

娱乐要闻

田馥甄遭抵制,蔡依林却能稳稳捞金?

财经要闻

问界M7追尾起火3人遇难 四大疑问待解

汽车要闻

配置更丰富 静态体验2024款欧拉好猫

态度原创

时尚
游戏
房产
本地
手机

没有“油腻感”的女人,穿衣都有这些特点,学起来才能美到老

玩家力量很强大!已有超4万人请愿《剑星》回滚版本

房产要闻

力度越来越大!落户两年享本地居民购房政策,海南第16城松绑限购!

本地新闻

云游中国|苗族蜡染:九黎城的“潮”文化

手机要闻

华为Pura 70零件已实现90%本土制造 100%存在挑战

无障碍浏览 进入关怀版