网易首页 > 网易号 > 正文 申请入驻

OpenAI发布Voice Engine,15秒克隆任何语音,霉霉说中文就靠它

0
分享至

久没动作的OpenAI,今天突然悄咪咪发布了一个新模型。

继文生视频工具Sora后,语音赛道迎来Voice Engine。一个仅使用文本输入和单个15秒音频样本,就能生成与原始说话者声音几乎一模一样,任何内容和语种的自然语音引擎。


官推这次的语气也异常谦虚,没有大张旗鼓地宣告,只是说“我们正在分享从 Voice Engine模型的小规模预览中获得的经验体会。”

毕竟根据他们自己介绍,这款Voice Engine早在2022年底就被开发出来了,最初是用来为文本到语音API以及ChatGPT语音和朗读功能提供支持。只是考虑到合成语音被滥用的潜在风险,才选择谨慎有序地推进和发布。

它最让OpenAI引以为豪的亮点在于,一个小型模型仅使用15秒样本,就能创造出富有感情和逼真的声音。

这听起来并不陌生吧?去年在微博和抖音爆火过一波,让霉霉十级中文唠家常、蔡明阿姨英伦腔讲段子的AIGC初创公司HeyGen,就是这个技术的早期采用者之一。


HeyGen通过使用Voice Engine进行视频翻译,把说话者的声音转换成多种语言,同时保留原始口音,并与面部嘴型无缝同步,形成以假乱真的数字虚拟人化身,应用于从产品营销到教学演示的各类内容。也让无数互联网用户惊呼轻松通晓十门外语不再是梦。

看看B站Up主「量化极客」使用HeyGen制作的李团长原声英文,很对味儿:

HeyGen自己也刚刚在推特发文公布了和OpenAI的合作关系。秘密保守到现在,终于可以光明正大的PR了!


其它内测应用实例

除了给HeyGen的内容创作提供语音翻译支持,从去年底开始,OpenAI也与少数其它合作伙伴进行了私下测试。获得一些Voice Engine模型在各个行业中的早期应用示例:

  1. 提供阅读辅助

对于儿童或没有阅读能力的人群,Vocie Engine可以用自然而富有感情的声音充当他们的阅读助手。儿童教育科技公司 Age of Learning就一直使用它生成预编排的配音内容,并与GPT-4结合来创建实时个性化响应,与学生互动。

比如有了下面这段解释物理概念“力”的语音:

就可以获得同样音色讲解其它学科,像是生物的音频内容。大大节省劳动力,配音员从此失业。


  1. 改善偏远地区基础服务,触及全球社区

对于一些发展相对滞后、非通用语种的地区,Vocie Engine能通过快速同步最新资讯,协助改善公民基础服务。例如专注于为全球公益组织提供尖端数字健康解决方案的初创公司Dimagi,就使用Voice Engine和GPT-4,为社区卫生工作者构建工具,帮助他们发展技能,并用他们的母语提供互动反馈。

下面这段参考语音是坦桑尼亚、肯尼亚和乌干达的官方语言斯瓦西里语,在非洲共有5500万人使用。

Voice Engine以此为基础,生成斯瓦西里语版的新手妈妈母乳咨询指导。打破了物理障碍,为本地人群提供极大便利。


  1. 辅助语音表达障碍人群

例如为语言能力受损的患者提供治疗应用程序,或为有学习需求的患者提供教育增强功能。

Livox是一款AI辅助沟通应用程序,为残疾人提供辅助及替代沟通设备,帮助他们交流。通过使用Voice Engine,Livox能够为无法用语音表达的人群提供独特且不机械化的语音选择。用户可以挑选最能代表自己个性的声音,双语人士还能在多语种中保持口音一致。

  1. 帮助患者恢复语音

针对那些遭受突发性或渐进性语言障碍的患者,布朗大学医学院附属的Norman Prince神经科学研究所正在探索AI在临床环境中的应用。他们一直在试验的一个项目,是用Voice Engine为因癌症或神经系统疾病导致语言障碍的个人提供帮助。

由于Voice Engine只需要15秒这样简短的音频样本,几位医生仅利用一位年轻患者曾经录制的视频,就为她恢复了因脑血管肿瘤而失去的流利语音。

这位患者现在声音听起来是下面的样子:

Hi everyone, this is what my voice sounds like using OpenAI's new text to speech model called Voice Engine. I was able to use just 15 seconds of a video that I made for a class project to be the reference audio source for the voice you hear right now. What do you think?

作为参考的是她健康时录制过的课堂项目视频声音:

在Voice Engine帮助下,她能够重拾曾经的声音,在餐厅给自己点一份薯条和草莓奶昔:

Can I please have a number one with large fries and with a strawberry shake?

构建Voice Engine的安全问题

对于近期合成语音引发的电信诈骗、版权侵害等社会风险问题,OpenAI也表示,开发过程中一直在与政府、媒体、教育等社会各界的美国和国际合作伙伴接触,保证听取和采纳反馈。并实施了一系列包括为Voice Engine生成的音频进行水印追踪来源、主动监控其使用情况等安全措施。

OpenAI把Voice Engine作为帮助社会理解技术前沿和AI所能实现的延续,现阶段选择预览但不广泛发布,未来会就是否以及如何大规模部署这项技术做出更明智的决定。

鉴于现在生成式AI在语音方面的巨大潜力,OpenAI也强烈指出全社会都要加强应对挑战的能力,并提出几点参考建议:

  1. 逐步淘汰基于语音的身份验证作为访问银行账户和其他敏感信息的安全措施。

  2. 探索保护个人声音在AI中使用的政策。

  3. 教育公众了解AI技术的能力和局限性,包括存在欺骗性AI内容的可能性。

  4. 加快开发和采用追踪视听内容来源的技术,以便随时明确您是与真人还是与AI互动。

  5. 无论OpenAI最终是否自己广泛部署这项技术,人们都要了解它的发展方向。期待继续与决策者、研究人员、开发者和创作者就合成语音的挑战和机遇展开对话。

此前Sam Altman表示会在官宣新的LLM前,逐步放出一系列新产品。如今的语音引擎Voice Engine应该就是其中之一。而且可以推测,今天放出的22年底预览版,经过一年半的训练,绝对已经进化成了更强大的样子。

OpenAI方方面面依然领跑?

AI爆料大神Jimmy Apples转发道:“我们最初在2022年底开发Voice Engine”就说明一切了,果然OpenAI又走在了前头。


网友大赞,表示AI的未来是语音而不是打字,如果这种声音复制和多语言切换技术集成到具身智能,人类与机器人对话将变得惊艳无比。

提起Hume AI刚发布的具有情感感知能力的对话式AI「EVI」,评论区也断言,OpenAI不会让Hume AI霸占聚光灯太久。


当然也有人说了,不公开发布都不算,继续等Sora。


继续有人抗议现在的GPT体验感越来越差。

(关于这一点,有小伙伴推测,为了节省算力服务更多用户,OpenAI一直在偷偷更换成更差的模型,在解决基础问题上表现大差不差即可,GPT-4现在只是个名字而已。不知大家怎么想?)


总体来说,今天OpenAI公开的这个语音模型Voice Engine,透露出这么几点讯息:

1. OpenAI早就开始了合成语音布局,现在分享的最早期版本只是小秀肌肉,内部应该已经强力迭代过。2. 从OpenAI通篇官宣文来看,面对合成语音这个日益敏感的领域,短期内估计不会向公众推出了。3. OpenAI现在非常注重塑造安全负责的企业形象,我们或许可以期待 Sora和Voice Engine以怎样的模式集成到下一代 GPT。

最后再插播一条突发新闻,The Information刚刚独家报道,据知情人士透露,微软和OpenAI将合力打造一台成本高达1000亿美元,拥有数百万个GPU的超级计算机「Stargate(星门)」。它将为OpenAI的人工智能提供动力,算力会比现在微软给OpenAI的支持直接提升几个量级。


昨天大家还在热议亚马逊给追加的Anthropic 27.5亿美元投资,今天OpenAI又来一个猛的——AI大战,真的是停不下来了。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
王沪宁会见傅崐萁,释放重要信号

王沪宁会见傅崐萁,释放重要信号

政知新媒体
2024-04-28 16:44:46
最贵ST股退市!人性的贪婪在ST左江上体现的淋漓尽致!

最贵ST股退市!人性的贪婪在ST左江上体现的淋漓尽致!

惜别的海岸
2024-04-29 09:19:56
回归!小杨哥再带货,人气破50W,礼物刷屏,22分钟销售额8000W+

回归!小杨哥再带货,人气破50W,礼物刷屏,22分钟销售额8000W+

郑丁嘉话
2024-04-29 10:32:00
央妈“排查”结果出来了:国内能一次性拿出50万的家庭,超乎想象

央妈“排查”结果出来了:国内能一次性拿出50万的家庭,超乎想象

猫叔东山再起
2024-04-23 13:24:09
“最美女婴”一出生就走红,用颜值征服网友,护士:百年难遇

“最美女婴”一出生就走红,用颜值征服网友,护士:百年难遇

小孩说
2024-04-28 11:04:47
关之琳终究是老了!素颜脸部凹陷气色暗沉,全靠“穿搭”撑气质

关之琳终究是老了!素颜脸部凹陷气色暗沉,全靠“穿搭”撑气质

宋若时尚搭
2024-04-28 11:26:29
乌军总司令:局势已经恶化

乌军总司令:局势已经恶化

环球时报新闻
2024-04-28 23:51:49
掘金官宣穆雷,湖人4-3翻盘有戏!哈登重返巅峰,西部一夜变天了

掘金官宣穆雷,湖人4-3翻盘有戏!哈登重返巅峰,西部一夜变天了

林子说事
2024-04-29 12:47:12
中央5台直播足球时间表:4月29日CCTV5直播U23亚洲杯半决赛!

中央5台直播足球时间表:4月29日CCTV5直播U23亚洲杯半决赛!

阳阳聊情感
2024-04-29 12:50:09
炸裂!深圳一女子同房太激烈致腹腔破裂,男子隐瞒身份,评论亮了

炸裂!深圳一女子同房太激烈致腹腔破裂,男子隐瞒身份,评论亮了

今日养生之道
2024-04-28 21:22:07
Lisa和LV三公子大白天一起逛公园,Lisa太子妃身份稳了!

Lisa和LV三公子大白天一起逛公园,Lisa太子妃身份稳了!

室内设计师阿喇
2024-04-29 10:06:58
终于有网友整理出了徐波事件的前因后果

终于有网友整理出了徐波事件的前因后果

清晖有墨
2024-04-27 07:55:22
黄春梅谴责汪小菲忘恩负义:大S好心帮你养孩子,你却总利用大S

黄春梅谴责汪小菲忘恩负义:大S好心帮你养孩子,你却总利用大S

西瓜叨娱乐
2024-04-29 06:05:03
重庆市政府召开专项会议,全力支持金科股份重整成功

重庆市政府召开专项会议,全力支持金科股份重整成功

每日经济新闻
2024-04-29 09:58:12
问界M9底盘用料太吓人了,可以比肩合资50-100万间任意车型!

问界M9底盘用料太吓人了,可以比肩合资50-100万间任意车型!

热爱娱乐等
2024-03-15 15:05:48
太值了!贝蒂斯免签32岁伊斯科,西甲出场27场18次全场最佳

太值了!贝蒂斯免签32岁伊斯科,西甲出场27场18次全场最佳

直播吧
2024-04-29 07:34:28
太炸裂!阿尔巴尼亚新闻女主播西装内搭空气出镜,胸前引发争议

太炸裂!阿尔巴尼亚新闻女主播西装内搭空气出镜,胸前引发争议

娱乐百灵鸟V3
2024-04-29 06:20:07
美国大联盟官方数据:梅西的进球和助攻都是联盟第一!

美国大联盟官方数据:梅西的进球和助攻都是联盟第一!

历史第一人梅西
2024-04-28 17:06:07
几乎全是假货,利润率高达650%,为何很多人仍然愿意被割韭菜!

几乎全是假货,利润率高达650%,为何很多人仍然愿意被割韭菜!

盛世科记
2024-04-21 10:00:48
里弗斯:球员们都拼尽全力了 我真的很喜欢这支球队

里弗斯:球员们都拼尽全力了 我真的很喜欢这支球队

直播吧
2024-04-29 12:00:24
2024-04-29 14:02:44
硅星GenAI
硅星GenAI
比一部分人更先进入GenAl。
43文章数 5关注度
往期回顾 全部

科技要闻

马斯克想把特斯拉中国数据送出国 这事太难

头条要闻

睡实验室门口学者再晒照 质疑单位对其意见"已读不回"

头条要闻

睡实验室门口学者再晒照 质疑单位对其意见"已读不回"

体育要闻

湖人的G4,尽人事得到了回报

娱乐要闻

田馥甄遭抵制,蔡依林却能稳稳捞金?

财经要闻

问界M7追尾起火3人遇难 四大疑问待解

汽车要闻

配置更丰富 静态体验2024款欧拉好猫

态度原创

健康
教育
亲子
家居
房产

春天野菜不知不识莫乱吃

教育要闻

看来还是我表达方式有问题……还有人听不懂!

亲子要闻

36岁,我单身冻卵被拒第5年

家居要闻

光影之间 空间暖意打造生活律动

房产要闻

力度越来越大!落户两年享本地居民购房政策,海南第16城松绑限购!

无障碍浏览 进入关怀版