网易首页 > 网易号 > 正文 申请入驻

AI涌现人类情感!希腊「乐之神」Orpheus开源,单卡可跑语音流式推理

0
分享至

新智元报道

编辑:KingHZ

【新智元导读】开源语音模型Orpheus让LLM涌现出人类情感!在A100 40GB显卡上,30亿参数模型的流式推理速度甚至超过了音频播放速度。甚至可以zero-shot克隆声音。

大语言模型(LLM)还能涌现什么能力?

这次开源模型Orpheus,直接让LLM涌现人类情感!

对此,Canopy Labs的开源开发者Elias表示Orpheus就像人类一样,已经拥有共情能力,能从文本中产生潜在的线索,比如叹息、欢笑和嗤笑。

作为开源的文本转语音(Text to Speech,TTS)模型,Orpheus性能超越了包括ElevenLabs和OpenAI在内的所有开源/闭源模型!

Orpheus成功证明了LLM在语音合成领域的涌现能力。

Orpheus表现出了共情能力,情智媲美人类,甚至可以从文字本身中生成叹息、笑声、轻笑等潜在的音调。

一直以来,开源TTS模型都无法与闭源模型竞争,而今天,这一局面开始发生改变,Ophueus颠覆语音界!

新开源的Orpheus有4大特点:

  • 拟人化语音:具备自然的语调、情感和节奏,效果优于当前最先进(SOTA)的闭源模型。

  • 零样本语音克隆:无需额外微调即可克隆声音。

  • 可控情感与语调:使用简单的标签即可调整语音的情感和特征。

  • 低延迟:流式推理延迟约200ms,结合输入流式处理可降低至100ms,适用于实时应用。

流式推理可在音频生成过程中逐步输出结果,使延迟极低,适用于实时应用。

在A100 40GB显卡上,30亿参数模型的流式推理速度,甚至快于音频播放速度。

项目地址:https://github.com/canopyai/Orpheus-TTS

模型地址:https://huggingface.co/collections/canopylabs/orpheus-tts-67d9ea3f6c05a941c06ad9d2

4大模型

Orpheus是由多个预训练和微调模型组成的系列,拥有30亿参数。

在未来几天内,开发者将发布更小规模的模型,包括10亿、5亿和1.5亿参数版本。

基于Llama架构,开源开发者还将发布预训练和微调模型,提供四种不同规模:

Medium – 30 亿参数

Small – 10 亿参数

Tiny – 4 亿参数

Nano – 1.5 亿参数

即使在极小的模型规模下,依然能实现极高质量、富有美感的语音生成。

微调模型适用于对话场景,而预训练模型可以用于多种下游任务,例如语音克隆或语音分类。

模型架构和设计

预训练模型采用Llama-3B作为基础架构,并在超过10万小时的英语语音数据和数十亿个文本token上进行了训练。

通过训练文本token,显著提升了模型在TTS任务上的表现,使其具备更强的语言理解能力。

由于采用了LLM架构,模型具备高精度、强表现力和高度可定制性。

新模型支持实时语音输出流式推理,延迟低至约200毫秒,适用于对话类应用。

如果希望进一步降低延迟,可以将文本流式输入到模型的KV缓存中,从而将延迟降低至约25-50毫秒。

在实时语音的设计上,采用了两种突破传统的方法:基于CNN的tokenizer

使用Snac采样不同频率的token,并将其展平

每帧生成7个token,并作为单个展平序列解码,而非使用7个LM头进行解码。

这样,模型需要生成的步数增加,但在A100或H100 GPU上,使用vLLM实现后,模型的token生成速度仍然快于实时播放,因此即使是较长的语音序列,也能保持实时生成。

Orpheus采用了非流式(基于CNN)的tokenizer。

其他使用SNAC作为解码器的语音LLM,在去token化时,会出现帧之间的「弹跳(popping)」现象。

Orpheus通过滑动窗口改进了去token化的实现,使其支持流式推理,同时完全消除popping问题。

使用教程

本次发布包含三款模型。

此外,还提供了数据处理脚本和示例数据集,方便用户轻松进行自定义微调。

目前,共有两款模型:

Finetuned Prod:针对日常TTS应用微调的高质量模型,适用于日常TTS应用的微调模型。

Pretrained:预训练基础模型,基于10万+小时的英语语音数据训练而成,预设为条件生成模式,可扩展至更多任务。

流式推理

1.克隆仓库

git clone https://github.com/canopyai/Orpheus-TTS.git

2.安装依赖

cd Orpheus-TTS && pip install orpheus-speech # uses vllm under the hood for fast inference

pip install vllm==0.7.3

3.运行流式推理示例

from orpheus_tts import OrpheusModel
import wave
import time

model = OrpheusModel(model_name ="canopylabs/orpheus-tts-0.1-finetune-prod")
prompt = '''Man, the way social media has, um, completely changed how we interact is just wild, right? Like, we're all connected 24/7 but somehow people feel more alone than ever. And don't even get me started on how it's messing with kids' self-esteem and mental health and whatnot.'''

start_time = time.monotonic()
syn_tokens = model.generate_speech(
   prompt=prompt,
   voice="tara",
   )

with wave.open("output.wav", "wb") as wf:
   wf.setnchannels(1)
   wf.setsampwidth(2)
   wf.setframerate(24000)

   total_frames = 0
   chunk_counter = 0
   for audio_chunk in syn_tokens: # output streaming
      chunk_counter += 1
      frame_count = len(audio_chunk) // (wf.getsampwidth() * wf.getnchannels())
      total_frames += frame_count
      wf.writeframes(audio_chunk)
   duration = total_frames / wf.getframerate()

   end_time = time.monotonic()
   print(f"It took {end_time - start_time} seconds to generate {duration:.2f} seconds of audio")

提示格式

1. 微调模型

主要的文本提示格式为:

{name}: I went to the ...

可选的姓名(按对话自然度排序,主观评估):「tara」, 「leah」, 「jess」, 「leo」, 「dan」, 「mia」, 「zac」, 「zoe」。

可添加情感标签:

, , , , , , ,

Python包orpheus-speech和Notebook会自动格式化提示,无需手动调整。

2. 预训练模型

适用于仅基于文本生成语音,或基于一个或多个已有的文本-语音对生成语音。

零样本语音克隆:此模型未经过专门训练,因此输入的文本-语音对越多,生成目标声音的效果越稳定。

下列参数调整,适用于所有模型:

常规LLM生成参数:支持temperature、top_p等。

避免重复:repetition_penalty >= 1.1可提高稳定性。

语速调整:提高repetition_penalty和temperature会让语速变快。

模型微调

以下是关于如何对任何文本和语音进行模型微调的概述。

这个过程非常简单,类似于使用Trainer和Transformers来调整LLM(大语言模型)。

在大约50个样本后,应该开始看到高质量的结果,但为了达到最佳效果,建议每人提供300个样本。

第一步:数据集应该是一个Hugging Face数据集,格式如下:

第二步:使用Colab Notebook来准备数据。

这会将一个中间数据集推送到Hugging Face,然可以将它输入到finetune/train.py中的训练脚本中。

预处理估计每千行数据花费不到1分钟的时间。

第三步:修改finetune/config.yaml文件,包含新的数据集和训练属性,然后运行训练脚本。

还可以运行任何与Hugging Face兼容的进程,比如Lora,来进一步调整模型。

 pip install transformers datasets wandb trl flash_attn torch
 huggingface-cli login 
               
  wandb login 
                  
  accelerate launch train.py 
         
       

这只是Canopy Labs打造的众多技术之一。

他们相信未来,每一个AI应用都将化身为可以与人互动的「数字人」。

参考资料:

https://canopylabs.ai/model-releases

https://x.com/Eliasfiz/status/1902435597954003174

https://x.com/shao__meng/status/1902504856277189027

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
库里可以接着休息了!东部只剩理论!

库里可以接着休息了!东部只剩理论!

篮球大图
2026-03-26 11:25:14
深圳双雄互撕!大疆一纸诉状,影石一天没了50亿

深圳双雄互撕!大疆一纸诉状,影石一天没了50亿

野马财经
2026-03-26 16:39:35
谷歌新算法引发美股存储板块集体下挫

谷歌新算法引发美股存储板块集体下挫

金融界
2026-03-26 09:37:28
退役体操冠军,直播“擦边”之后

退役体操冠军,直播“擦边”之后

中国新闻周刊
2026-03-25 21:34:08
北院裁定17年六个月,柯文哲去向已明,黄国昌说到做到,绿营急了

北院裁定17年六个月,柯文哲去向已明,黄国昌说到做到,绿营急了

爱看剧的阿峰
2026-03-26 16:32:02
80年陈云建议陈锡联辞职,陈锡联猛拍桌:让我干啥,我绝无二话!

80年陈云建议陈锡联辞职,陈锡联猛拍桌:让我干啥,我绝无二话!

抽象派大师
2026-03-25 12:04:28
马英九基金会决定中止今年两岸青年交流,马应该出面声明!

马英九基金会决定中止今年两岸青年交流,马应该出面声明!

达文西看世界
2026-03-26 10:58:22
明天起,高速缴费“大变脸”!车主:早该这样了!

明天起,高速缴费“大变脸”!车主:早该这样了!

小李子体育
2026-03-26 02:23:44
航天少帅谭瑞松被判死缓 不执行死刑和终身监禁

航天少帅谭瑞松被判死缓 不执行死刑和终身监禁

小鹿姐姐情感说
2026-03-26 02:23:54
不得不说,面相真的能看出一个人的路子。停播快两个月的李亚鹏,

不得不说,面相真的能看出一个人的路子。停播快两个月的李亚鹏,

小光侃娱乐
2026-03-26 17:05:03
贾国龙焖面生意其实很好,粉丝:40一碗面嫌贵趁早滚出北京

贾国龙焖面生意其实很好,粉丝:40一碗面嫌贵趁早滚出北京

映射生活的身影
2026-03-26 17:11:14
15战14胜,加时掀翻东部第一!新鹰王27+8+12证明贱卖特雷杨有理

15战14胜,加时掀翻东部第一!新鹰王27+8+12证明贱卖特雷杨有理

锅子篮球
2026-03-26 11:25:55
刘青山和张子善一起贪污171.6亿旧人民币,放到现在能值多少钱

刘青山和张子善一起贪污171.6亿旧人民币,放到现在能值多少钱

鹤羽说个事
2026-03-25 22:25:17
《红楼梦》成就的3段姻缘,对对恩爱到白头,活成爱情最好的模样

《红楼梦》成就的3段姻缘,对对恩爱到白头,活成爱情最好的模样

上官晚安
2026-03-26 06:48:44
伊朗军方:中东地区内“所有美军基地已被摧毁” 部分美军指挥官和士兵已离开基地 伊朗武装力量正展开搜捕

伊朗军方:中东地区内“所有美军基地已被摧毁” 部分美军指挥官和士兵已离开基地 伊朗武装力量正展开搜捕

闪电新闻
2026-03-26 10:00:46
表姑向我借了85000,17年没还,我去银行注销旧卡时,柜员看了眼卡说:女士,最后一笔转账留言您要看吗?

表姑向我借了85000,17年没还,我去银行注销旧卡时,柜员看了眼卡说:女士,最后一笔转账留言您要看吗?

背包旅行
2026-03-26 15:03:43
张雪峰的病,速效救心丸能救吗?

张雪峰的病,速效救心丸能救吗?

中国新闻周刊
2026-03-25 16:23:30
拉里贾尼继任者不到一天被杀,川普加派82空降师开赴中东

拉里贾尼继任者不到一天被杀,川普加派82空降师开赴中东

移光幻影
2026-03-26 09:56:37
别再说微胖的女生穿紧身牛仔裤显胖了!这身材谁看了不迷糊

别再说微胖的女生穿紧身牛仔裤显胖了!这身材谁看了不迷糊

牛弹琴123456
2026-03-22 13:59:13
中东大战,真正让特朗普害怕的是:中国的已读不回!

中东大战,真正让特朗普害怕的是:中国的已读不回!

似水流年忘我
2026-03-26 02:13:59
2026-03-26 18:43:00
新智元 incentive-icons
新智元
AI产业主平台领航智能+时代
14821文章数 66721关注度
往期回顾 全部

科技要闻

Meta高管狂分百亿期权,700名员工却下岗

头条要闻

原正部级刘慧被开除党籍:结交政治骗子 匿名诬告他人

头条要闻

原正部级刘慧被开除党籍:结交政治骗子 匿名诬告他人

体育要闻

申京努力了,然而杜兰特啊

娱乐要闻

张雪峰家人首发声 不设追思会丧事从简

财经要闻

油价"驯服"特朗普?一到100美元就TACO

汽车要闻

一汽奥迪A6L e-tron开启预售 CLTC最大续航815km

态度原创

房产
教育
旅游
公开课
军事航空

房产要闻

突发,三亚又有大批征迁补偿方案出炉!

教育要闻

2026高考捡漏指南:西安藏着4所“就业王炸”院校,考生闭眼冲

旅游要闻

世界那么大,来安美如画丨「与V四季行」倒计时1天,这份春日请柬请查收→

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

担心特朗普突然停战 以总理下令48小时尽力摧毁伊设施

无障碍浏览 进入关怀版