网易首页 > 网易号 > 正文 申请入驻

阿里深夜开源Qwen3-TTS,最强AI语音模型,太逼真了!

0
分享至

关注CAIE,国内头部AI人才认证、培训体系,助你在职场升职加薪。

阿里巴巴千问实验室开源了最新语音模型Qwen3-TTS。

Qwen3-TTS一出来直接把语音合成的门槛拉到最低还把性能卷到了新高度。

说真的,用过不少TTS工具,但能同时做到上海话、四川话等10种语言流畅切换、3秒克隆语音、还能超低延迟实时输出的这是头一个,已经是目前最强的开源AI模型了。


开源地址:https://huggingface.co/collections/Qwen/qwen3-tts

Github:https://github.com/QwenLM/Qwen3-TTS

论文:https://github.com/QwenLM/Qwen3-TTS/blob/main/assets/Qwen3_TTS.pdf

API:https://www.alibabacloud.com/help/en/model-studio/qwen-tts-voice-design

体验地址:https://huggingface.co/spaces/Qwen/Qwen3-TTS

https://modelscope.cn/studios/Qwen/Qwen3-TTS

目前,阿里已经在huggingface和modelscope上开放了试用,有兴趣的小伙伴试试。速度非常快,算是我目前用过效率最高的语音模型了。

比如,在文本那里输入你想输出的语音内容,这里我使用了,阿里巴巴今天发布了Qwen3-TTS,这是目前最强的AI语音模型。

然后语言那里选择中文,语音描述那里,用四川话说出我输入的文本内容,速度可以慢一点给人更温柔的感觉。


咱们可以听听效果,AI味很少,语速和我描述的也很精准了。

还有一个普通话语音的版本。

下面咱唠唠Qwen3-TTS的技术创新牛在哪里。要把文字变成声音,最核心的一步就是怎么把声音给数字化,也就是所谓的语音token器。

以前很多模型容易走极端,要么太抠字眼,把声音压得只剩下干巴巴的语义,听着像机器人;要么太想把每一个音频细节都记下来,导致数据量爆炸,稍微说长一点就开始前言不搭后语。

Qwen3-TTS这次聪明就聪明在,它没在一棵树上吊死,直接搞了两套完全不同思路的token,一个叫25Hz,一个叫12Hz,这俩就像是性格迥异的兄弟,各有各的绝活。


第一个是25Hz单码本token器,主打高保真,适合对声音质量要求高的场景,比如专业配音、有声书录制。它是在Qwen2-Audio的基础上训练出来的,分两步打磨,第一步先让它学好识别语音,第二步再让它精准还原声音细节。

为了实现长语音流畅合成,它还用到了滑动窗口技术,就像看书的时候逐页翻阅,不用一次性记住所有内容,既保证了连贯性,又不会卡顿。

第二个是12.5Hz多码本token器,主打超低延迟,适合实时沟通场景,比如语音助手、在线会议翻译。

它把语音分成了语义和声学两部分,语义负责理解内容,声学负责还原音色和韵律,就像有人负责把文字翻译成意思,有人负责把意思变成带感情的声音。

而且它不用等后面的内容,收到信息就能立刻处理,最低能做到97毫秒的首包延迟,差不多就是眨个眼的时间,对方说完话,翻译后的语音马上就能出来,完全没有等待感。

除了token器,Qwen3-TTS的双轨模型架构也很关键,一个专门处理文字信息,一个专门处理声音信息,遇到文本输入,能立刻预测出对应的语音特征,再通过专门的模块转换成流畅的声音。

针对两套不同的token器,模型也做了针对性优化,25Hz版本侧重还原声音细节,生成的语音质感更足;

12Hz版本则侧重快速响应,同时还能捕捉到声音的细微变化,保证音色稳定。尤其是多token预测模块的加入,让模型能瞬间处理多个语音特征,进一步降低延迟,这技术真的把实时合成做到了极致。


Qwen3-TTS的出色表现,离不开背后海量数据和科学的训练方法,分阶段针对性提升,从基础能力到精准优化,一步步打磨出超强实力。

训练分为预训练和后训练两大阶段,预训练阶段主要打基础,用了超过5000万小时的多语言语音数据,先让模型学会不同语言的语音规律,再用高质量数据优化音质

最后专门训练处理长文本的能力,把最大处理长度从8192提升到32768,让模型能轻松应对10分钟以上的长语音合成,不会出现重复、遗漏的情况。

后训练阶段则主要优化细节,让模型更懂人类需求,比如通过人类反馈调整声音偏好,让合成的语音更符合大家的听觉习惯。

再通过规则奖励增强模型的稳定性;最后进行轻量化微调,让模型能快速适配特定的音色,同时保持自然度和表达力。

这种分阶段的训练方法,就像盖房子,先打好地基,再砌墙装修,最后做细节优化,确保模型既稳定又好用,不会出现顾此失彼的情况。

此外,对于喜欢做搞怪视频的朋友来说,语音克隆功能会让你很惊喜,只需要3秒的参考音频,不管是自己的声音、喜欢的明星声音,还是特定的方言口音,模型都能精准克隆,生成的语音不仅音色一致,连说话的语气、韵律都能还原,就像本人在说话一样。

Qwen3-TTS的测试性能也相当的强悍,在语音重建测试中,12Hztoken器的各项指标都排名第一,声音可懂度、质量评分、相似度都接近真人水平,尤其是相似度达到了0.95,几乎能以假乱真。

在零样本语音克隆测试中,1.7B版本的词错误率低至1.24,比很多商业模型都要出色,而且在10种语言中都保持了很高的说话人相似度。


跨语言合成测试中,表现更是惊艳,中文到韩语的合成错误率降低了66%,常用的中文到英文、英文到中文的合成,错误率也远低于同类模型,口音漂移的问题几乎不存在。

长语音合成测试中,模型能轻松生成10分钟以上的流畅语音,词错误率只有1.5左右,不会出现重复、遗漏或韵律不连贯的情况,这对于有声书、长视频配音来说,真的太重要了

流式效率测试中,就算6个用户同时使用,12Hz版本的首包延迟也能控制在300毫秒以内,实时因子保持在0.43左右,完全不会影响使用体验,这性能真的太能打了。

想转型AI,不被时代淘汰

CAIE注册人工智能工程师认证

岗位能力 × AI工具 ×转型方向 × 场景落地 = 新AI职业价值

扫码免费领取《AI工程师入门学习指南》

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
已致45人死亡,西班牙高铁事故初步报告:列车驶过事发地点前,铁轨就已经发生断裂

已致45人死亡,西班牙高铁事故初步报告:列车驶过事发地点前,铁轨就已经发生断裂

鲁中晨报
2026-01-23 20:31:40
德隆带娇妻度假,42岁从拳坛退役,不工作也不缺钱花,二婚娶超模

德隆带娇妻度假,42岁从拳坛退役,不工作也不缺钱花,二婚娶超模

大西体育
2026-01-23 15:59:43
突然爆雷,人去楼空,有人投入700多万元!

突然爆雷,人去楼空,有人投入700多万元!

财经保探长
2025-12-26 11:24:43
图说:RPG-18“苍蝇”反坦克火箭筒 发放到每个士兵的反装甲武器

图说:RPG-18“苍蝇”反坦克火箭筒 发放到每个士兵的反装甲武器

hawk26讲武堂
2026-01-23 00:27:59
男子用SIM卡炼出191克黄金?专家:需消耗大约40万张 且有污染风险

男子用SIM卡炼出191克黄金?专家:需消耗大约40万张 且有污染风险

看看新闻Knews
2026-01-23 19:29:15
2米26中锋打出CBA巨星水平!砍24分14板 球迷:杜锋怎么看?

2米26中锋打出CBA巨星水平!砍24分14板 球迷:杜锋怎么看?

体育哲人
2026-01-23 23:35:22
2026年安徽以旧换新“国补”细则来了!

2026年安徽以旧换新“国补”细则来了!

阜阳发布
2026-01-23 21:17:06
血压高,要先控制“心率”?若心跳不低于这个范围,不用过于担心

血压高,要先控制“心率”?若心跳不低于这个范围,不用过于担心

路医生健康科普
2026-01-23 10:36:49
2026年中国最暴利的生意!!很多人竟然不知道!

2026年中国最暴利的生意!!很多人竟然不知道!

水木然
2026-01-03 22:23:39
欠中国的钱,委内瑞拉不还了?美财长:中国已无法继续获得委石油

欠中国的钱,委内瑞拉不还了?美财长:中国已无法继续获得委石油

长星寄明月
2026-01-24 00:09:02
国补后3999元起!史上最便宜iPhone悄悄上架 连发布会都直接省了

国补后3999元起!史上最便宜iPhone悄悄上架 连发布会都直接省了

小柱解说游戏
2026-01-24 02:11:35
夫妻“性生活”时,这3个恶习尽量改正,很多人中招了

夫妻“性生活”时,这3个恶习尽量改正,很多人中招了

纸上的心语
2025-11-25 22:08:09
扎心了!原来只要失业,所有人都一样!网友分享越看越心凉 太难了

扎心了!原来只要失业,所有人都一样!网友分享越看越心凉 太难了

有趣的火烈鸟
2025-12-31 20:39:06
德天空:热刺希望罗伯逊立即加盟,双方已达成口头协议

德天空:热刺希望罗伯逊立即加盟,双方已达成口头协议

懂球帝
2026-01-23 19:33:07
南部空军霸气官宣:“从今以后,绝不允许有人对我大声说话”

南部空军霸气官宣:“从今以后,绝不允许有人对我大声说话”

武器纵论
2026-01-21 22:11:41
工厂停摆、门店撤退:理想汽车的“严冬”,比预想中来得更冷

工厂停摆、门店撤退:理想汽车的“严冬”,比预想中来得更冷

科技Nice
2026-01-23 11:27:59
经济下行,2026年、2027年、2028年这三年,六大忠告要记牢!

经济下行,2026年、2027年、2028年这三年,六大忠告要记牢!

深度报
2026-01-20 22:16:48
果然,中国拒绝后,土耳其立马变脸,比亚迪宣布,中国不再吃亏!

果然,中国拒绝后,土耳其立马变脸,比亚迪宣布,中国不再吃亏!

达文西看世界
2026-01-23 18:04:58
WTT常规赛:国乒失1冠得1冠!1月24日赛程公布,结束最后4场决赛

WTT常规赛:国乒失1冠得1冠!1月24日赛程公布,结束最后4场决赛

全言作品
2026-01-24 01:33:50
U23国足主帅安东尼奥:中日足球之间的差距巨大,明天必将竭尽全力,我们会让特别的事情发生

U23国足主帅安东尼奥:中日足球之间的差距巨大,明天必将竭尽全力,我们会让特别的事情发生

鲁中晨报
2026-01-23 17:55:03
2026-01-24 02:51:00
呼呼历史论
呼呼历史论
分享有趣的历史
263文章数 16078关注度
往期回顾 全部

科技要闻

TikTok守住了算法"灵魂" 更握紧了"钱袋子"

头条要闻

疑在达沃斯受挫 79岁的特朗普转发超80条帖子发泄怒气

头条要闻

疑在达沃斯受挫 79岁的特朗普转发超80条帖子发泄怒气

体育要闻

杜兰特鏖战44分钟累瘫 轰36+7却致命失误

娱乐要闻

演员孙涛澄清闫学晶言论 落泪维护妻子

财经要闻

2026年,消费没有新故事?

汽车要闻

主打家庭大六座 奕境首款SUV将北京车展亮相

态度原创

亲子
健康
家居
公开课
军事航空

亲子要闻

“一个桃就拐走了!”宝妈在水果店频频拒绝女儿,评论区太真实!

耳石脱落为何让人天旋地转+恶心?

家居要闻

在家度假 160平南洋混搭宅

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

美军首艘“高超导弹战舰”出海测试

无障碍浏览 进入关怀版