网易首页 > 网易号 > 正文 申请入驻

你的音色可以被数字化——Qwen3 TTS最被低估的功能

0
分享至

快速阅读:Qwen3 TTS内置了一个声音嵌入(voice embedding)系统,能把任何人声压缩成一串数字向量,然后用数学运算来克隆、混合、改变声音。这个功能几乎没被官方重点宣传,但开发者社区已经开始玩出花样了。

该图片可能由AI生成

一个人的声音,可以被压缩成1024个数字。

这就是Qwen3 TTS里藏着的voice embedding系统。你说一句话,模型把它编码成一个高维向量,之后所有的声音操作,都在这串数字上完成。


这意味着什么?声音变成了坐标。两个声音之间可以插值,就像在地图上找两点之间的路径;性别、音调、情绪,都可以通过调整某些维度来修改;你甚至可以把十个声音平均一下,合成一个现实里不存在的声音。有观点认为,这从根本上改变了声音合成的操控方式,不再需要反复调试prompt或者找一段“完美的参考音频”,直接拖一个滑块就行。

这个编码器本身极其轻量,只有几百万参数,完全可以在网页前端直接运行。作者 k_means_clusterfuck 已经把它从原始模型里单独剥离出来,上传到了 Hugging Face,还提供了ONNX格式的版本。

Qwen官方把这个模块打包在完整模型里一起发布,每次使用都得下载整个大模型。考虑到voice embedding本身的体量和潜力,没有单独宣传这个功能,确实有点可惜。

社区里已经有人在思考更多用途:用 k-means 对大量声音做聚类分析,找到“最适合助眠”的 YouTuber;通过嵌入空间做说话人识别,判断是真人还是电话语音系统;把口音映射进向量空间,然后用算术把它改掉;甚至有播客编辑表示,原来要花几小时调整的音色一致性问题,现在十分钟搞定。

有网友实测后提到,两个嵌入向量之间做插值确实能产生可信的混合声音,但嵌入空间并不是完全解耦的,调整音高有时会意外影响音色。这不是这项技术独有的问题,但说明“数学化声音”这件事仍然有边界:你能合成的,只能是训练数据里已经存在的特征组合,出了分布范围,模型不会凭空造出新东西。

作者计划在 vllm 的 fork 里实现一个功能:在推理过程中逐步线性改变嵌入向量,让语速或情绪在一句话里从平静慢慢变成激动。这个想法能不能落地,还不确定。

简评:

你以为声音是灵魂的指纹,结果它只是一个1024维的邮编。从前我们说“嗓音是天赐的”,现在发现天赐的东西也能被压缩、传输、插值、混合。两个陌生人的声音取个平均值,就能造出第三个从未存在过的“人”。这不是技术在进步,是“独特性”这个概念在贬值。当配音演员还在强调“我的声音有辨识度”时,数学已经证明:辨识度不过是向量空间里的一个偏移量,滑块往左拉0.3就能复制。最讽刺的是,模型只有几百万参数,比你手机里的美颜滤镜还轻。你的声音不值钱,值钱的是那串能描述它的数字。

reddit.com/r/LocalLLaMA/comments/1rc59ze/qwen3s_most_underrated_feature_voice_embeddings

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
春节连破4项历史纪录!1.29亿人涌入广东,背后藏着中国经济最硬的底气

春节连破4项历史纪录!1.29亿人涌入广东,背后藏着中国经济最硬的底气

帅领留学真话
2026-02-24 15:07:19
22年过去了!曾承诺为张国荣终生不娶的唐鹤德,66岁现状如何?

22年过去了!曾承诺为张国荣终生不娶的唐鹤德,66岁现状如何?

小徐讲八卦
2026-02-23 15:49:27
《卫报》:普京曾认为90%的乌克兰人会支持入侵

《卫报》:普京曾认为90%的乌克兰人会支持入侵

时尚的弄潮
2026-02-24 11:47:43
压力山大!郭士强做出了2个重要的决定 球迷:很少见

压力山大!郭士强做出了2个重要的决定 球迷:很少见

体育哲人
2026-02-24 17:03:25
特朗普亲家,遭封杀

特朗普亲家,遭封杀

扬子晚报
2026-02-24 17:35:10
突发快讯!刚刚,台湾地震!福建多地有震感!

突发快讯!刚刚,台湾地震!福建多地有震感!

漳州壹条
2026-02-24 13:16:02
299元!小米刚公布的新品,可能又要卖爆了

299元!小米刚公布的新品,可能又要卖爆了

刘奔跑
2026-02-23 23:40:35
突发!巴拿马港口被强行接管后,长和最新声明来了……

突发!巴拿马港口被强行接管后,长和最新声明来了……

王爷说图表
2026-02-24 18:08:23
新加坡大满贯赛:大捷报!林诗栋3:0大获全胜,王皓起身鼓掌加油

新加坡大满贯赛:大捷报!林诗栋3:0大获全胜,王皓起身鼓掌加油

国乒二三事
2026-02-24 14:02:13
儿媳患脑病医生建议放弃治疗,智力退化如3岁孩童,河南好婆婆贴身照料17年!6000多个日夜当“全职保姆”,“俺这是个完整的家”!

儿媳患脑病医生建议放弃治疗,智力退化如3岁孩童,河南好婆婆贴身照料17年!6000多个日夜当“全职保姆”,“俺这是个完整的家”!

大象新闻
2026-02-23 11:56:10
特朗普张口得罪全球,美国紧急警告中国别捅刀,中方沉默震耳欲聋

特朗普张口得罪全球,美国紧急警告中国别捅刀,中方沉默震耳欲聋

梁讯
2026-02-23 20:00:07
贝加尔湖坠湖悲剧,幸存者被苛责:如果他早点跳下水,也许~~~

贝加尔湖坠湖悲剧,幸存者被苛责:如果他早点跳下水,也许~~~

魔都姐姐杂谈
2026-02-23 15:11:17
佛山里水一企业仓库起火,涉事员工被刑拘

佛山里水一企业仓库起火,涉事员工被刑拘

南方都市报
2026-02-23 22:22:14
《镖人》追平《哪吒2》,连续四天逆跌,票房达8.4亿,破13项纪录

《镖人》追平《哪吒2》,连续四天逆跌,票房达8.4亿,破13项纪录

影视高原说
2026-02-24 15:33:03
轰31+9+3!重返西部第三,史密斯再超神下去,火箭能让联盟大结局

轰31+9+3!重返西部第三,史密斯再超神下去,火箭能让联盟大结局

篮球看比赛
2026-02-24 15:32:05
闫军被撤销国际裁判并非意味着天亮了,在CBA,他依然呼风唤雨

闫军被撤销国际裁判并非意味着天亮了,在CBA,他依然呼风唤雨

姜大叔侃球
2026-02-24 18:12:32
75岁张艺谋再掀桌:比748万罚款更狠的,是陈婷留的这一手!

75岁张艺谋再掀桌:比748万罚款更狠的,是陈婷留的这一手!

观察鉴娱
2026-02-24 10:05:49
还好意思说别人蒸馏?马斯克抨击Anthropic大规模盗用训练数据

还好意思说别人蒸馏?马斯克抨击Anthropic大规模盗用训练数据

IT之家
2026-02-24 08:47:08
2月23日俄乌最新:辉煌的战果

2月23日俄乌最新:辉煌的战果

西楼饮月
2026-02-23 16:56:49
斯诺克爆冷世界冠军出局,赵心童背靠背参赛 丁俊晖弃赛原因曝光

斯诺克爆冷世界冠军出局,赵心童背靠背参赛 丁俊晖弃赛原因曝光

篮球看比赛
2026-02-24 15:52:08
2026-02-24 18:48:49
侃故事的阿庆
侃故事的阿庆
几分钟看完一部影视剧,诙谐幽默的娓娓道来
495文章数 7735关注度
往期回顾 全部

科技要闻

AI颠覆发展最新牺牲品!IBM跳水重挫超13%

头条要闻

特朗普称3月31日访华并赞叹中国仪仗队 外交部回应

头条要闻

特朗普称3月31日访华并赞叹中国仪仗队 外交部回应

体育要闻

苏翊鸣总结米兰征程:我仍是那个热爱单板滑雪的少年

娱乐要闻

汪小菲官宣三胎出生:承诺会照顾好3个孩子

财经要闻

县城消费「限时繁荣」了十天

汽车要闻

入门即满配 威兰达AIR版上市 13.78万元起

态度原创

旅游
房产
手机
家居
艺术

旅游要闻

海南2026年春节假期接待游客超1232万人次

房产要闻

窗前即地标!独占三亚湾C位 自贸港总裁行宫亮相

手机要闻

荣耀YOYO助理接入智能检测,支持自动定位、排查设备问题等

家居要闻

本真栖居 爱暖伴流年

艺术要闻

2025年第八届全国青年美展 | 油画作品选刊

无障碍浏览 进入关怀版