网易首页 > 网易号 > 正文 申请入驻

没想到,音频大模型开源最彻底的,居然是小红书

0
分享至




机器之心原创

编辑:杜伟

不难发现,近几个月,开源频频成为 AI 社区热议的焦点。尤其是对于国内科技公司来说,开源成为主旋律。根据 Hugging Face 中文 AI 模型与资源社区的数据显示,国内厂商在七八月接连开源 33 款、31 款各类型大模型。

这些开源成果大多落在了文本、图像、视频、推理、智能体以及世界模型领域,而音频生成占比很小



图源:zh-ai-community

一方面是因为音频生成在技术和数据上面临着特殊挑战,音频信号的计算和建模复杂,数据获取难度更大;另一方面,出于安全、版权等风险的考量,OpenAI、ElevenLabs 等主流玩家大都选择闭源或半开源。

直到今年尤其最近一波开源潮掀起以来,AI 音频领域又热闹了起来,包括字节 MegaTTS3、阿里 Qwen2.5-Omni-7B 和 CosyVoice 3、月之暗面 Kimi-Audio、阶跃星辰 Step-Audio 2 等。

在这些国内大厂和人工智能新势力之外,我们发现,自去年开始,来自小红书的技术团队在音频领域保持了稳定的开源节奏。他们推出了一系列成果,逐步构建起了系统级音频能力,并以开放的姿态将这些成果向社区开放。

这些成果中既有 TTS(文本转语音)方向的 FireRedTTS,也有 ASR(语音识别)方向的 FireRedASR,在当时取得了 SOTA 级别的效果。在实现研究突破之外,模型也具备工业级可商用属性,在关键指标上满足了实际应用需求,并通过开放许可降低商用落地门槛。

因此,发布之后,这些模型吸引了 AI 社区大量研究者与开发者的关注与好评。很多用户在实际项目中直接部署使用并二次开发,可用性和工程化潜力得到了验证。



对于小红书来说,开放高质量音频模型不仅可以提升其在这一细分赛道的技术影响力与话语权,也释放出一个明确的信号:将开源作为长期战略来布局。通过一系列技术开放,小红书正在构建起高粘性的音频大模型开源社区。

就在过去几天,小红书智创音频团队(FireRed)又放出了多项最新开源成果。

SOTA 级音频能力持续注入开源社区

系统级音频能力并非简单地依靠堆砌模型,而需要跨越多重技术门槛。无论是语音合成还是语音识别,都要求在延迟、准确率、自然度、真实性与鲁棒性等维度进行持续优化。

小红书对音频大模型的探索始于去年 9 月开源的 FireRedTTS 语音合成系统,构建了一套由数据处理、基座系统与下游应用组成的基座语音合成框架,先训练基座模型以将文本序列转换为自然、有表现力的语音序列,后利用上下文学习、监督微调等方法高效地服务于配音、自然对话等下游应用。

效果十分显著:只需要一段给定文本和几秒参考音频,无需二次训练,FireRedTTS 就可以模仿任意音色、任意说话风格,比如搞怪风、女友风等,实现自由定制

今年 2 月开源的 FireRedASR 在语音识别上带来新突破,这类技术广泛应用于智能语音交互(如语音助手)与多模态内容理解场景。该系列包含两个模型,FireRedASR-LLM 追求极致的语音识别精度,FireRedASR-AED 在保证语音识别准确率的同时兼顾推理效率。

结果显示,在 AISHELL-1/2、WenetSpeech 等中文普通话测试集上,FireRedASR 在关键指标字错率(CER)上取得了 SOTA。FireRedASR 的 CER 为 3.05%,优于豆包的闭源大模型 ASR 方案 Seed-ASR 的 3.33%,也优于阿里通义 9 月 8 号最新发布的闭源 Qwen3-ASR-Flash 的 3.52%。



目前,该模型已在 GitHub 上收获了 1.3k 的 star。



GitHub 地址:https://github.com/FireRedTeam/FireRedASR

延续 FireRedTTS 的 SOTA 级表现,新一代的 FireRedTTS-2进一步瞄准了语音合成现有方案的痛点,包括灵活性差、发音错误多、说话人切换不稳和韵律不自然,在升级离散语音编码器与文本语音合成模型两大核心模块的基础上,为长对话语音合成提供了更优的解决方案。



FireRedTTS-2 架构概览。

FireRedTTS-2 主打上下文建模与多轮对话能力,在涉及音色克隆、交互式对话和播客生成的多项主客观测评中均实现了行业领先,让开源模型在复杂音频场景建模效果上达到新高点。

音色克隆只需提供对话中发音人的一句语音样本即可模仿其音色与说话习惯,自动生成后续整段对话;同时多说话人音色切换的稳定性与韵律自然度均处于开源模型 SOTA,为今年火热的 AI 播客场景提供了工业级解决方案,一跃成为当前最强开源播客生成大模型。



在 zero-shot 播客生成中,FireRedTTS-2 全面优于 MoonCast、ZipVoice-Dialogue、MOSS-TTSD 等开源竞品。

听完下面一段关于「Taylor Swift 恋爱消息」的双人多轮对话播客,你能分得清是真人录音还是 AI 合成吗?



视频链接:https://mp.weixin.qq.com/s/0ij7-jNw3cfUvU_0Mb1NeA

目前,FireRedTTS-2 可以支持 4 位说话人的多轮对话生成,还可以通过扩展数据进一步扩展至更多说话人和更长时长,从而根据实际需求进行快速适配。用户对这款新模型的反馈也不错。



  • 论文地址:https://arxiv.org/pdf/2509.02020
  • 代码地址:https://github.com/FireRedTeam/FireRedTTS2

另一大开源新成果是FireRedChat—— 业内首个完全开源的全双工语音对话系统,它在智能判停与延迟等关键指标上也达到了开源 SOTA,端到端性能已接近工业级水准。

此次的亮点还在于:在提供完整模型之外,一站式提供 VAD、ASR、TTS、上下文感知 TTS、音频 LLM、Dify 支持等核心模块,支持私有化部署。这在业内迄今没有任何一家企业或机构将这样的一整套完整方案开源出去。

这就意味着,即使不是语音领域的专业人士,也可以直接克隆代码,快速部署一个自己的语音助手,例如豆包的「打电话」语音对话助理。

基于内置的情绪感知与情感合成能力,通过 FireRedChat 构建的不是一个冷冰冰的机器人,而是一个「知冷暖、能共情、懂表达」的好朋友,她能细腻感知你的情绪变化:在你失落时,轻声安慰、真诚鼓励;在你遇到惊喜时,和你一样心潮澎湃、享受 surprise;在你开心时,陪你分享喜悦、一起欢笑。

FireRedChat 让 AI 聊天助手不只是回应文字,更能用富有温度的声音、情感和表达方式,带给你一种被理解、被陪伴的真实感受,让 AI 真正拥有「人感」。



视频链接:https://mp.weixin.qq.com/s/0ij7-jNw3cfUvU_0Mb1NeA

短短一年时间,小红书围绕文本转语音、语音识别和语音对话形成了比较完整的技术栈,并已经探索出一些好玩的功能,比如以 FireRedASR 技术为支撑的语音评论,通过唱歌、说方言、模仿有梗台词等一系列新的玩法,让评论区的互动性与趣味性更浓,也提升了用户粘性。



音频开源的「执牛耳者」

从小红书已经开源的一系列音频大模型中,我们看到了其对开源生态的长期承诺与战略耐心。

一方面,几乎覆盖了语音交互的核心环节,从 TTS、ASR 到语音对话,技术矩阵日趋完善。由点及面的布局,显示出其在技术积累上的底气,利用系统性开源降低行业准入门槛,形成生态级的牵引力。

未来,小红书还计划推出音乐大模型 FireRedMusic、多语种高精度语音识别系统 FireRedASR-2 以及音频感知大模型,让更多细分方向的开发者用上高质量模型。

另一方面,开源正在从模型层走向体系层,不再只是停留在单一模型的开放,而是扩展到了全链路模块。这意味着,开源的价值上升到了提供系统化能力。

以全双工语音对话系统 FireRedChat 为例,VAD、ASR、TTS、对话框架等在内基础模块的开放,降低了开发者的集成与部署门槛,使他们在开箱即用的基础上快速构建应用,进而扩大音频生态的创新边界。

通过开源这个推动技术演进与生态共建的关键支点,小红书的开源「野心」已逐渐显现。

小红书智创音频团队负责人解奉龙称,他们的目标是建立首个工业级可商用的音频大模型开源社区,涵盖语音识别及理解、语音 / 音效生成、全双工语音交互、音乐理解及生成四大方向,一步步将自身打造成为开源音频领域的「执牛耳者」。

这些模型具备的工业级可商用属性将释放更大的价值。开发者和企业用户在生产环境中直接部署与使用,大大缩短从技术到产品的周期,降低试错成本。

随着语音交互赛道的参与者越来越多,应用创新与落地场景更丰富,反过来又将进一步扩展以小红书为主导的音频开源社区。

小红书智创团队负责人汤旭表示,团队将持续深耕多模态大模型,勇于突破 SOTA 边界,探索 AI 在内容理解与创作中的更多可能。我们坚持开放共享,通过开源生态与全球开发者协同进化,共同推动行业标准演进,让 AI 不仅赋能小红书,更为全球创作者创造价值,开启内容生产的新范式。

作为一种正在重塑行业格局的力量,开源让先进的 AI 能力不再被少数巨头垄断,而是沉淀为整个行业可以共享的底层资源。

从八年前的 Transformer,到年初的 DeepSeek,再到前一段的 Qwen,开源一直都是推动大模型技术跃迁的关键因素之一。在共享基线之上,开发者可以进行低成本地差异化探索。

AI 大厂选择「闭门造车」,本质上是通过技术壁垒构筑护城河,并以此维持商业模式的可持续性和竞争优势,如 OpenAI 等。在资本驱动与市场回报的逻辑下,这种路径无可厚非。然而,推动产业加速演进往往不单靠这些巨头的独角戏,更在于开源社区的多点突破与百花齐放。

在开源生态中,模型、框架和工具可以快速迭代、自由组合,通过更多创新尝试,加快新技术落地。尤其是在 AI 应用的长尾场景中,整个社区的广泛参与更有潜力让 AI 真正从实验室走向产业化。

小红书正在用自己一次次的开源践行这一切,持续推动音频大模型的技术演进,向所有人释放前沿能力,并希望通过更大的开源社区共建实现技术平权。这些 SOTA 级音频大模型为开发者和中小型企业提供了平等的技术起点,让他们在同一基准线上进行创新与应用开发。

在开源生态主导权上的长远布局,可以为小红书在未来的 AI 音频市场竞争中抢占先机。

除了音频, 小红书智创团队还在多模态、AIGC、CV、编辑渲染、算法工程等方向多有建树,并向公司内部社交、直播、电商、商业化广告和生态审核在内的各业务线提供业界领先的技术解决方案,成功落地了语音评论、文字功能等爆款功能。

目前,小红书校招正在进行中,加入智创团队,一起挑战 AI 前沿技术,推动开源生态的未来。



社招通道:https://wxaurl.cn/86Bnp6ULVjj

校招通道:https://wxaurl.cn/l8Soty5Tu0t

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
大年初五返程!广东年轻人直言:这个年,过比上班还累!

大年初五返程!广东年轻人直言:这个年,过比上班还累!

生活魔术专家
2026-02-21 05:10:19
凯特王妃绝地反击!威廉弃白月光选王位,爱情在权力前不堪一击

凯特王妃绝地反击!威廉弃白月光选王位,爱情在权力前不堪一击

历史小胡
2026-02-20 16:19:15
看了《镖人》,才发现吴京最正确的决定,就是换掉女主选择陈丽君

看了《镖人》,才发现吴京最正确的决定,就是换掉女主选择陈丽君

断翼的鸟儿
2026-02-20 23:15:57
26.4万!丰田官宣:新车正式亮相

26.4万!丰田官宣:新车正式亮相

高科技爱好者
2026-02-20 22:58:44
宁忠岩击败美国速滑之神,美媒沮丧:史上最出色的运动员被重创了

宁忠岩击败美国速滑之神,美媒沮丧:史上最出色的运动员被重创了

杨华评论
2026-02-20 02:11:06
早年的林青霞和第一任男友赵宁的一张留影,那时候她刚情窦初开。

早年的林青霞和第一任男友赵宁的一张留影,那时候她刚情窦初开。

陈意小可爱
2026-02-21 13:29:29
7连胜到手!赵心童迎生死战,或追平3名中国球员纪录,连夺2冠?

7连胜到手!赵心童迎生死战,或追平3名中国球员纪录,连夺2冠?

刘姚尧的文字城堡
2026-02-21 10:12:45
下一个吃饼中锋?莫布利:我在学习哈登如何指挥内线

下一个吃饼中锋?莫布利:我在学习哈登如何指挥内线

大眼瞄世界
2026-02-20 15:40:32
俄外交部:日本出资为乌军采购的装备将成为俄军的合法目标

俄外交部:日本出资为乌军采购的装备将成为俄军的合法目标

俄罗斯卫星通讯社
2026-02-20 15:30:33
震惊,北京知名建筑装饰公司暴雷了!

震惊,北京知名建筑装饰公司暴雷了!

黯泉
2026-02-20 21:21:41
米兰冬奥会赛程全掌握!一键收藏,观赛不迷路→

米兰冬奥会赛程全掌握!一键收藏,观赛不迷路→

海外网
2026-02-04 15:03:52
崔永熙+四外援齐亮相!广东男篮正式集结 杜锋朱芳雨发红包引关注

崔永熙+四外援齐亮相!广东男篮正式集结 杜锋朱芳雨发红包引关注

狼叔评论
2026-02-21 12:22:03
吴京又赌对了!《镖人》票房口碑井喷,越剧小花一出场引全场惊呼

吴京又赌对了!《镖人》票房口碑井喷,越剧小花一出场引全场惊呼

动物奇奇怪怪
2026-02-21 13:27:29
张艺谋新片带火深圳!有观众留“后遗症”:看见垃圾桶就想掏

张艺谋新片带火深圳!有观众留“后遗症”:看见垃圾桶就想掏

南方都市报
2026-02-21 11:52:41
评测:以色列武器工业公司Zion-15短管步枪 最理想的万能武器?

评测:以色列武器工业公司Zion-15短管步枪 最理想的万能武器?

hawk26讲武堂
2026-02-20 12:19:15
湖南新化6名消防员随车坠崖牺牲,当地村民:事发处山路又弯又陡,车头变形严重,多人步行抬担架救援

湖南新化6名消防员随车坠崖牺牲,当地村民:事发处山路又弯又陡,车头变形严重,多人步行抬担架救援

极目新闻
2026-02-20 15:48:20
2026年人口大迁徙地图出炉,未来半数国人将涌入这五大核心圈

2026年人口大迁徙地图出炉,未来半数国人将涌入这五大核心圈

老特有话说
2026-02-20 12:34:15
中国打造重机枪,不小心犯一个低级错误,结果却意外造就世界之最

中国打造重机枪,不小心犯一个低级错误,结果却意外造就世界之最

墨兰史书
2026-02-08 16:55:05
日本,一个发达国家,为何把日子过成“全民还债”的困局?

日本,一个发达国家,为何把日子过成“全民还债”的困局?

包明说
2026-02-13 13:03:50
官方实锤!那艺娜被认定劣迹艺人,演出许可直接撤销

官方实锤!那艺娜被认定劣迹艺人,演出许可直接撤销

陈意小可爱
2026-02-21 10:51:17
2026-02-21 14:16:49
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12325文章数 142569关注度
往期回顾 全部

科技要闻

智谱上市1月涨5倍,市值超越京东、快手

头条要闻

夫妇捡到装20多个红包帆布袋:4个孩子7万多的压岁钱

头条要闻

夫妇捡到装20多个红包帆布袋:4个孩子7万多的压岁钱

体育要闻

冬奥第一"海王"?一人和13国选手都有关系

娱乐要闻

镖人反超惊蛰无声拿下单日票房第二!

财经要闻

一觉醒来,世界大变,特朗普改新打法了

汽车要闻

比亚迪的“颜值担当”来了 方程豹首款轿车路跑信息曝光

态度原创

数码
房产
家居
公开课
军事航空

数码要闻

苹果低价MacBook下月登场:首次搭载A18 Pro手机芯片!

房产要闻

窗前即地标!独占三亚湾C位 自贸港总裁行宫亮相

家居要闻

本真栖居 爱暖伴流年

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

硬核揭秘!福建舰“一马当先”底气何在

无障碍浏览 进入关怀版