对谈Fish Audio：千万ARR、12个月13倍增长，我们正进入AI Voice 2.0的技术爆发期|全模态|audio

分享至

文章转载自「Alphaist Partners」，FP进行了部分删减。

基模正在走向全面的多模态，Gemini、豆包都已经具有了文字、视觉和语音功能了，独立的语音模型还有存在的必要吗？

ElevenLabs 活得很好，Fish Audio 也活得很好。

过去一年，Fish Audio 实现了 13 倍增长，达到了 10 million 的 ARR，月活超过 100 万。这家全球第二大 AI 语音平台，拥有 350 万用户和 110 万 UGC 声音模型，核心产品 S1 是世界首个支持自然语言情感控制的 TTS 模型。

Fish Audio S1模型效果

更反直觉的是，他们最核心的数据壁垒，来自传统公司会直接扔掉的「脏数据」——吵架声、争论声、兴奋的讨论声。

Alphaist Partners 合伙人陈哲（Peter）和 Fish Audio 两位联合创始人聊了聊：CEO Rissa（前 Meta/Amazon 增长与开发者社区负责人）与 CTO 冷月（00 后，前英伟达算法研究员）。从技术信仰到商业飞轮，从股权危机到团队重组，这是一个关于「AI 语音 2.0」的完整创业故事。

注：The Alphaist 是一档深度对话栏目，关注技术与创业的第一性原理，聚焦正在改变世界的早期创业者、工程师和产品探索者。Alphaist Partners 是一家专注于硬科技领域的美元基金，使命是赋能 Alpha 创业者，推动人类社会进步。

⬆️关注 Founder Park，最及时最干货的创业分享

超 19000 人的「AI 产品市集」社群！不错过每一款有价值的 AI 应用。

邀请从业者、开发人员和创业者，飞书扫码加群：

进群后，你有机会得到：

最新、最值得关注的 AI 新品资讯；
不定期赠送热门新品的邀请码、会员码；
最精准的 AI 产品曝光渠道

01从开源走向全球第二大语音生成平台

Peter：简单介绍下 Fish Audio？

Rissa：Fish Audio 是一个 AI 语音生成平台，目前已经是世界第二大的 AI voice generation platform。我们提供多语言文本转语音（TTS）和高精度声音克隆，让每个人都能拥有人类水平的 AI 配音能力。我们的用户包括游戏开发者、ASMR artist、播客创作者以及各类 professional content creator，他们用我们的产品创作音频内容，提高生产效率，实现更有效的内容商业化。

过去 12 个月内我们实现了 13 倍的增长，达到了 10 million 的 ARR。我们积累了 350 万用户，月活超过 100 万。我们也是业界最大的 UGC 声音模型市场，有 110 万个 public voice models 在平台上，用户可以找到喜欢的角色来创作音频内容。流量上我们是全球第二大 AI 语音平台，仅次于 ElevenLabs。因为我们起源于开源项目 Fish Speech，各个开源 repository 累计超过 100K 的 GitHub Stars。过去一年我们还 launch 了世界上第一个 open domain emotion control 的 TTS model，也就是我们的 S1 模型。

Peter： Fish Audio 的核心产品是什么？

冷月：目前我们线上的主要产品是 S1 模型，也是世界上第一个支持自然语言控制的 TTS 模型，可以通过文本描述情感、强调、速度等各种特征。在 S1 这一代我们开源了一个小模型叫 S1 Mini，下一代模型将在自然度、可控性、稳定性和多说话人方面做出进一步提升，同时我们预计会完全开源 S2 模型。

Peter：Fish Audio 的客户现在是谁？谁在用你们的产品？

Rissa：我们起源于开源，所以最早的用户是开源社区里的游戏开发者。过去一年客户群体发生了很大的演化，主要分两大类。第一类是 prosumer 创作者，他们直接在我们平台上做内容创作，包括 vlogger、博客主、有声书作者、自媒体和游戏配音演员，用来给视频或小程序做多语言配音。

第二类是 API 企业用户，过去三个月内突飞猛涨，已占我们 40% 的 revenue。主要分四大类：一是 AI 陪伴类社交应用，如 Character.AI 这类产品；二是游戏公司和 To B 企业，用来做 NPC 对话和角色配音；三是 AI 内容创作平台，如 HeyGen、Vigo、Clokation 等；四是 real time voice agent，这部分量非常大，增长趋势很强，主要用于实时客服、销售和教育场景。

ElevenLabs 效果不够好，语音需要大模型革命

Peter：为什么选择做音频模型这个方向？

冷月：大概两三年前，我还没从英伟达离职的时候，我们看到市场上语音领域并没有特别好的 player，最著名的就是 ElevenLabs，当时大概有 5000 万到 1 亿美金收入的规模。但说实话效果并不好。我个人对 VTube 和语音合成、语音开源非常感兴趣，发现没有一个产品效果能达到我的预期——它们都不够自然，尤其句子长了之后，语音生成会变得非常单调。

我们就想能不能解决这个问题，让语音变得自然。我一直相信语音会是人类与 AI 交互非常重要的入口，就像图像模态一样。我们开始思考：要让语音模型更自然，需要做什么？第一点，模型一定得大，一定得是自回归架构，一定得尽可能多地建模语义信息和声学信息，做一个大一统的模型。没有这样的结构，语音就没办法走到下一个阶段。所以我们从 Fish Speech 开始研究端到端的语音模型，早期也遇到了很多困难，比如模型稳定性、训练稳定性等各种问题。

现在回过头来看，当时的选择是完全正确的。在我们之后，Moshi、SESAME，到最近的千问 TTS，大家都不约而同地选择了端到端建模语义和声学信息，都使用了类似我们当时采用的双自回归架构。这让我们从很早开始就在数据收集和强化学习管线上做出了很多领先于时代的工作。

Peter：你觉得独立音频模型的生存空间是暂时的还是持久的？音频模型会被多模态大模型直接吸收进去吗？

冷月：「直接吸收」这个说法可能不太妥当，并不是把语音数据扔进去模型就练完了，没那么简单。但语音模型和文本模型、视觉模型一定会结合，形成更完善的 Omni Model，这是我一直相信的。

如果只是做最普通的 TTS 任务，现在很多工作已经把它吸收进去了，比如千问的 Omni Model 等。但如果要做更复杂、更富有情感、更可控的语音，整体数据集的构建非常难，互联网上不存在这种复杂标注的文本和语音的 pair，这就构成了护城河。我们更聚焦 content creator 市场的模型，不那么容易被吸收。相反，我们要做的是通过语音把文本和图像模型整合到一起，构建更低延迟、效果更好、可以对多模态进行理解的 voice agent。

Peter：所以我的理解是，对情感和语义的细腻控制，让我们在市场里有一个独特的位置。关于 AI voice 和 voice agent 的未来，你们怎么看？

冷月：现在绝大部分做 TTS 的公司都觉得 TTS 技术已经到头了，已经 good enough，再往上提升是 marginal 的，这是我们听到非常多的声音。但从我们的视角来看，能做的东西还有非常多——更好的可控性，基于 vision 的 control，比如给模型一个人物线稿或剧情分镜，让它据此配音，还有很多各种各样的事情。只有把这些都做好了，我们才能真正服务好 content creator 用户和 B2B 客户。而绝大部分公司在目前阶段就止步于此了。

吵架时情绪最真实，「脏数据」反而是宝藏

Peter：在音频领域会有类似大语言模型的 Scaling Law 吗？作为一家体量小得多的创业公司，我们相比大公司在数据或算力的积累上会有劣势吗？

冷月：这是一个很有意思的话题。如果单看最朴素的 TTS 任务，你会发现所有开源模型、闭源模型基本都止步于 1.5B、4B 这个规模——因为模型超过 4B 之后，对于纯粹的 TTS 任务我们看不到更多提升。但如果我们想把语音做得更可控，想要 voice agent 能力，想要模型更好地思考，就需要更多参数——30B、100B。我们选择了像大语言模型公司一样采用 MOE 架构，30 active 3、100 active 10，大概这些规模的模型作为下一代备选。

一个 30 active 3 的模型，训练和推理资源大概跟一个 6B 的 dense model 差不多，对我们来说完全可以 afford。这里有一个大部分人不知道的事实：绝大部分大公司虽然有 1 万卡、10 万卡来做大语言模型，但语音组的计算资源往往非常有限，能到几百卡、一千卡的公司其实非常少，而我们已经进入第一梯队了。

Peter：之前提到说未来会把图片和文字吸收到语音骨干模型里，跟今天的多模态语言模型训练方式有什么本质区别？

冷月：这两件事殊途同归，但我们认为获得高质量文本数据比获得高质量语音数据更简单，因为市场上已有很多成熟的文本模型，可以作为 online distillation 的数据来源。举个例子，我们拿自己的端到端模型给定一个语音，输出一个文本答案，再把这个答案和对应文本给到一个 teacher model，就可以算出整个 sequence 的 log probability 和 logits，做在线蒸馏，学习和克隆教师模型的行为。

现在不用太多成本就能打造出解决 95% 问题的文本模型，已经变得非常简单。但绝大部分公司对语音数据的积累——尤其是高自然度、多音轨、情感丰富的语音数据——还没有开始。这种数据在互联网上极其稀缺，所以我们往文本和图像理解方向迈进，比他们往语音走要快得多。

Peter：你们在数据上的投入会是什么量级？

冷月：我们预计今年 Q1、Q2 在数据上的投入会达到百万美金级别。

Peter：需要在不同语种上都有相应的采集？

冷月：对，不只是不同语种，还有不同的任务类型。我们早年犯过一个错——从互联网上爬完数据后直接用原始分布训练 TTS 模型，导致模型对播客的能力表现特别好，但在创作类、陪伴类、电影和动漫配音方面表现就差了很多。数据分布本身非常重要，我们内部有一套不同语种数据分布的目标指标，从不同数据源精确匹配每个位置需要什么样的数据、需要多少数据，来构建每一代模型的 data recipe。

Peter：那是不是所有数字音频内容——电影、戏剧、播客——都可能成为训练原料？

冷月：所有可得的数据都有价值，但不同数据有不同的版权风险。我们的策略是在合法前提下，尽可能从多元数据源获取数据，包括已过版权保护期的电影、动漫、播客，以及真人聊天对话等。

Peter：像电影这种高质量影视内容有大量丰富的语音和表现力，传统互联网大厂或内容平台会有先天的数据优势吗？

冷月：并非如此。受限于监管体系，即便一家公司持有电影版权，也并不意味着可以把其中的人声用于 AI 训练，这受到配音协会等的强烈抵制。就像 Google 图书馆有大量藏书，但并不代表可以随意免费使用这些资料。

Peter：所以作为创业公司，在数据获取方面没有明显优势，但在高质量数据的清洗 know-how 和积累上，比大公司有更强的经验和复利。

冷月：对，我们离用户更近，清洗管线更倾向于保留高自然度和多说话人的语音。翻看最近各家 TTS 公司的论文，大部分数据清洗只保留了单说话人音频，不允许一个片段有多个说话人叠在一起。但在我们的管线中，我们是允许的。

我们自己的语音识别模型和数据清洗模型也做到了世界第一。我发现一个有趣的事实：noisy 数据往往是更有高表现力的数据。人什么时候情绪最丰富？往往是两个人在吵架、在争论、或在很高兴地讨论事情的时候——这时两人的声音往往会重叠在一起。传统数据清洗会直接把这种数据扔掉，而我们希望尽可能保留更多原汁原味的、符合原始分布的数据。

Peter：合成数据不是解法？

冷月：大家低估了语音工作的难度。现在绝大部分工作只是给大语言模型增加语音模态，并不是从语音本身出发的。很多时候他们用大量合成数据，拿 TTS 模型直接合成，这里面有很多问题。这种数据固然容易获得，就像合成的文本数据一样，是一个 low hanging fruit，能很快提高模型效果，但也有 toxic 的一面，会在一定程度上影响模型的表现能力和上限。我们在语音、文本、视频、图像这些模态上都看到了这个规律。所以我们相信一定需要更多高质量的、由人工标注的、由真实线上数据驱动的数据来带动模型能力提升，这是我们独特的护城河。

S2 的秘密武器：自研情绪标ASR与 RLHF

Peter：公司即将发布全新的 S2 模型，跟上一代 S1 的主要优势和差异是什么？

冷月：S2 主要实现了更精细化的控制、多说话人支持以及更低延迟。绝大部分改进不是来自模型结构，而是数据工作。我们基本上完全重构了数据管线，所有模型都是自研的——包括一个情绪标注世界第一的 ASR 模型，以及声音分离模型、Audio Quality Model 等，让预训练数据天然具有准确的 speaker tag 和 open domain 的情感标签（从简单的 emphasize 到复杂的"带着愤怒和悲伤"这类情绪），整合到数据管线后得到了非常健壮的高质量预训练数据集。

然后我们结合线上用户反馈数据——用户是否喜欢、是否下载等——构建了一个巨大的偏好数据集，训练了一个 reward model。同时我们还有通过 in-house labeling 实现的另一个 reward model，关注模型正确性和表达自然性。我们专门组建了一个全球 native speaker 团队来标注数据。结合预训练数据和后训练的强化学习管线，我们得到了 S2。

Peter：怎么理解 Fish Audio 的语音模型跟市场上其他竞争对手在架构方面的区别？

冷月：目前市场上存在多种 TTS 模型架构。第一种是比较古老的，类似 StyleTTS 的架构，ElevenLabs 2.5 等在用，优势是延迟非常低，一次能把很长的 sequence 吐出来，但韵律比较弱，比较 monotone。在此基础上出现了 Tortoise 架构，也是目前 CosyVoice、Seed TTS 等在使用的架构。

这个架构的特性是给定文本，先让模型把语义 token 吐出来——这更像文本任务而非语音任务——带有一点音高信息，再由一个额外的模型将其解码为音频。这是目前业界部署最多的一类模型，好处是非常稳定，同时在表现力上有了质的飞跃。

还有一种更新的路线，比如我们的模型，或者千问 TTS、SESAME 等——把语义和声学信息一起端到端建模。这样得到的模型表现力更强，天生可以 handle 多说话人，但反面是容易出现说话人跳变、噪音等 badcase。所以我们在强化学习上做了大量后训练来优化稳定性，让它能和前者的模型持平，同时 deliver 更好的表现力。

Peter：这种方式是未来 TTS 架构的主流趋势吗？

冷月：未来这会成为主流架构。它还有一个巨大优点：延迟可以比之前的架构低很多，理论上只需要第一个 token 生成完就可以开始音频解码，延迟可以压缩到非常恐怖的状态。我们最近还会发布一个全新类型的模型，完全去掉了 Vocoder 模块，实现从文本到波形的完整端到端建模。

我们一直非常相信端到端。每一个模块都在往模型中引入更多结构和复杂性，不只限制计算效率，也限制了模型的能力和上限。从语音发展的历程来看——早些年我们有一个模块预测每个音素有多长，再有一个模块把长度和音素放在一起，转成梅尔谱，再有一个 Vocoder 把梅尔谱转成波形，这个流程非常长。而我们和千问的方案把前两个模块又融合了，从文本信息直接给出声学信息。再往后一步——能不能把文本给进去就直接把波形吐出来？这个事情会非常 amazing，有希望把延迟降到 30～50 毫秒。

Peter：那整个 voice agent 架构呢？传统级联方案和端到端方案的区别是什么？

冷月：现阶段虽然各厂商都有端到端模型，但投入生产最多的还是级联方案：VAD → turn taking → STT → LM → TTS，大概 4～5 级流水线。很多公司宣称达到 500 毫秒，但实际生产上平均延迟都在一秒以上，因为里面有很多 bottleneck 无法完全流式化。

最先能合并的是 LM、STT 和 turn taking 三个模块——如果有一个支持流式的语音编码器接入 LM，就可以由 LM 自己判断用户是否已经说完，完成了就停止，没完成就生成答案文本再交给 TTS。这个流程从用户停止说话到模型开口，可能只有 300～500 毫秒。

再进一步把 streaming TTS 也融合进去，那我们需要等待的时间就只有：用户完成这句话之后的一次 LM prefill，加上可能几个 token 的输出时间。这个流程就非常短，可能整个就在 100 毫秒以内了。

再往前一步就是全双工模型。世界上已经存在全双工模型，但它们智力水平都很低，有各种模态 conflict。不过这个方案能提供比端到端更低的延迟响应，还能在用户说话时给出 supportive 的语气——比如「确实」「对的」「我想想」等。预计今年 Q4 推出端到端的 speech-in-to-speech-out 模型，之后再走向全双工。

Peter：ASR 模型对预训练最大的优势是什么？

冷月：最主要体现在 speaker、情感和副语言（笑声、停顿、强调等）的准确性上。我们测了 Gemini、火山 Audio Capturer 等很多模型，发现大家对副语言的处理表现都不好。要做出真正可控的、能 follow 用户 instruction 的 TTS 模型，就需要更多带 control 标签的数据，所以我们构建了自己的 ASR 模型来做这件事。

Peter：随着每一代模型架构迭代，上一代的训练管线在下一代还有帮助吗？还是每次都要从头搭建？

冷月：每一代都有基础性作用，更多时候是往前一代管线里添加更多功能。比如做全双工模型，就需要更好的声音分离模型、target speaker extraction 模型加入现有管线，把重叠说话的内容分离出来用于训练。这是一个渐进式的过程，大部分数据可以 reuse S2 的训练数据。

不做单一大模型，用模型矩阵匹配商业场景

Peter：从产品和商业角度，不同技术路线选择对用户体验和商业价值有哪些影响？

Rissa：我们按照不同商业场景选择了不同的技术路径，匹配不同需求的模型矩阵，而非追求单一大模型。比如 S1 是平台的 flagship model，也是用户使用最多的模型，非常适用于 entertainment 和 AI native apps——AI 陪伴社交应用、VTubing、Gaming 公司等，需要更自然、更真实的表达。同时我们也发现大量 real-time voice agent 和 call center 的 use case 希望使用我们的 TTS 模型。

针对这类企业客户，我们即将 launch S2 Flash，一个 4B 的 enterprise model，适用于实时客服对话场景，有更低的延迟和更高的稳定性。对于内容生成来说可以容忍较高延迟，但更在意声音质量和情感表达力，我们更建议用 S1 或即将发布的 S2 Pro。不同企业用户有不同的偏好组合——稳定性+低延迟，或稳定性+表达力，或表达力+自然度——我们会适配不同模型给不同应用场景。

Peter：所以面向更有表现力和情感性的市场，是增量最快也是潜力最大的市场。

Rissa：对。我们的声音 is more built for entertainment 和 AI native apps。这些公司过去两三年会变成未来的世界 500 强。ElevenLabs 现在主打的是传统行业世界 500 强的企业配音和有声书场景，有比较高的 content safety 管制，要树立专业的品牌形象。而我们的切入口是更有趣的声音、更有灵魂的声音，更适用于游戏和 entertainment use case，这些公司也在快速发展中，很可能在未来两到三年内成为接下来的世界 500 强——也就是高潜力市场。

Peter：公司现在大约 60% 收入来自 C 端或 prosumer 创作者，这在 AI 基础设施公司里很少见。为什么从创作者切入，而不是一开始做企业级API服务？

Rissa：我们先做了开源模型，开源社区里有很多需求要求专业创作工具，我们就做了创作平台给 content creators 使用。最早是游戏开发者和游戏配音的 ASMR artist，第一轮破圈有很多 Audio Podcast 内容创作者，最近一轮破圈让更多专业 vlogger 开始在 workflow 里使用我们做音频配音，提高创作效率也帮他们赚钱。这是一个很自然的从开源社区 evolve 的过程，团队本身做 C 端 creator platform 的 DNA 比较强。

Enterprise 和 B2B API 用户方面，早期人力有限无法满足社区里的很多需求。去年 10 月 reorg 完成后才真正开始尝试，一开始说实话冷月和我自己都没那么看好，我就抱着试一试的心态开始接 enterprise contract——我看 ElevenLabs 都能把 enterprise 模型做那么多，但我们的 use case 又不太一样。结果发现增长模式非常 bottom-up——跟 Slack、Notion 很像。开源社区里用我们模型的 engineer 和 developer，还有平台上的 PM 和内容创作者，觉得我们好用，就介绍给他们工作的公司签 enterprise contract，也有些是本身就是 founder，长期关注 TTS，开始跟我们签约。这部分增长比预期快很多，我们也发现了这部分的增长潜力，所以开始 dedicate 更多 resource 在模型上提供更多支持，做 enterprise sales 这件事。

Peter：所以你们是非常漂亮的 Product-Led Growth，结合了开源社区运营和创作平台的口碑传播。

1UGC声音模型构成最难复制的壁垒

Peter：你们的UGC内容也做得很好，介绍下经验？

Rissa：我们整个 go-to-market 策略 ToB 和 ToC 都非常 bottom-up。而且我们打造了世界第一大的 UGC voice model market，有 110 万 public UGC voices，它既加持了 consumer 平台的用户转化，也 strengthen 了 enterprise sales——很多人因为我们有这么多有趣的声音，选择我们而不是 ElevenLabs 或 Cartesia。

Peter：这些 UGC 声音模型背后有什么特别的激励机制吗？

Rissa：有的。创作者公开的声音模型如果被其他用户使用，消耗的 paid token 的 30% 我们会以 credit 形式回馈给创作者。

Peter：你们有观察到这些用户创作的声音在使用量或趋势上有什么显著变化吗？

Rissa：确实有很 dynamic 的变化。我们也是业界唯一一家建立了完整 live RLHF 做 audio preference alignment 后训练的 voice generation platform。越多人使用某个语种或带口音的语言，对应的模型表现就会实现一定的爆发。举个例子，去年 10 月我们的阿拉伯语模型实现了爆发——原因是 9 月有阿拉伯王子去世，他的声音被大量克隆在我们平台上，大家为悼念他用他的声音制作各种内容，带来了很多阿拉伯语用户，使我们阿拉伯语模型实现了性能突破。后来也有企业用户来找我们 host enterprise model in Arabic，因为他们认为我们的阿拉伯语模型是 SOTA。

Peter：如果用户上传名人声音进行克隆，从平台角度有审核或风控机制吗？

Rissa：大家在上传声音时要自己 declare ownership。如果没有 ownership，其他人可以举报，我们会撤掉声音模型。因为我们是 UGC platform，creator 要自己为自己创造的声音负责，这在我们的 terms of service 里写得很明确。

Peter：这个 UGC 生态可能会成为 Fish Audio 最难复制的资产。

Rissa：UGC 音色只是其中一个护城河。我们在过去一年建立了多个难以复制的闭环效应：第一，UGC 音色生态；第二，整个后训练 RLHF 管线——越多人使用，声音模型表现就越好、越稳定；第三，架构非常 efficient，不论训练还是推理都带来极大的成本优势；第四，我们起源于开源社区，能有效利用模型发布以最低 CAC 获取流量，让更多人使用模型、表现越来越好，造成更多 token 消耗和更多 revenue。这整个闭环是我们在过去一年成功跑起来的。

真正留下来的是"用 AI 赚钱"的创作者

Peter：很多模型公司的产品就是一个API或模型本身，没有太多定制开发。但 Fish Audio 不一样，你们也在开发完整的 Fish Studio，新版本会有更多产品级功能。你们在产品深度和设计上是怎么思考的？

Rissa：过去 12 个月里，我们整个用户画像都有很大的 dynamic change。我们成功 launch 了 SOTA 模型，找到了 PMF，实现了 10 million ARR 的商业化。在整个变化过程中，用户群体经历了 dynamic shift——从最早的游戏开发者、游戏配音创作者，到 Audio Podcast 创作者，到现在更多的是专业 professional content creator 和 VTuber。

我们发现真正有更强付费能力、真正会留在 Fish 的用户是专业内容创作者，他们用 Fish Audio 作为 existing workflow 的一部分，让他们能更高效地生产内容、帮他们赚钱。所以至少接下来六个月，我们的方向还是服务 consumer 专业内容创作者，基于他们做声音相关的衍生产品和 feature——除了现有的声音克隆、语音合成，还要让他们实现多轨编辑、更精细的情感控制，甚至 lip sync、口型结合和整个 video avatar，实现更加完整的端到端内容创作。

Peter：对于这群专业用户，产品要求和客单价跟传统配音用户很不一样。

Rissa：对，这些用户在逐渐成为主流，付费能力很强——因为他为 Fish Audio 付费是为了自己赚钱，所以粘性更强、使用频率更高、付费和续费能力也更强。关键是 Fish Audio 能不能给他最极致的体验，满足创作需求，真正帮他提高创作效率、减少创作成本。

市场上确实缺乏一个专门为播客制作者或音频创作者打造的 AI 化工具，传统工具要么太老旧，要么 ElevenLabs 这类 AI 工具并不具备专业内容创作真正需要的能力和产品。

整体来说 consumer platform 实现了两个价值：提高创作效率让 productivity 更高，同时提高 creativity。

Peter：你们的开源仓库超过 10 万 GitHub Stars，能详细阐述开源策略和对商业化的影响吗？

Rissa：我们的 DNA 里有些东西是天生的——冷月和团队小伙伴源自开源社区，本身就是 top contributor，我自己在 Meta 和 Amazon 也是做开发者社区的。我们很有效地利用了开源作为分发的护城河，成为早期很有效的 distribution channel。

但开源并不是一个 monetization 的链路。我们选择开源核心模型和工具链，是因为开发者不相信 Demo，只相信代码。只有当他们真正能跑、能测、能对比，才会相信你的模型表现。我们把模型推理工具和训练方法全部开源，让开发者可以直接 benchmark 我们的模型，本地部署测试 latency、quality 等各方面性能。

简单来说，开源是让你可以用、可以测、可以感知 Fish 模型与其他模型的差异。但我们真正的闭源商业化模型才是让你能够规模化上线、在产品上做开发、让你赚钱的模型。很多 enterprise API 客户就是这样来的——最早起源于开源，觉得好用，起了量之后开始使用闭源模型。

先吃 AI Native 市场，再切传统 500 强

Peter：跟 ElevenLabs 和头部大厂的竞争，长期差异化在哪里？

Rissa：First mover 永远有 advantage。ElevenLabs 确实是过去几年音频领域最成功的公司，短时间做到 3.3 亿 ARR、110 亿估值，是行业标杆。直接 head-to-head 竞争非常 challenging。但我们一直打的是自己的 value——针对情感化实时交互的声音，更 entertainment、更有趣的声音，这是大家选择我们而非 ElevenLabs 的原因。

但 at the end of the day，我们和 ElevenLabs 的市场肯定有 merge 的地方。等我们把 AI native apps 市场吃下之后，接下来也会打实时客服这种稳定性市场、世界 500 强公司。到那时候拼的是谁手速快、谁真正能抓住用户心智打入市场。我们整个团队在 go-to-market、内容、B2B sales 以及模型和技术能力上都很强。

Peter：Fish Audio 未来 18 个月的目标是什么？

Rissa：希望在未来 12 到 18 个月实现更 aggressive 的增长，接下来 optimize revenue growth，目标是 50～100 million ARR，jointly among B2B 和 B2C。同时也要 expand beyond AI voice generation platform，变成一个 multi-modal 平台，让更多创作者可以在我们平台做完整的内容创作。

冷月：从 research 和产品角度，希望在未来 18 个月把 Fish 打造成更完善的 content creator platform。模型侧希望在未来半年内完成多模态感知模型（感知多模态、输出语音和文本两个模态）的研发，再往后 6～12 个月完成全双工模型的研发，并在今年年底让模型能力超越 99% 的配音演员。

Peter：怎么看 Fish Audio 的全球化战略？产品有非常多的语言，在全球不同市场有不同的用户群体。

Rissa：是的，startup 精力有限，但我们是打 global 市场的语音公司。过去一年用比较有限的人力成功实现了日语、中文、英文和阿拉伯语的突破，一方面借助数据和模型能力，另一方面基于后训练 RLHF 管线。

我们定位为美国公司，serve 很多美国的 content creator 和 B2B 企业用户、AI native apps 创作者。但这些公司很多是 global company，不仅 operate in 英语，还有日语、西班牙语、韩语、葡语、法语、德语等。跨语言多语种是一个很明显的机会。我们有个得天独厚的优势——小语种和带口音语言的优势，因为声音克隆做得好，线上越多该语种或口音的人使用我们模型，对应表现就越好。

最近也发现了亚洲市场很独特的机会——日韩 AI companion 市场没有好的本地 TTS，Fish 就成了他们的首选。之前也分享过，我们在阿拉伯语和非美式口音英语的表现也实现了爆发。多语言支持需要时间和投入，但这在我们战略上非常重要。

Peter：从技术角度，做好 Fish Studio 产品和做好模型，背后有什么不同的挑战？产品需求是否会影响模型能力和架构训练的设计？

冷月：模型一直取决于用户需求来改变，研发过程强烈受用户需求影响。比如我们在研究更好的 word-level timestamp、character-level timestamp，还有 lip sync，这些都是 audio creation platform 不可或缺的部分。最早用户给一段文本我们就给一段语音，进入 Studio 时代后开始有多音轨。我们发现用户生成很多音频后导出还需要自己过一遍第三方语音识别模型才能拿到字幕——这很不方便，所以我们就在 Fish Audio 这边帮他们做好字幕生成。最早用 Whisper 做 alignment，但只能处理 30 秒音频，所以我们在研究新的模型来更好地完成音频和文本对齐。

未来我们还会有更多功能——基于音频补全（给定前后音频和中间文本去补全），或者给定视频生成对应音频——这些都会逐渐加入产品线。

我们现在正在进入 AI Voice 2.0 的技术爆发期

Peter：Rissa，你之前在 Meta 和 Amazon 做过增长和产品，也在头部 AI 图片社区创过业，25 年下半年加入 Fish Audio 担任 CEO，能聊聊这个决定背后的思考吗？

Rissa：选择 Fish Audio 有种命运驱使的感觉。最早认识冷月是通过一个 founder event，当时冷月在我眼里已经是一个闪闪发光的天才少年 researcher——我接触过很多 researcher，但像他这种对技术这么 passion 的还是第一次见。

Peter：为什么当时选择了语音，而不是图像或视频等其他方向？

Rissa：首先我自己是一个很容易与声音建立链接的人，声音能牵动我的思绪和灵感。第二，我觉得 AI 图像领域大的技术突破已经 reach 了 ceiling——从 22 年到 24 年各种 diffusion model 突破让创作门槛降低，Midjourney 以及各种图像模型 launch，甚至到去年的 Nano Banana，之后图像模型已经进入雕花状态，很少再看到非常大的技术 breakthrough。

而我们现在正在进入 AI Voice 2.0 的技术爆发期。什么是 AI Voice 2.0？就是基于上一代纯 broadcasting 类型的、很企业很正式的逐字逐句、非常清晰的 AI 生成语音，进入了下一阶段——更有交互式、具备情感的声音。你真正可以跟 AI 创作的声音建立情感链接。语音正好在这个时候从配音工具转化为真正具备 emotional intelligence 的 AI 智能体。因为各种推理和 inference 的优化，延迟可以达到更低，多轮对话情感表达也更逼真，你甚至感觉跟 AI 的对话像跟真人在交互一样。过去一年也是 AI massive adoption 的一个关键节点。

现在世界上有 4000 万 professional content creators 在逐渐 adopt 用 AI 做内容创作——就像 2022 年刚进入 diffusion 那个时代一样。所以我觉得今年以及去年是 AI Voice 时代技术 breakthrough 最佳、影响最深远的时代。

Peter：冷月，你从英伟达离职后创业的过程是怎样的？

冷月：Fish Audio 的发展过程充满故事性。从最开始脱胎于我个人在虚拟主播方面的经历，从社区性的声音合成、歌声合成走向 TTS，大概在 2024 年年初开始积极推进 TTS 技术进步。2024 年年中我觉得如果再不出来就晚了——当时世界上只有一家做出规模的语音合成公司 ElevenLabs，没有其他竞争对手。我们觉得 AI 语音需要新鲜血液，把 AI 语音做得更有情感，真正达到情感陪伴、更自然的效果。

创业不是培养人，是找战友一起打仗

Peter：对于年轻的创业者，在寻找合伙人和合作伙伴时，有哪些好的 lesson 和经验可以分享？

Rissa：首先选择合伙人时，最好 skill set 比较互补，大家有独立的 scope，但整体性格和能力互补。比如我跟冷月，他负责整个技术部分，我更多负责融资、go-to-market、partnership 和公司架构。

同时很重要的一点是看这个人的 track record——公司之前的合伙人或早期员工有没有拿到过股份？如果历史上从来没有给之前的合伙人分过任何股份，那可能是一个 red flag。还有公司是不是有比较健康的 vesting schedule——业界标准是 one year cliff，vesting over four years。创业者在创造价值的同时，也要确保跟他一起创业的伙伴们能得到应有的回报。

Peter：我注意到你们是一家能持续吸引和转化年轻超级个体的初创公司，这种人才吸引力是怎么建立的？

Rissa：我自己长期在硅谷，比较喜欢跟超级个体合作。我更喜欢抓大方向、确保解决问题，而不是抓很多细节，所以我喜欢合作的人非常 reliable——一个事情交给他就能做得很漂亮。我和冷月之前合作比较顺利的 talent 类型，都是比较 entrepreneur、有 founder traits 的人，他们擅长对某个领域 take full ownership from end to end。

我过去几年也在比较刻意性地结交这种类型的 talent，build relationship——要么让他加入我当时的公司，要么想各种方式给他们提供 support，让他们觉得我能 be helpful，在这个过程中建立比较好的战略友谊的关系。当我 ready 有一个好的 opportunity 时，我也愿意给出更多 upside——因为这种类型的 talent 如果你不给足够的 potential 和 upside，他们就会自己创业，不会加入初创公司。所以在 ownership、股份和 compensation 上我们都非常 generous，用这种方式激励大家一起克服困难、一起 take ownership。

说句实话，startup 并不是培养人的地方，startup 是大家一起找战友、一起打仗的地方。我们要在不同位置上放最适合的战友，一起实现共赢，大家最后的目标就是赢。

Peter：你们怎么吸引市场上最好的技术人才？

冷月：我们长期在开源和开发者社区深耕，认识了非常多已经 well proven、有 amazing work 的开源工作者和 researcher。他们绝大部分都是非常强的超级个体，我们优先把他们拉入团队，一般会给每个人足够的计算资源和 compensation，让他往多个方向中最感兴趣的方向跑一个月，这是我们最喜欢的招人方式。

当我们觉得一个人"闻起来味道很对"，就尽快开始合作和 work trial，给足够的资源让他去跑感兴趣的事情。这个过程中可以筛选掉对某个内容感兴趣但没有真正花时间和 effort 的人，也可以筛掉 claim 自己能做但最后没完成的人。最后留下来的都是真的喜欢这个事情、有相应 skill set 或能很快学到的人。

整体 culture 上我们是奖励功劳而不奖励苦劳，并不鼓励加班。但核心团队成员其实都是凌晨 4、5 点才睡觉。我们不鼓励少睡觉，而是在这种环境下大家非常有自驱力，每天会觉得很 excited——觉得我就是改变和创造 AGI 这个世界的人。这种 team culture 铸造了我们现在的 talent profile：大家都很年轻，除了我以外都是 00 后，非常 ambitious，都想证明给世界看——我可以做出很不一样的东西。

转载原创文章请添加微信：founderparker

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.