前百川智能联创的AI音频赌局：我要造“人”，造AI主播|来福|播客|麦克风|智能涌现|ai主播

分享至

文｜周鑫雨

访谈整理｜钟楚笛

编辑｜苏建勋

上映于2013年的《Her》，是焦可最喜欢的一部电影。

影片中的AI Samantha没有脸、没有形象，人们能感知的，只有她温柔沉静的声音。当Samantha说出，“最近你经历的事情太多了，你失去了一部分的自己”，男主角潸然泪下。

这一幕给了焦可极大触动：“仅仅声音，就能让人产生这么强的情感链接。”

后来，在《Her》设定的时间，2025年初，身为百川智能联合创始人的焦可，选择离职创业，做了一家AI音频公司，来福电台。

△前百川智能联合创始人、“来福电台”创始人兼CEO焦可，图源：受访者供图

在他创业的时间点，音频，是一个充满争议的赛道。Google在2023年7月发布的知识库NotebookLM，能够将用户的研究资料，生成10-20分钟的音频——这个产品，给AI播客赛道带来了想象空间。

但想象的另一面，是国内音频赛道，至今乏善可陈的成绩。播客赛道的头部产品小宇宙，2024年初的月活仅600万左右，远不及长视频平台。

在融资过程中，焦可同样面对不少质疑：音频传递信息的效率远不及视频，音频的市场天花板不高。

和我们的交流中，回应同样的疑问，焦可前后花了30多分钟，从《Her》《2001：太空漫游》，聊到了小宇宙、豆包。对于他而言，非做音频不可的理由太多了：

由于生产成本高，国内音频内容的供给量过少，而用户每天拥有大量的“耳朵时间”；

如今偏精品化的音频内容供给，无法满足不同用户个性化的音频需求。

更重要的是，相较于视频、文字，音频是人类最自然的交互方式，具有强烈的陪伴属性。

他告诉我们，让音频发挥最大优势的，就是AI。

一端，语音理解和生成技术，解决供给问题的同时，也能在交互中和用户建立情感联系；

另一端，AI开始洞察、理解用户的喜好。

恰巧，语音是生产信息效率最高的交互方式，用户能通过语音交互产生足够多的Long Context（长上下文）。基于过往的Long Context，AI能够总结用户偏好，并将符合的音频内容，推荐给用户。

△“来福电台”根据作者的收听历史，推荐的商业新闻播客。图源：作者试用

这套非共识的逻辑，并非所有人都买单。但也吸引了一些投资人，比如红杉中国创始及执行合伙人沈南鹏。从立项到过会，红杉前后只花了一周的时间。

2025年下半年，来福又完成了由达晨领投、红杉中国跟投的第二轮融资。两轮融资的总金额达到了1000多万美金。

但做一个AI播客平台，远非焦可的初心。他要造“人”，造AI主播。

在互联网时代，焦可在百度负责过音乐服务产品“MP3搜索”，创业做过ToC金融平台，还在中东负责过ToG项目——到了AI时代，这名互联网老兵开始思考：什么是不同于互联网的产品形态？

他得出的答案是：互联网时代解决的是连接效率的问题，AI解决的是生产力问题。

所以，工具、平台，都是互联网时代的产物，而“人”，才是独属AI时代的产品形态。

这也是如今“来福电台”的运作逻辑。

焦可告诉我们，目前，来福上一共有15位AI中文主播，还有2位英文主播。TA们风格各异，主持不同的频道，还能记住听众的偏好。

“你会和主播们产生连接。就像听电台节目，如果主播换人了，你会不太习惯。”为了让用户感受到“人”的存在，焦可为来福设计了一个占了大半屏幕的球，跟着AI主播说话的节奏跃动。

△随着AI主播说话节奏跃动的球。图源：作者试用

打开来福，用户能看到喜欢的AI主播，已经制作好自己感兴趣的内容，随时等待被收听。在这个过程中，用户也可以随时打断节目，提出问题、加入讨论，或者寻求情感陪伴。

在焦可看来，这是Samantha的雏形。

△作者对AI主播提问：为什么从科技撤出的资金流向了低估值和红利股。图源：作者试用

以下是《智能涌现》和焦可的交流内容，内容经整理编辑：

我做的不是AI播客，而是造“主播”

智能涌现：你怎么定义来福？很多人说这是一款“AI播客”。

焦可：我不认为自己做的是AI播客平台。

来福现在有15位我们定义的中文AI主播，还有2位英文AI主播，每个“人”的风格都不同。经常有用户在使用产品的过程中，点名某一位主播。

来福非常强调人的属性，我们造的其实是“人”，造的是AI主播。

智能涌现：小川（百川智能创始人兼CEO）也说要“造人”。

焦可：我们在这方面有很大的共识。

当年轰轰烈烈的互联网医疗，最后都没开花结果，原因在于互联网革命本质上是生产关系的革命，解决的是效率的问题，不解决生产力的问题。

但中国最大的问题在于，医生只有440万，好医生更少，供给严重不足。

23年初，我和小川在他家楼下聊了很多次，他当时就说想做AI医生。为什么我们信AI医疗？因为AI的本质是生产力革命。用AI造出医生，就能从根本上解决供给问题。

智能涌现：音频赛道的问题也是供给问题吗？

焦可：是。前段时间我看到有人发帖说，人类播客已经这么多了，为什么我还要听AI播客？其实人做音频的成本是非常高的，甚至超过视频制作。

视频就算主播有口音、周围环境很嘈杂，你后期可以配字幕，不影响观看。但音频只能听，所以对录音质量的要求很高。你需要一个录音棚，再不济也要配个麦克风。后期剪辑还要剪掉口癖、停顿、重复。

人类生产的音频量是有限的。比如小宇宙，一年大概有50万集节目，平均每天1000多集新节目。人类生产的视频，每天有大几千万。都没有人嫌AI视频多，为啥觉得AI音频多？

智能涌现：供给虽然少，但用户有那么多听音频的需求吗？

焦可：一个人每天都有很多“耳朵时间”，比如上下班通勤、健身跑步、做家务、睡前时间。

德勤发布过一份报告，除去音乐，世界范围内音频听众大概有16亿。而且音频是高频刚需，起码用户每两天就要听。

智能涌现：现在AI应用主流的方向有两个，一个是工具，一个是平台。这都不是你想做的产品形态？

焦可：平台经济是互联网的产品形态，工具型产品其实是平台服务的一部分。比如服务创作者和消费者双端的平台，平台为生产者提供创作工具，工具生产的内容再供给消费者。

现在很多AI产品，看上去还是一个平台或者工具，很容易落到大厂的射程里。

AI时代真正的产品形态应该是“人”，应该是科学家、医生、主播，这是互联网时代不具备的，但AI可以做到的产品形态。

智能涌现：造出来的“人”是什么产品形态？

焦可：《Her》这部电影就是个很好的产品经理，因为它定义了一个产品如何去和用户交互。

最开始Samantha和男主的交互，是主动帮他处理了邮件。后续他们建立感情，不是通过男主的主动chat，而是一起玩游戏、搭积木。大家一起做成一件事，才是真正的陪伴。

很多AI陪伴产品，非常大的问题是重度依赖用户的主动输入。你要不停和AI讲话，但绝大多数用户没有这么多话可以讲。所以最后留下来的用户是少数有表达欲的人。

智能涌现：为什么你“造人”切入的是音频赛道？

焦可：音频有视频不具备的价值，就是沟通性，这本来就是人类最自然的沟通方式。音频还很容易触发情感属性，以前有情感热线的都是电台，但没有电视台。

电影《Her》对这波AI创业的影响还蛮大的。GPT-4o中使用的声音，就来自片中的AI“Samantha”。很多人没意识到，从头至尾，Samantha没有形象，只有声音。

所以声音是很重要的，音频有很强的陪伴属性。目前图像、视频、机器人，还没有跨过恐怖谷效益，但音频可以。这是我们做音频的重要原因。

而且音频是非打扰、非独占式的。你看半个小时视频是蛮累的，因为所有的感官，你的眼睛、你的手、你的耳朵都被占着。但音频就还好。

未来两年，我相信大家会越来越懒得掏出手机，点击上面的App去社交或者检索信息。既然机器开始听得懂人话，未来我们交互的界面就可能成为语音。

智能涌现：你是怎么设计来福的功能的？

焦可：来福做的事，就是和《Her》一样，以提供内容为切口，去和用户交互。用户不只能听节目，还能随时和AI主播聊。

我们希望营造一种感觉，就是你随机走进一个房间，里面两个主播在聊你感兴趣的事。你可以坐下安静听，也可以随时参与他们的讨论。

在这个过程中，你会和主播们产生连接。就像听电台节目，如果主播换人了，你会不太习惯。

来福还可以根据你的需求，或者你的喜好，快速制作音频内容。比如一些有时效性的内容，人类播客可能需要一周的制作时间。但AI主播不到一小时就可以准备好内容。这是我们看到的机会。

智能涌现：你完整经历了互联网周期，现在做AI创业，有哪些思维是要改变的？

焦可：如果你认为AI是一个新的技术周期，那就千万小心，不要用互联网的惯性去做事。

我在百川也聊过很多互联网产品经理。但是大家还是想着怎么做平台、怎么做双边市场、怎么投流。

但网络效应在AI时代不存在。很多人在AI时代创业，说要做平台，但平台是上个互联网时代的产品形态。互联网改变的不是生产，而是将交易成本通过生产者和消费者的互联，打得很低。

所以互联网大厂走的都是平台经济，让你可以通过在一段时间内大规模投入资金，让生产和消费两端同时规模化。

比如滴滴，一端是司机，一端是乘客。如果只有一端，互联网平台的经济模型是无效的。等两端都起来，互联网平台的壁垒就建立了。

但AI是生产力革命。生产力直接生产商品或服务，产生的是单边市场。2024年一些AI产品的投流证明，单边市场是没法靠烧钱起来的，一旦有更好的产品，用户就容易迁移。

AI是一个新的技术周期，就不要用互联网的思维做产品，而是要做隔代进化的东西。

相比DAU，我更看重DTU（Daily Talk User）

智能涌现：豆包是大厂产品，也上线了AI播客功能，它的DAU又有断层的优势。豆包会把你做的事儿覆盖掉吗？

焦可：豆包是工具型产品。

智能涌现：不少用户同样在和豆包建立情感联系。

焦可：我们看比例，大多数用户仍然把豆包当成搜索工具。

Chatbot是即插即走的，用户很难产生Long Context。现在来福的用户日均使用时长已经到了半个小时。

而且你得主动和豆包交互，再等待回应。来福不需要你主动交互，它反过来根据你的需求陪伴你。所以只要你打开来福，你会发现来福已经根据你的兴趣，把节目主动制作好了，你不需要额外付出交互成本。

智能涌现：用户使用时长是你最关心的指标吗？

焦可：这么说，我更关心DTU，Daily Talk User，也就是每天有多少用户在讲话。

DAU对我们而言不是重要指标。只有用户的Long Context决定长记忆的量，DAU随时会走。

智能涌现：那你需要和几个大App抢夺用户的注意力和时间。

焦可：是的。这两年用户比较容易沉浸在某几个大App里，获取新的用户时间很难。

所以我们现在也在追求高留存，让用户在长留存中产生足够的周均使用时长。

这对创业者来说是个挑战。所以我们现在也在和一些汽车厂商合作，帮他们做车载个性化AI电台。

智能涌现：来福会怎么做增长？

焦可：未来我们还是会先面向一二线城市的上班族，从他们的通勤时间切入。这是一个比较确定性的需求。

智能涌现：不只是大厂，国内现在聚焦AI音频制作的公司不少，来福有所谓的“护城河”吗？

焦可：大家的定位还是工具。我的观点是，使用工具的创作者是少数，内容消费者才是大多数。消费者在意的是服务，所以来福提供完整的内容服务。

光有内容供给是不够的，我们要解决的是分发问题。

AI推荐音频目前是蛮有门槛的技术。音频的推荐筛选效率比较低，不像视频，用户看了开头就知道喜不喜欢，但音频你得听一两分钟才能决定。

所以目前我们自己搭了一套工程体系：

一块是主播和内容的AI生成管线，一块是AI音频的指令交互界面，还有一块是长记忆的Infra层，因为AI的记忆既会影响生成的内容是否匹配用户喜好，也会影响推荐分发的准确性。

智能涌现：国内有和你们做同样事情的公司吗？

焦可：从目前发布的产品来看，大家做的都是单点的音频模型，或者创作工具。但把一套服务做完的，只有我们。

智能涌现：小宇宙之类的播客平台，有内容和用户基础，未来他们做AI播客，你怎么竞争？

焦可：不少上个时代的平台，基本盘是人类生产的内容。这样的平台其实不太容易引入AI内容。即便引入，也会打一个“疑似AI生成”的水印，或者尽量降低权重。在我看来，这是一种歧视。

当你的基本盘是人类时，天然就会有一堆人维护原有的创作生态。就像胶片相机厂商，即便掌握技术，也很难转型成数码相机，这就是柯达当时发生的事。

智能涌现：这是用户教育可以解决的问题吗？

焦可：小宇宙的用户群和我们不一样，因为他们贡献的价值和我们也不一样。

小宇宙创始人Kyth说，小宇宙是在丰饶时代创造稀缺价值。独特、深度信息是小宇宙提供的价值，但消费群体只是少数人。

就像长视频平台出品的是精品内容，但创造的商业价值远不及抖音。抖音的核心价值不是短视频，真正有价值的东西是个性化，每个人都能被提供自己喜欢的内容。

所以来福贡献的价值也是个性化的播客。每个人打开来福，被推送的内容是不一样的。AI能把个性化的价值往上发挥到更高的level。

智能涌现：先发优势对你来说重要吗？

焦可：我创业这么多年，意识到节奏是最重要的事。我们可以快，但不能急。

如果我们求快，推出一个不solid的解决方案，用户是很容易被其他新供给抢走的。就像朱啸虎说的，一旦用户流失，如果要重新召回，在移动互联网时代可能要花10倍以上的成本。

智能涌现：之前有创业者提到，C端产品第一天不收钱，之后就再也收不到钱了。你认同这个观点吗？

焦可：这得看产品的类型。第一天必须收钱的，叫做“旅游型产品”，就好比你去旅游城市，一冲动在那儿买了房，结果之后根本不会住。

这些产品不是持续性的刚需，所以只能在第一波赚到钱。如果你相信自己做的是有留存的产品，一个越使用、用户忠诚度越高的产品，为什么要把收费门槛设置在第一天呢？我想和用户长期发展信任关系。

智能涌现：和用户长期发展信任关系后，你怎么设计来福的商业模式？

焦可：最容易做的是广告。AI主播可以用自己的风格去口播。

但其中也有问题。音频产品很难衡量广告效果，品牌不知道用户购买行为，是不是由于听到音频的推荐。

长期来看，AI核心的商业模式不是广告，而是用户付费。广告建立在商家和用户的信息不对称上。但AI其实在不断消除信息不对称。

智能涌现：来福目前面向的是国内市场。为什么你没有向大多数创业者一样day 1选择出海？

焦可：因为国内的音频需求很大，但供给比较弱。海外音频的供给挺强的，成熟市场意味着用户需求已经被较好的满足。

革命往往发生在边缘地区。所以从国内开始跑通产品，尤其是推荐，会比较容易。因为推荐体系建立在用户每天使用、产生context的基础上。

语音能产生更多用户上下文

智能涌现：Bet on音频是行业共识吗？

焦可：不算。我遇到很多投资人，都觉得音频的价值比较低，因为上一代音频公司没有做太大。

当然上一代音频产品的用户量可能不小，但没有成为大众应用，核心原因在于它们都是单边产品，音频退化成了信息承载工具。如果比信息传递效率，音频相较于视频，是不占优势的。

智能涌现：融资过程中你最常被问的问题是什么？

焦可：还是大厂竞争。创业公司如果只做单点功能、单点模型，是非常容易被大厂碾压的，因为大厂可以在单点功能上投入一整个部门的资源。

但来福做的事，实际上跨了好几个部门，包括内容、推荐、语音。对大厂而言，打通这么多业务蛮难的。

融资过程中，一些投资人会说音频不太好做。其实我蛮开心的。当大家都觉得音频好做，这件事大概率已经成为共识，大厂也会进场。

智能涌现：最早buy in你的投资人是谁？

焦可：最开始，2025年春节前，我和红杉的吴茗（红杉中国投资合伙人）聊，她是我在百度的老同事。

她把我推荐给了Neil（沈南鹏，红杉中国创始及执行合伙人）。Neil听完之后觉得逻辑很清楚。红杉很快，一周时间就过完会了。拿到钱我就正式创业了。

智能涌现：你是怎么向Neil解释自己的创业逻辑的？

焦可：我在百川期间，行业最重要的事叫做“探索人类智慧的上限”，通俗来讲，就是造一个爱因斯坦，能不能记住用户不重要，只要记住物理学定律就行。

但我和小川还有一个共识：在应用侧，记忆是很重要的事，AI时代真正的壁垒就是长期记忆。

所以，AI应用的兵家必争之地是Long Context（长上下文）。用户产生的上下文是AI记忆的内容，所以有了长上下文，才会有长记忆。

在所有交互中，只有音频才会产生Long Context和Long Memory。语音是人类最自然的一种沟通方式，语音输入的速度是文字的4倍，所包含的信息量是文字的两倍。

未来，AI会解决内容供给，也会利用记忆重塑内容分发，中间的桥梁，就是产生长上下文的音频。

智能涌现：为什么长记忆对应用很重要？

焦可：上一代的推荐引擎，本质上是根据你的历史行为，根据关键词，参考跟你相同画像用户的行为协同过滤，去猜你可能喜欢什么东西。

但现实中，你给家人朋友推荐饭馆、电影，一定不是靠猜的，而是基于多年对他的长期记忆。所以长期记忆对AI应用的价值在于真正记住、懂得一个用户。

抖音推荐算法的逻辑，在AI时代将会有新变化：一端，AI直接生成内容与服务，供给的数量与质量将再发生几个数量级的变化；另一端，AI基于对用户的长记忆理解用户，从而提供真正属于个人的个性化服务。

智能涌现：用户和一个AI主播交互的动力是什么？交互的需求真的存在吗？

焦可：很多场景都需要语音交互。比如我在开车时听节目，突然有个问题，我就直接打断AI主播问他们问题，不需要停车打字去搜索。

有时你也会对某个话题感兴趣，比如英特尔和英伟达的对比、去保定的旅游攻略，这些内容人类播客平台或许没有供给，但是AI 10秒之内就可以帮你生成定制化的节目。

我们有一个用户，晚上听到了一个讲原生家庭的节目，有感而发跟主持人聊了很久。还有一个用户，因为不同意主持人的观点，跟TA激辩了300多轮。

智能涌现：产品上线后，buy in的投资人比例变高了吗？

焦可：变高了。剩下的还是用互联网的逻辑评判语音，觉得我们太贵。

我们不太烧钱，也不想让股东结构太复杂。所以第二轮融资比较简单。

智能涌现：创业过程中你焦虑过吗？

焦可：我个人还好，因为逻辑想清楚了，做就好了。剩下的都是战术上的问题。创业其实每天十有八九都是坏消息，不过这才叫创业，如果一帆风顺，说明你已经在做被别人验证过的事。

如果真要说有什么急迫的事，就是招人。我出来公开发声，其实并不是为了To VC，我们刚融完一轮。

我们招人的时候就发现，很多候选人想求安稳，更愿意去大公司，或者当公务员。大家的心气儿和13、14年那会儿是不太一样的。

所以我出来发声，是因为想招人！很急！

欢迎交流！

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

手机 / 数码

房产 / 家居

前百川智能联创的AI音频赌局：我要造“人”，造AI主播

马斯克终于想通了：先去月球“刷经验”

爱泼斯坦案亚裔受害者：首次见他就与2人发生关系

爱泼斯坦案亚裔受害者：首次见他就与2人发生关系

创中国冬奥最佳战绩！19岁速滑新星含泪向天拉勾

央视电影活动名场面！明星站位太讲究

沪深北交易所优化再融资 释放3个信号

长安将搭钠电池 好比汽车要装柴油机？

态度原创

三角洲逆战未来DNF鹅鸭杀碧蓝航线等，超3000个游戏红包封面，送了！

转头就晕的耳石症，能开车上班吗？

AOC新款24寸显示器上市：FHD 420Hz TN屏首发3999元

美伊最敏感时刻 林肯号航母迎来三位“不速之客”

沪深北交易所优化再融资释放3个信号

长安将搭钠电池好比汽车要装柴油机？

美伊最敏感时刻林肯号航母迎来三位“不速之客”