文|周鑫雨
访谈整理|钟楚笛
编辑|苏建勋
上映于2013年的《Her》,是焦可最喜欢的一部电影。
影片中的AI Samantha没有脸、没有形象,人们能感知的,只有她温柔沉静的声音。当Samantha说出,“最近你经历的事情太多了,你失去了一部分的自己”,男主角潸然泪下。
这一幕给了焦可极大触动:“仅仅声音,就能让人产生这么强的情感链接。”
后来,在《Her》设定的时间,2025年初,身为百川智能联合创始人的焦可,选择离职创业,做了一家AI音频公司,来福电台。
![]()
△前百川智能联合创始人、“来福电台”创始人兼CEO焦可,图源:受访者供图
在他创业的时间点,音频,是一个充满争议的赛道。Google在2023年7月发布的知识库NotebookLM,能够将用户的研究资料,生成10-20分钟的音频——这个产品,给AI播客赛道带来了想象空间。
但想象的另一面,是国内音频赛道,至今乏善可陈的成绩。播客赛道的头部产品小宇宙,2024年初的月活仅600万左右,远不及长视频平台。
在融资过程中,焦可同样面对不少质疑:音频传递信息的效率远不及视频,音频的市场天花板不高。
和我们的交流中,回应同样的疑问,焦可前后花了30多分钟,从《Her》《2001:太空漫游》,聊到了小宇宙、豆包。对于他而言,非做音频不可的理由太多了:
由于生产成本高,国内音频内容的供给量过少,而用户每天拥有大量的“耳朵时间”;
如今偏精品化的音频内容供给,无法满足不同用户个性化的音频需求。
更重要的是,相较于视频、文字,音频是人类最自然的交互方式,具有强烈的陪伴属性。
他告诉我们,让音频发挥最大优势的,就是AI。
一端,语音理解和生成技术,解决供给问题的同时,也能在交互中和用户建立情感联系;
另一端,AI开始洞察、理解用户的喜好。
恰巧,语音是生产信息效率最高的交互方式,用户能通过语音交互产生足够多的Long Context(长上下文)。基于过往的Long Context,AI能够总结用户偏好,并将符合的音频内容,推荐给用户。
![]()
△“来福电台”根据作者的收听历史,推荐的商业新闻播客。图源:作者试用
这套非共识的逻辑,并非所有人都买单。但也吸引了一些投资人,比如红杉中国创始及执行合伙人沈南鹏。从立项到过会,红杉前后只花了一周的时间。
2025年下半年,来福又完成了由达晨领投、红杉中国跟投的第二轮融资。两轮融资的总金额达到了1000多万美金。
但做一个AI播客平台,远非焦可的初心。他要造“人”,造AI主播。
在互联网时代,焦可在百度负责过音乐服务产品“MP3搜索”,创业做过ToC金融平台,还在中东负责过ToG项目——到了AI时代,这名互联网老兵开始思考:什么是不同于互联网的产品形态?
他得出的答案是:互联网时代解决的是连接效率的问题,AI解决的是生产力问题。
所以,工具、平台,都是互联网时代的产物,而“人”,才是独属AI时代的产品形态。
这也是如今“来福电台”的运作逻辑。
焦可告诉我们,目前,来福上一共有15位AI中文主播,还有2位英文主播。TA们风格各异,主持不同的频道,还能记住听众的偏好。
“你会和主播们产生连接。就像听电台节目,如果主播换人了,你会不太习惯。”为了让用户感受到“人”的存在,焦可为来福设计了一个占了大半屏幕的球,跟着AI主播说话的节奏跃动。
![]()
△随着AI主播说话节奏跃动的球。图源:作者试用
打开来福,用户能看到喜欢的AI主播,已经制作好自己感兴趣的内容,随时等待被收听。在这个过程中,用户也可以随时打断节目,提出问题、加入讨论,或者寻求情感陪伴。
在焦可看来,这是Samantha的雏形。
![]()
△作者对AI主播提问:为什么从科技撤出的资金流向了低估值和红利股。图源:作者试用
以下是《智能涌现》和焦可的交流内容,内容经整理编辑:
我做的不是AI播客,而是造“主播”
智能涌现:你怎么定义来福?很多人说这是一款“AI播客”。
焦可:我不认为自己做的是AI播客平台。
来福现在有15位我们定义的中文AI主播,还有2位英文AI主播,每个“人”的风格都不同。经常有用户在使用产品的过程中,点名某一位主播。
来福非常强调人的属性,我们造的其实是“人”,造的是AI主播。
智能涌现:小川(百川智能创始人兼CEO)也说要“造人”。
焦可:我们在这方面有很大的共识。
当年轰轰烈烈的互联网医疗,最后都没开花结果,原因在于互联网革命本质上是生产关系的革命,解决的是效率的问题,不解决生产力的问题。
但中国最大的问题在于,医生只有440万,好医生更少,供给严重不足。
23年初,我和小川在他家楼下聊了很多次,他当时就说想做AI医生。为什么我们信AI医疗?因为AI的本质是生产力革命。用AI造出医生,就能从根本上解决供给问题。
智能涌现:音频赛道的问题也是供给问题吗?
焦可:是。前段时间我看到有人发帖说,人类播客已经这么多了,为什么我还要听AI播客?其实人做音频的成本是非常高的,甚至超过视频制作。
视频就算主播有口音、周围环境很嘈杂,你后期可以配字幕,不影响观看。但音频只能听,所以对录音质量的要求很高。你需要一个录音棚,再不济也要配个麦克风。后期剪辑还要剪掉口癖、停顿、重复。
人类生产的音频量是有限的。比如小宇宙,一年大概有50万集节目,平均每天1000多集新节目。人类生产的视频,每天有大几千万。都没有人嫌AI视频多,为啥觉得AI音频多?
智能涌现:供给虽然少,但用户有那么多听音频的需求吗?
焦可:一个人每天都有很多“耳朵时间”,比如上下班通勤、健身跑步、做家务、睡前时间。
德勤发布过一份报告,除去音乐,世界范围内音频听众大概有16亿。而且音频是高频刚需,起码用户每两天就要听。
智能涌现:现在AI应用主流的方向有两个,一个是工具,一个是平台。这都不是你想做的产品形态?
焦可:平台经济是互联网的产品形态,工具型产品其实是平台服务的一部分。比如服务创作者和消费者双端的平台,平台为生产者提供创作工具,工具生产的内容再供给消费者。
现在很多AI产品,看上去还是一个平台或者工具,很容易落到大厂的射程里。
AI时代真正的产品形态应该是“人”,应该是科学家、医生、主播,这是互联网时代不具备的,但AI可以做到的产品形态。
智能涌现:造出来的“人”是什么产品形态?
焦可:《Her》这部电影就是个很好的产品经理,因为它定义了一个产品如何去和用户交互。
最开始Samantha和男主的交互,是主动帮他处理了邮件。后续他们建立感情,不是通过男主的主动chat,而是一起玩游戏、搭积木。大家一起做成一件事,才是真正的陪伴。
很多AI陪伴产品,非常大的问题是重度依赖用户的主动输入。你要不停和AI讲话,但绝大多数用户没有这么多话可以讲。所以最后留下来的用户是少数有表达欲的人。
智能涌现:为什么你“造人”切入的是音频赛道?
焦可:音频有视频不具备的价值,就是沟通性,这本来就是人类最自然的沟通方式。音频还很容易触发情感属性,以前有情感热线的都是电台,但没有电视台。
电影《Her》对这波AI创业的影响还蛮大的。GPT-4o中使用的声音,就来自片中的AI“Samantha”。很多人没意识到,从头至尾,Samantha没有形象,只有声音。
所以声音是很重要的,音频有很强的陪伴属性。目前图像、视频、机器人,还没有跨过恐怖谷效益,但音频可以。这是我们做音频的重要原因。
而且音频是非打扰、非独占式的。你看半个小时视频是蛮累的,因为所有的感官,你的眼睛、你的手、你的耳朵都被占着。但音频就还好。
未来两年,我相信大家会越来越懒得掏出手机,点击上面的App去社交或者检索信息。既然机器开始听得懂人话,未来我们交互的界面就可能成为语音。
智能涌现:你是怎么设计来福的功能的?
焦可:来福做的事,就是和《Her》一样,以提供内容为切口,去和用户交互。用户不只能听节目,还能随时和AI主播聊。
我们希望营造一种感觉,就是你随机走进一个房间,里面两个主播在聊你感兴趣的事。你可以坐下安静听,也可以随时参与他们的讨论。
在这个过程中,你会和主播们产生连接。就像听电台节目,如果主播换人了,你会不太习惯。
来福还可以根据你的需求,或者你的喜好,快速制作音频内容。比如一些有时效性的内容,人类播客可能需要一周的制作时间。但AI主播不到一小时就可以准备好内容。这是我们看到的机会。
智能涌现:你完整经历了互联网周期,现在做AI创业,有哪些思维是要改变的?
焦可:如果你认为AI是一个新的技术周期,那就千万小心,不要用互联网的惯性去做事。
我在百川也聊过很多互联网产品经理。但是大家还是想着怎么做平台、怎么做双边市场、怎么投流。
但网络效应在AI时代不存在。很多人在AI时代创业,说要做平台,但平台是上个互联网时代的产品形态。互联网改变的不是生产,而是将交易成本通过生产者和消费者的互联,打得很低。
所以互联网大厂走的都是平台经济,让你可以通过在一段时间内大规模投入资金,让生产和消费两端同时规模化。
比如滴滴,一端是司机,一端是乘客。如果只有一端,互联网平台的经济模型是无效的。等两端都起来,互联网平台的壁垒就建立了。
但AI是生产力革命。生产力直接生产商品或服务,产生的是单边市场。2024年一些AI产品的投流证明,单边市场是没法靠烧钱起来的,一旦有更好的产品,用户就容易迁移。
AI是一个新的技术周期,就不要用互联网的思维做产品,而是要做隔代进化的东西。
相比DAU,我更看重DTU(Daily Talk User)
智能涌现:豆包是大厂产品,也上线了AI播客功能,它的DAU又有断层的优势。豆包会把你做的事儿覆盖掉吗?
焦可:豆包是工具型产品。
智能涌现:不少用户同样在和豆包建立情感联系。
焦可:我们看比例,大多数用户仍然把豆包当成搜索工具。
Chatbot是即插即走的,用户很难产生Long Context。现在来福的用户日均使用时长已经到了半个小时。
而且你得主动和豆包交互,再等待回应。来福不需要你主动交互,它反过来根据你的需求陪伴你。所以只要你打开来福,你会发现来福已经根据你的兴趣,把节目主动制作好了,你不需要额外付出交互成本。
智能涌现:用户使用时长是你最关心的指标吗?
焦可:这么说,我更关心DTU,Daily Talk User,也就是每天有多少用户在讲话。
DAU对我们而言不是重要指标。只有用户的Long Context决定长记忆的量,DAU随时会走。
智能涌现:那你需要和几个大App抢夺用户的注意力和时间。
焦可:是的。这两年用户比较容易沉浸在某几个大App里,获取新的用户时间很难。
所以我们现在也在追求高留存,让用户在长留存中产生足够的周均使用时长。
这对创业者来说是个挑战。所以我们现在也在和一些汽车厂商合作,帮他们做车载个性化AI电台。
智能涌现:来福会怎么做增长?
焦可:未来我们还是会先面向一二线城市的上班族,从他们的通勤时间切入。这是一个比较确定性的需求。
智能涌现:不只是大厂,国内现在聚焦AI音频制作的公司不少,来福有所谓的“护城河”吗?
焦可:大家的定位还是工具。我的观点是,使用工具的创作者是少数,内容消费者才是大多数。消费者在意的是服务,所以来福提供完整的内容服务。
光有内容供给是不够的,我们要解决的是分发问题。
AI推荐音频目前是蛮有门槛的技术。音频的推荐筛选效率比较低,不像视频,用户看了开头就知道喜不喜欢,但音频你得听一两分钟才能决定。
所以目前我们自己搭了一套工程体系:
一块是主播和内容的AI生成管线,一块是AI音频的指令交互界面,还有一块是长记忆的Infra层,因为AI的记忆既会影响生成的内容是否匹配用户喜好,也会影响推荐分发的准确性。
智能涌现:国内有和你们做同样事情的公司吗?
焦可:从目前发布的产品来看,大家做的都是单点的音频模型,或者创作工具。但把一套服务做完的,只有我们。
智能涌现:小宇宙之类的播客平台,有内容和用户基础,未来他们做AI播客,你怎么竞争?
焦可:不少上个时代的平台,基本盘是人类生产的内容。这样的平台其实不太容易引入AI内容。即便引入,也会打一个“疑似AI生成”的水印,或者尽量降低权重。在我看来,这是一种歧视。
当你的基本盘是人类时,天然就会有一堆人维护原有的创作生态。就像胶片相机厂商,即便掌握技术,也很难转型成数码相机,这就是柯达当时发生的事。
智能涌现:这是用户教育可以解决的问题吗?
焦可:小宇宙的用户群和我们不一样,因为他们贡献的价值和我们也不一样。
小宇宙创始人Kyth说,小宇宙是在丰饶时代创造稀缺价值。独特、深度信息是小宇宙提供的价值,但消费群体只是少数人。
就像长视频平台出品的是精品内容,但创造的商业价值远不及抖音。抖音的核心价值不是短视频,真正有价值的东西是个性化,每个人都能被提供自己喜欢的内容。
所以来福贡献的价值也是个性化的播客。每个人打开来福,被推送的内容是不一样的。AI能把个性化的价值往上发挥到更高的level。
智能涌现:先发优势对你来说重要吗?
焦可:我创业这么多年,意识到节奏是最重要的事。我们可以快,但不能急。
如果我们求快,推出一个不solid的解决方案,用户是很容易被其他新供给抢走的。就像朱啸虎说的,一旦用户流失,如果要重新召回,在移动互联网时代可能要花10倍以上的成本。
智能涌现:之前有创业者提到,C端产品第一天不收钱,之后就再也收不到钱了。你认同这个观点吗?
焦可:这得看产品的类型。第一天必须收钱的,叫做“旅游型产品”,就好比你去旅游城市,一冲动在那儿买了房,结果之后根本不会住。
这些产品不是持续性的刚需,所以只能在第一波赚到钱。如果你相信自己做的是有留存的产品,一个越使用、用户忠诚度越高的产品,为什么要把收费门槛设置在第一天呢?我想和用户长期发展信任关系。
智能涌现:和用户长期发展信任关系后,你怎么设计来福的商业模式?
焦可:最容易做的是广告。AI主播可以用自己的风格去口播。
但其中也有问题。音频产品很难衡量广告效果,品牌不知道用户购买行为,是不是由于听到音频的推荐。
长期来看,AI核心的商业模式不是广告,而是用户付费。广告建立在商家和用户的信息不对称上。但AI其实在不断消除信息不对称。
智能涌现:来福目前面向的是国内市场。为什么你没有向大多数创业者一样day 1选择出海?
焦可:因为国内的音频需求很大,但供给比较弱。海外音频的供给挺强的,成熟市场意味着用户需求已经被较好的满足。
革命往往发生在边缘地区。所以从国内开始跑通产品,尤其是推荐,会比较容易。因为推荐体系建立在用户每天使用、产生context的基础上。
语音能产生更多用户上下文
智能涌现:Bet on音频是行业共识吗?
焦可:不算。我遇到很多投资人,都觉得音频的价值比较低,因为上一代音频公司没有做太大。
当然上一代音频产品的用户量可能不小,但没有成为大众应用,核心原因在于它们都是单边产品,音频退化成了信息承载工具。如果比信息传递效率,音频相较于视频,是不占优势的。
智能涌现:融资过程中你最常被问的问题是什么?
焦可:还是大厂竞争。创业公司如果只做单点功能、单点模型,是非常容易被大厂碾压的,因为大厂可以在单点功能上投入一整个部门的资源。
但来福做的事,实际上跨了好几个部门,包括内容、推荐、语音。对大厂而言,打通这么多业务蛮难的。
融资过程中,一些投资人会说音频不太好做。其实我蛮开心的。当大家都觉得音频好做,这件事大概率已经成为共识,大厂也会进场。
智能涌现:最早buy in你的投资人是谁?
焦可:最开始,2025年春节前,我和红杉的吴茗(红杉中国投资合伙人)聊,她是我在百度的老同事。
她把我推荐给了Neil(沈南鹏,红杉中国创始及执行合伙人)。Neil听完之后觉得逻辑很清楚。红杉很快,一周时间就过完会了。拿到钱我就正式创业了。
智能涌现:你是怎么向Neil解释自己的创业逻辑的?
焦可:我在百川期间,行业最重要的事叫做“探索人类智慧的上限”,通俗来讲,就是造一个爱因斯坦,能不能记住用户不重要,只要记住物理学定律就行。
但我和小川还有一个共识:在应用侧,记忆是很重要的事,AI时代真正的壁垒就是长期记忆。
所以,AI应用的兵家必争之地是Long Context(长上下文)。用户产生的上下文是AI记忆的内容,所以有了长上下文,才会有长记忆。
在所有交互中,只有音频才会产生Long Context和Long Memory。语音是人类最自然的一种沟通方式,语音输入的速度是文字的4倍,所包含的信息量是文字的两倍。
未来,AI会解决内容供给,也会利用记忆重塑内容分发,中间的桥梁,就是产生长上下文的音频。
智能涌现:为什么长记忆对应用很重要?
焦可:上一代的推荐引擎,本质上是根据你的历史行为,根据关键词,参考跟你相同画像用户的行为协同过滤,去猜你可能喜欢什么东西。
但现实中,你给家人朋友推荐饭馆、电影,一定不是靠猜的,而是基于多年对他的长期记忆。所以长期记忆对AI应用的价值在于真正记住、懂得一个用户。
抖音推荐算法的逻辑,在AI时代将会有新变化:一端,AI直接生成内容与服务,供给的数量与质量将再发生几个数量级的变化;另一端,AI基于对用户的长记忆理解用户,从而提供真正属于个人的个性化服务。
智能涌现:用户和一个AI主播交互的动力是什么?交互的需求真的存在吗?
焦可:很多场景都需要语音交互。比如我在开车时听节目,突然有个问题,我就直接打断AI主播问他们问题,不需要停车打字去搜索。
有时你也会对某个话题感兴趣,比如英特尔和英伟达的对比、去保定的旅游攻略,这些内容人类播客平台或许没有供给,但是AI 10秒之内就可以帮你生成定制化的节目。
我们有一个用户,晚上听到了一个讲原生家庭的节目,有感而发跟主持人聊了很久。还有一个用户,因为不同意主持人的观点,跟TA激辩了300多轮。
智能涌现:产品上线后,buy in的投资人比例变高了吗?
焦可:变高了。剩下的还是用互联网的逻辑评判语音,觉得我们太贵。
我们不太烧钱,也不想让股东结构太复杂。所以第二轮融资比较简单。
智能涌现:创业过程中你焦虑过吗?
焦可:我个人还好,因为逻辑想清楚了,做就好了。剩下的都是战术上的问题。创业其实每天十有八九都是坏消息,不过这才叫创业,如果一帆风顺,说明你已经在做被别人验证过的事。
如果真要说有什么急迫的事,就是招人。我出来公开发声,其实并不是为了To VC,我们刚融完一轮。
我们招人的时候就发现,很多候选人想求安稳,更愿意去大公司,或者当公务员。大家的心气儿和13、14年那会儿是不太一样的。
所以我出来发声,是因为想招人!很急!
欢迎交流!
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.