![]()
AI语音赛道最近又迎来了大动作,英伟达创始人黄仁勋的投资眼光向来毒辣,这次他瞄准的是一家名为Cartesia的语音生成创企。这家公司不仅刚完成1亿美元融资,还同步推出了全新语音模型Sonic-3。
更让人关注的是,创始团队里藏着两位华人大牛,还有Mamba作者和谷歌背景的核心成员加持。在智能语音市场持续升温的当下,这样的豪华配置加上巨头注资,无疑给赛道竞争添了一把猛火。
![]()
![]()
华人斯坦福学霸天团集结
Cartesia的诞生自带“学霸基因”,它由5位斯坦福AI实验室的研究员联合创立,背后还有导师Chris Ré的鼎力支持,这几位创始人在校园里就埋下了创新的种子,共同发明了SSM状态空间模型,为后续的技术落地打下了坚实基础。
团队中的华人成员格外引人注目。首席科学家Albert Gu不仅是火爆AI圈的Mamba模型主要作者之一,还入选了2024年《时代》杂志全球最具影响力人物名单,他在SSM领域的研究为模型的低延迟、高精度特性提供了核心支撑。
![]()
另一位华人成员Brandon Yang有着谷歌大脑的工作经历,顶尖科技公司的任职经验让他在技术落地和产品化方面更有心得,除此之外,CEO Karan Goel是斯坦福博士,还曾获得过Siebel Scholar奖学金,在校期间受到李飞飞等知名教授的指导,学术和管理能力兼备。
过去四年,这个团队没闲着,一直在深耕SSM的理论构建,还把技术扩展到了文本、音频、视频等多个模态,积累了不少领先成果,他们没有盲目跟风热门赛道,而是精准瞄准了SSM架构在语音模型中的应用,推出了企业级AI语音平台。
![]()
涵盖文本转语音、语音转文本和语音Agent构建等核心功能。这样一支背景扎实、分工明确的团队,能在短时间内连续完成融资,也就不足为奇了。接下来,他们打造的Sonic-3模型,更是把这些技术积累转化成了实实在在的产品优势。
![]()
技术突破拉满
伴随着新一轮融资的到位,Cartesia推出的Sonic-3模型,在多个维度都展现出了让人眼前一亮的实力。最直观的进步就是支持的语言种类大幅增加,从Sonic-2的15种跃升到42种,还搭配了500多种音色,满足不同场景的使用需求。
![]()
其中中文声音类型有10种可选,英文更是细分出11种不同地区的口音,不管是日常交流还是专业场景,都能找到合适的语音风格,在可控性方面,Sonic-3也做足了文章。
通过API参数和SSML标签,用户可以精细调整语音的音量、语速,还能精准控制情绪表达,笑声、语调变化甚至微妙的情感转换都能完美呈现,还支持自定义发音,让AI语音不再显得机械刻板。
![]()
更实用的是语音克隆功能,经过微调后能高度还原参考原声,加上自动缓冲与延续的设计,让实时语音交互变得更自然流畅,不过Sonic-3最核心的优势,还是它的速度,模型延迟仅90毫秒,端到端总响应时间不到190毫秒,跻身全球最快实时语音AI系统之列。
这样的速度在实际使用中感受非常明显,用它生成中文故事仅需两秒,虽然目前中文流畅度还有提升空间,但英文表现已经相当惊艳,纪录片旁白级别的生成效果几乎听不出AI痕迹。这些优势的背后,离不开SSM架构的支撑。
![]()
![]()
弃用Transformer
现在市面上大多数语音模型都依赖Transformer架构,但Cartesia偏偏反其道而行之,选择了SSM架构作为核心,这一决策让Sonic-3在效率上实现了弯道超车。
Transformer架构有个明显的“短板”,就是处理长序列时需要反复回顾前文所有内容,计算量会呈平方级增长,不仅耗时,还容易出现延迟,在实时对话场景中体验不佳。
![]()
而SSM架构就聪明多了,它更接近人类的思维模式,通过持续更新的内部状态来理解对话主题,不需要每次都从头回顾,计算量随序列长度线性增长,效率大幅提升。
作为SSM架构的代表性技术,Mamba在低延迟、高精度序列预测方面的优势,被Albert Gu完美融入到了Sonic-3中。苹果的研究也证明,在长任务、多交互的Agent式任务中,SSM架构的模型比Transformer更具潜力,搭配外部工具后还能弥补记忆短板。
![]()
这种技术选择,让Sonic-3在实时语音交互场景中如鱼得水。目前已经有数千家企业在使用Sonic模型,每月处理数百万次对话,像云计算平台ServiceNow、AI客服平台Cresta等,都借助它提升了服务效率。
对于企业来说,快速响应的语音Agent能减少客户等待时间,提升服务体验;对于普通用户,无论是日常沟通还是内容创作,高效自然的语音生成也能节省不少时间。
![]()
随着实时对话需求的急剧增长,SSM架构的优势会越来越明显,而Cartesia的布局,也让它在激烈的赛道竞争中占据了有利位置。
AI语音市场的热度一直居高不下,全球市场规模持续增长,国内有科大讯飞、百度等巨头领跑,国际上也有谷歌、苹果等玩家布局,加上MiniMax、ElevenLabs等专注于音频生成的创企,赛道竞争早已进入白热化阶段。而Cartesia的强势崛起,无疑让这场竞争变得更加精彩。
![]()
![]()
随着技术的不断迭代,AI语音的应用场景会越来越广泛,从企业服务到消费电子,从日常沟通到专业创作,都离不开语音技术的支撑。对于Cartesia来说,如何持续优化多语言表现,尤其是提升中文流畅度,进一步扩大生态合作,将是接下来的重要课题。
而整个语音赛道,也会在这种良性竞争中不断进步,最终受益的还是广大用户。毕竟,技术的创新从来不是为了竞争本身,而是为了让智能交互变得更高效、更自然,让科技真正融入生活的方方面面。
![]()
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.