网易首页 > 网易号 > 正文 申请入驻

黄仁勋又投了个AI创企!创始团队有两位华人大牛,还有Mamba、谷歌背景

0
分享至


智东西
编译 王欣逸
编辑 程茜

智东西11月3日消息,10月29日美国语音生成创企Cartesia创始人兼首席执行官Karan Goel在社交平台X上宣布推出全新的语音模型Sonic-3,同时还披露其已完成1亿美元(约合人民币7.12亿元)融资,英伟达参投。

Cartesia创立于2023年,由5位斯坦福AI实验室研究员创立,其中Chris Ré是他们导师、Albert Gu、Brandon Yang是华人。值得一提的是,Cartesia首席科学家兼联合创始人Albert Gu是Mamba作者之一,而另一位华人Brandon Yang曾在谷歌大脑团队工作


▲Cartesia创始人团队,从左到右依次为:Brandon Yang、Karan Goel、Albert Gu和Arjun Desai(图源:Cartesia)

此前,Cartesia曾在2024年12月获得Index Ventures领投的2700万美元(约合人民币1.92亿元)种子轮融资,仅过去不到3个月,2025 年 3 月,Cartesia就宣布完成了6400万美元(约合人民币4.56亿元)的A轮融资。

外媒AIM Media House称,Cartesia提供了基于SSM(状态空间模型)架构的语音生成和语音识别模型,Sonic-3采用的是非Transformer架构,适用于实时对话和语音交互应用。

目前,包括云计算平台ServiceNow、AI客服平台Cresta和Decagon在内的数千家企业都借助Sonic模型每月处理数百万次对话。

智东西第一时间对 Sonic-3进行了实测。智东西让Sonic-3用中文讲一个故事,Sonic-3只用了两秒就生成播放了音频,不过Sonic-3说中文的流畅度还有待提升。

智东西又让其用英文随机念了一段纪录片旁白,相比于中文,英文则相当流畅自然,几乎听不出来是AI生成的。

一、斯坦福全明星阵容,Mamba作者也上了

斯坦福AI实验室对多年来的SSM研究成果进行了转化,创办了Cartesia。

Cartesia联合创始团队相识于斯坦福,由两位华人、两位印度人及他们的共同导师组成。在校期间,他们便发明了SSM,用于训练更高质量、更高效的大模型。

Cartesia首席科学家兼联合创始人Albert Gu是Mamba的主要作者之一。相比传统Transformer模型,Mamba的SSM模型则实现了低延迟、高精度的序列预测。同时Albert Gu还入选了2024年《时代》杂志全球最具影响力人物名单。

Cartesia CEO兼联合创始人Karan Goel博士毕业于斯坦福大学,在卡内基梅隆大学攻读硕士期间曾获得Siebel Scholar奖学金,在斯坦福期间还受到了斯坦福计算机科学系副教授艾玛·布伦斯基尔、斯坦福以人为本AI研究中心主任李飞飞等许多杰出教授的指导。

过去四年,Cartesia团队积极构建SSM背后的理论,并将其扩展到文本、音频、视频、图像和时间序列数据等各种模态,取得了最先进的成果。基于在斯坦福对SSM的研究,创始团队一开始就瞄准了SSM架构和语音模型。

Cartesia为用户提供了一个企业级AI语音平台,用户在该平台上可以使用语音与文本转换的模型——文本转语音模型Sonic和语音转文本模型Ink,还可以构建语音Agent。

二、配备42种语言和自定义发音,响应速度不到0.2s

Cartesia公司的发展节奏相当之快,伴随着Cartesia拿到最新的一轮融资,该公司推出了全新的Sonic-3模型。

Sonic-3模型在支持语言数量、可控性和速度上存在优势。用户可以选择系统配备的42种语言500多种音色进行文本转语音功能,在Sonic-2的15种语言的基础上大大增加。


▲Cartesia可支持语言(图源:Cartesia)

在Sonic-3语音库里,共有10种中文声音类型可供选择,而配备较多的英文语音还更细地分成了11种不同地区的口音。


▲拥有11种口音的英文(图源:Cartesia)

在可控性上,该模型不仅能进行基本的语音生成,还能够通过API参数和SSML标签对音量、语速和情绪进行精细控制,能精准捕捉人的情绪,包括笑声、语调及微妙的情感转换等,支持自定义发音。

Sonic-3的模型延迟仅为90毫秒,端到端总响应时间在190毫秒以内,外媒AIM Media House称该模型已跻身全球最快的实时语音AI系统之列。

Sonic-3还支持语音克隆的功能,并支持微调使其更还原参考原声。此外,新模型还能对生成的语音进行自动缓冲与延续,这意味着,实时语音处理将变得更加高效与自然。


▲语音克隆(图源:Cartesia)

与大多数依赖Transformer架构的语音模型不同,Sonic-3基于SSM架构。基于Transformer架构的模型会通过重新回顾先前对话来预测下一个词,从而导致语音生成的延迟与低效。而SSM(例如S4和Mamba等创新技术)更接近人类思维模式,它们能够持续理解主题和对话,无需从头开始回顾所有内容,这使得Sonic-3能够生成既自然又快速的语音。

利用Sonic模型,Cartesia的平台可以帮助企业构建具备复杂任务处理能力的语音Agent,包括客户支持、日程安排,甚至轻松愉快的恶作剧等。


▲创建个性化Agent(图源:Cartesia)

结语:Cartesia要革新实时语音模型赛道

在AI音频生成赛道上,不乏有MiniMax、Genspark、ElevenLabs等强劲的竞争对手。伴随着Cartesia获得新一轮融资,Sonic-3新模型投入使用,语音模型赛道竞争更加激烈。

ServiceNow产品副总裁Ravi Krishnamurthy称:“Cartesia的SSM架构为我们的语音Agent带来了企业级的速度和质量。”

近几年,Cartesia一直朝着SSM架构努力,随着实时对话需求的急剧增长,这一技术或将为企业和其他用户提供更为精准、快速的解决方案。

来源:AIM Media House

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
武统、和统都没希望?宝岛一专家:大陆已走上“第三条路”!

武统、和统都没希望?宝岛一专家:大陆已走上“第三条路”!

泠泠说史
2025-10-20 17:46:08
这些行为都是上了年纪的症状!网友:以为我变健康了,原来是老了

这些行为都是上了年纪的症状!网友:以为我变健康了,原来是老了

墙头草
2025-11-02 11:03:46
男篮全运8强对阵出炉!广东选择硬刚辽宁:杜锋还是怕周琦?

男篮全运8强对阵出炉!广东选择硬刚辽宁:杜锋还是怕周琦?

篮球快餐车
2025-11-09 17:17:20
蒋万安被问到对郑丽文祭拜吴石一事的看法时,彻底撕下伪装

蒋万安被问到对郑丽文祭拜吴石一事的看法时,彻底撕下伪装

放开他让wo来
2025-11-08 22:35:20
内娱欠她一个爆红!神颜实力派为何无人识?

内娱欠她一个爆红!神颜实力派为何无人识?

乡野小珥
2025-11-09 14:45:34
杨振宁院士临终留下的10个字,值得每个人思考!是哪10字?

杨振宁院士临终留下的10个字,值得每个人思考!是哪10字?

凡人侃史
2025-10-20 16:14:55
“凤凰”已加强为超强台风级!最新路径公布→

“凤凰”已加强为超强台风级!最新路径公布→

蓬勃新闻
2025-11-09 10:22:47
李连杰脱光上衣自证清白后,有网红提出质疑,吃的什么神丹妙药?

李连杰脱光上衣自证清白后,有网红提出质疑,吃的什么神丹妙药?

心静物娱
2025-11-08 11:24:51
为何说德国的减丁政策,决定了俄罗斯的命运?

为何说德国的减丁政策,决定了俄罗斯的命运?

凭阑听史
2025-11-08 16:43:01
4-0,英超第11完胜英超第5,布恩迪亚、阿马杜先后飙无敌世界波

4-0,英超第11完胜英超第5,布恩迪亚、阿马杜先后飙无敌世界波

侧身凌空斩
2025-11-10 00:00:41
李传忠写给刀郎的信:立刻归还《罗刹海市》版权,国家部门介入性质就变了

李传忠写给刀郎的信:立刻归还《罗刹海市》版权,国家部门介入性质就变了

动物奇奇怪怪
2025-11-09 03:29:29
能洗澡的SUV!智己LS9将于11月12日正式上市

能洗澡的SUV!智己LS9将于11月12日正式上市

鞭牛士
2025-11-08 10:36:05
战后越南是怎样快速恢复人口的?这个办法太狠,我们永远不会学

战后越南是怎样快速恢复人口的?这个办法太狠,我们永远不会学

小影的娱乐
2025-11-09 14:08:10
大嫂怒怼小叔子跟小姑子:明年别再回来了,我出钱出力累得半死。

大嫂怒怼小叔子跟小姑子:明年别再回来了,我出钱出力累得半死。

广西秦胖胖
2025-11-09 07:17:21
年轻人不买账,中年人喝不起!茅台跌破1600,终于承认只是瓶酒?

年轻人不买账,中年人喝不起!茅台跌破1600,终于承认只是瓶酒?

金融八卦女
2025-11-05 13:57:48
河南全运2胜竟被1胜山东挤出八强 比赛非同时打存暗箱操作?

河南全运2胜竟被1胜山东挤出八强 比赛非同时打存暗箱操作?

大嘴爵爷侃球
2025-11-09 21:27:38
油价跳水车主静悄悄,电车吃火锅加油站长叹气,下个十年开啥车上路

油价跳水车主静悄悄,电车吃火锅加油站长叹气,下个十年开啥车上路

生活魔术专家
2025-11-10 07:07:57
钱再多有什么用?蒋欣如今的现状,给所有内娱40岁以上女星提了醒

钱再多有什么用?蒋欣如今的现状,给所有内娱40岁以上女星提了醒

振华观史
2025-11-07 11:25:51
凤凰男得知前妻再婚含泪哭诉:再婚陪嫁房车,凭啥我什么都没有?

凤凰男得知前妻再婚含泪哭诉:再婚陪嫁房车,凭啥我什么都没有?

施工员小天哥
2025-11-10 07:29:39
莱巴金娜逆袭夺冠,一夜之间成“富婆”,嫁给自己教练为爱痴狂!

莱巴金娜逆袭夺冠,一夜之间成“富婆”,嫁给自己教练为爱痴狂!

小皷拍客在北漂
2025-11-09 20:48:18
2025-11-10 08:59:00
智东西 incentive-icons
智东西
聚焦智能变革,服务产业升级。
10714文章数 116894关注度
往期回顾 全部

财经要闻

俄罗斯大幅加税 中国汽车出口骤降58%

头条要闻

男子50多万买66台苹果手机放平台出租 如今钱机都没了

头条要闻

男子50多万买66台苹果手机放平台出租 如今钱机都没了

体育要闻

他只想默默地拿走最后一亿美元

娱乐要闻

《繁花》事件影响:唐嫣工作被取消

科技要闻

他们,害怕“双11”

汽车要闻

钛7月销破2万 霜雾灰与青峦翠配色正式开启交付

态度原创

艺术
手机
房产
公开课
军事航空

艺术要闻

Kelly Birkenruth:美国当代现实主义画家

手机要闻

iPhone可能获得这5项卫星连接功能

房产要闻

封关倒计时!三亚主城 2.3 万 /㎡+ 即买即住,手慢无!

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

俄媒:俄军即将攻占乌克兰"第三首都"

无障碍浏览 进入关怀版