网易首页 > 网易号 > 正文 申请入驻

黄仁勋又投了个AI创企!创始团队有两位华人大牛,还有Mamba、谷歌背景

0
分享至

智东西11月3日消息,10月29日美国语音生成创企Cartesia创始人兼首席执行官Karan Goel在社交平台X上宣布推出全新的语音模型Sonic-3,同时还披露其已完成1亿美元(约合人民币7.12亿元)融资,英伟达参投。

Cartesia创立于2023年,由5位斯坦福AI实验室研究员创立,其中Chris Ré是他们导师、Albert Gu、Brandon Yang是华人。值得一提的是,Cartesia首席科学家兼联合创始人Albert Gu是Mamba作者之一,而另一位华人Brandon Yang曾在谷歌大脑团队工作

▲Cartesia创始人团队,从左到右依次为:Brandon Yang、Karan Goel、Albert Gu和Arjun Desai(图源:Cartesia)

此前,Cartesia曾在2024年12月获得Index Ventures领投的2700万美元(约合人民币1.92亿元)种子轮融资,仅过去不到3个月,2025 年 3 月,Cartesia就宣布完成了6400万美元(约合人民币4.56亿元)的A轮融资。

外媒AIM Media House称,Cartesia提供了基于SSM(状态空间模型)架构的语音生成和语音识别模型,Sonic-3采用的是非Transformer架构,适用于实时对话和语音交互应用。

目前,包括云计算平台ServiceNow、AI客服平台Cresta和Decagon在内的数千家企业都借助Sonic模型每月处理数百万次对话。

智东西第一时间对 Sonic-3进行了实测。智东西让Sonic-3用中文讲一个故事,Sonic-3只用了两秒就生成播放了音频,不过Sonic-3说中文的流畅度还有待提升。

智东西又让其用英文随机念了一段纪录片旁白,相比于中文,英文则相当流畅自然,几乎听不出来是AI生成的。

一、斯坦福全明星阵容,Mamba作者也上了

斯坦福AI实验室对多年来的SSM研究成果进行了转化,创办了Cartesia。

Cartesia联合创始团队相识于斯坦福,由两位华人、两位印度人及他们的共同导师组成。在校期间,他们便发明了SSM,用于训练更高质量、更高效的大模型。

Cartesia首席科学家兼联合创始人Albert Gu是Mamba的主要作者之一。相比传统Transformer模型,Mamba的SSM模型则实现了低延迟、高精度的序列预测。同时Albert Gu还入选了2024年《时代》杂志全球最具影响力人物名单。

Cartesia CEO兼联合创始人Karan Goel博士毕业于斯坦福大学,在卡内基梅隆大学攻读硕士期间曾获得Siebel Scholar奖学金,在斯坦福期间还受到了斯坦福计算机科学系副教授艾玛·布伦斯基尔、斯坦福以人为本AI研究中心主任李飞飞等许多杰出教授的指导。

过去四年,Cartesia团队积极构建SSM背后的理论,并将其扩展到文本、音频、视频、图像和时间序列数据等各种模态,取得了最先进的成果。基于在斯坦福对SSM的研究,创始团队一开始就瞄准了SSM架构和语音模型。

Cartesia为用户提供了一个企业级AI语音平台,用户在该平台上可以使用语音与文本转换的模型——文本转语音模型Sonic和语音转文本模型Ink,还可以构建语音Agent。

二、配备42种语言和自定义发音,响应速度不到0.2s

Cartesia公司的发展节奏相当之快,伴随着Cartesia拿到最新的一轮融资,该公司推出了全新的Sonic-3模型。

Sonic-3模型在支持语言数量、可控性和速度上存在优势。用户可以选择系统配备的42种语言500多种音色进行文本转语音功能,在Sonic-2的15种语言的基础上大大增加。

▲Cartesia可支持语言(图源:Cartesia)

在Sonic-3语音库里,共有10种中文声音类型可供选择,而配备较多的英文语音还更细地分成了11种不同地区的口音。

▲拥有11种口音的英文(图源:Cartesia)

在可控性上,该模型不仅能进行基本的语音生成,还能够通过API参数和SSML标签对音量、语速和情绪进行精细控制,能精准捕捉人的情绪,包括笑声、语调及微妙的情感转换等,支持自定义发音。

Sonic-3的模型延迟仅为90毫秒,端到端总响应时间在190毫秒以内,外媒AIM Media House称该模型已跻身全球最快的实时语音AI系统之列。

Sonic-3还支持语音克隆的功能,并支持微调使其更还原参考原声。此外,新模型还能对生成的语音进行自动缓冲与延续,这意味着,实时语音处理将变得更加高效与自然。

▲语音克隆(图源:Cartesia)

与大多数依赖Transformer架构的语音模型不同,Sonic-3基于SSM架构。基于Transformer架构的模型会通过重新回顾先前对话来预测下一个词,从而导致语音生成的延迟与低效。而SSM(例如S4和Mamba等创新技术)更接近人类思维模式,它们能够持续理解主题和对话,无需从头开始回顾所有内容,这使得Sonic-3能够生成既自然又快速的语音。

利用Sonic模型,Cartesia的平台可以帮助企业构建具备复杂任务处理能力的语音Agent,包括客户支持、日程安排,甚至轻松愉快的恶作剧等。

▲创建个性化Agent(图源:Cartesia)

结语:Cartesia要革新实时语音模型赛道

在AI音频生成赛道上,不乏有MiniMax、Genspark、ElevenLabs等强劲的竞争对手。伴随着Cartesia获得新一轮融资,Sonic-3新模型投入使用,语音模型赛道竞争更加激烈。

ServiceNow产品副总裁Ravi Krishnamurthy称:“Cartesia的SSM架构为我们的语音Agent带来了企业级的速度和质量。”

近几年,Cartesia一直朝着SSM架构努力,随着实时对话需求的急剧增长,这一技术或将为企业和其他用户提供更为精准、快速的解决方案。

来源:AIM Media House

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
692分!独家专访高考同分姐妹花:打篮球解压,没上过培优班

692分!独家专访高考同分姐妹花:打篮球解压,没上过培优班

极目新闻
2026-06-25 22:41:54
知名网红带货翻车,助农卖茶叶被曝光是假货,获利已经超千万

知名网红带货翻车,助农卖茶叶被曝光是假货,获利已经超千万

新游戏大妹子
2026-06-26 13:06:36
湖南郴州这家学校老师都是法盲!将没收来的上百部学生手机当众砸毁

湖南郴州这家学校老师都是法盲!将没收来的上百部学生手机当众砸毁

黄河新闻网吕梁
2026-06-26 17:28:27
一图看懂6370亿美元全球AI利润流向:英伟达独占1/3,中国大陆仅260亿美元

一图看懂6370亿美元全球AI利润流向:英伟达独占1/3,中国大陆仅260亿美元

风向观察
2026-06-26 20:10:02
繁华后的凄凉:耗资近34亿的鸟巢,如今被用来干嘛了?回本了吗?

繁华后的凄凉:耗资近34亿的鸟巢,如今被用来干嘛了?回本了吗?

鲸探所长
2026-06-26 19:47:53
Shams:凯尔特人正听取对杰伦-布朗的报价,要求至少四个首轮签

Shams:凯尔特人正听取对杰伦-布朗的报价,要求至少四个首轮签

懂球帝
2026-06-26 21:02:17
价格大涨!有网友晒单:去年不到7000,今年12000了

价格大涨!有网友晒单:去年不到7000,今年12000了

南方都市报
2026-06-26 09:53:31
日本小组第二出线后淘汰赛对巴西,“原本想拼头名避开……”

日本小组第二出线后淘汰赛对巴西,“原本想拼头名避开……”

观察者网
2026-06-26 10:01:13
女子在溪谷中玩水身体被卡石缝不幸身亡,多人下水施救险被急流冲走,应急部门回应

女子在溪谷中玩水身体被卡石缝不幸身亡,多人下水施救险被急流冲走,应急部门回应

极目新闻
2026-06-26 19:07:30
地球正在 “喝光” 自己的海洋!研究发现:大量海水正涌入地核

地球正在 “喝光” 自己的海洋!研究发现:大量海水正涌入地核

观察宇宙
2026-06-25 18:58:48
高盛发声:中国白酒最困难的阶段已经过去!上调古井贡酒、今世缘等评级

高盛发声:中国白酒最困难的阶段已经过去!上调古井贡酒、今世缘等评级

和讯网
2026-06-26 11:36:03
跌入斩杀线的老电车,正在靠充电宝强行续命

跌入斩杀线的老电车,正在靠充电宝强行续命

酷玩实验室
2026-06-26 18:25:07
极目深度丨致命爱情:无法分手的男友、难以逃脱的控制

极目深度丨致命爱情:无法分手的男友、难以逃脱的控制

极目新闻
2026-06-26 20:07:10
克林顿爆粗、奥巴马翻白眼、特朗普开骂…5个美国总统没一个能收拾内塔尼亚胡

克林顿爆粗、奥巴马翻白眼、特朗普开骂…5个美国总统没一个能收拾内塔尼亚胡

可达鸭面面观
2026-06-26 18:25:33
安徽少女溺亡后续!母亲控诉救援队,当地霸气反击,网友:真活该

安徽少女溺亡后续!母亲控诉救援队,当地霸气反击,网友:真活该

哄动一时啊
2026-06-26 16:42:24
雷军后院失火,黄仁勋判了WPS死刑?

雷军后院失火,黄仁勋判了WPS死刑?

不正确
2026-06-26 19:14:53
王忠林,新职明确

王忠林,新职明确

新京报
2026-06-26 19:46:14
比独行侠送出东契奇更离谱,球迷:见过蠢的,没见过如此蠢的!

比独行侠送出东契奇更离谱,球迷:见过蠢的,没见过如此蠢的!

我就是一个说球的
2026-06-26 21:18:54
目睹妈妈跳楼,12岁女儿报完案,从同一窗口跃下,就因为辅导作业…

目睹妈妈跳楼,12岁女儿报完案,从同一窗口跃下,就因为辅导作业…

犀利强哥
2026-06-25 02:13:25
新华社快讯:日本发生地震,东京震感强烈

新华社快讯:日本发生地震,东京震感强烈

新华社
2026-06-26 11:53:03
2026-06-26 23:00:49
智东西 incentive-icons
智东西
智东西,AI产业新媒体,专注报道人工智能的前沿技术发展,和技术应用带来的千行百业产业变革。
12139文章数 117112关注度
往期回顾 全部

财经要闻

悬在科技头上的达摩克利斯之剑

头条要闻

女生被男友劫持到天台坠亡 初次约会就被灌醉发生关系

头条要闻

女生被男友劫持到天台坠亡 初次约会就被灌醉发生关系

体育要闻

我在世界杯的每次奔跑,都为了证明你没看错

娱乐要闻

玥儿不回北京,马筱梅解释后妈身份

科技要闻

拿了500亿的梁文锋,只挖地基,不信销售

汽车要闻

老板们的新座驾!65万元起,尊界V800/V680开启预订

态度原创

数码
健康
艺术
家居
军事航空

数码要闻

Meta为旗下智能眼镜推出不锈钢充电底座:支持快充,60美元

“无糖汤圆”是否隐藏着健康陷阱?

艺术要闻

莫兰迪不多见的简约风景画!

家居要闻

绿意盎然 自然之境

军事要闻

伊朗:驶离指定航线船舶不享有安全保障

无障碍浏览 进入关怀版