网易首页 > 网易号 > 正文 申请入驻

黄仁勋又投了个AI创企!创始团队有两位华人大牛,还有Mamba、谷歌背景

0
分享至

来源:市场资讯

(来源:智东西)


智东西

编译 王欣逸

编辑 程茜

智东西11月3日消息,10月29日,美国语音生成创企Cartesia创始人兼首席执行官Karan Goel在社交平台X上宣布推出全新的语音模型Sonic-3,同时还披露其已完成1亿美元(约合人民币7.12亿元)融资,英伟达参投。

Cartesia创立于2023年,由5位斯坦福AI实验室研究员创立,其中Chris Ré是他们导师、Albert Gu、Brandon Yang是华人。值得一提的是,Cartesia首席科学家兼联合创始人Albert Gu是Mamba作者之一,而另一位华人Brandon Yang曾在谷歌大脑团队工作。


▲Cartesia创始人团队,从左到右依次为:Brandon Yang、Karan Goel、Albert Gu和Arjun Desai(图源:Cartesia)

此前,Cartesia曾在2024年12月获得Index Ventures领投的2700万美元(约合人民币1.92亿元)种子轮融资,仅过去不到3个月,2025 年 3 月,Cartesia就宣布完成了6400万美元(约合人民币4.56亿元)的A轮融资。

外媒AIM Media House称,Cartesia提供了基于SSM(状态空间模型)架构的语音生成和语音识别模型,Sonic-3采用的是非Transformer架构,适用于实时对话和语音交互应用。

目前,包括云计算平台ServiceNow、AI客服平台Cresta和Decagon在内的数千家企业都借助Sonic模型每月处理数百万次对话。

智东西第一时间对 Sonic-3进行了实测。智东西让Sonic-3用中文讲一个故事,Sonic-3只用了两秒就生成播放了音频,不过Sonic-3说中文的流畅度还有待提升。

智东西又让其用英文随机念了一段纪录片旁白,相比于中文,英文则相当流畅自然,几乎听不出来是AI生成的。

一、斯坦福全明星阵容,Mamba作者也上了

斯坦福AI实验室对多年来的SSM研究成果进行了转化,创办了Cartesia。

Cartesia联合创始团队相识于斯坦福,由两位华人、两位印度人及他们的共同导师组成。在校期间,他们便发明了SSM,用于训练更高质量、更高效的大模型。

Cartesia首席科学家兼联合创始人Albert Gu是Mamba的主要作者之一。相比传统Transformer模型,Mamba的SSM模型则实现了低延迟、高精度的序列预测。同时Albert Gu还入选了2024年《时代》杂志全球最具影响力人物名单。

Cartesia CEO兼联合创始人Karan Goel博士毕业于斯坦福大学,在卡内基梅隆大学攻读硕士期间曾获得Siebel Scholar奖学金,在斯坦福期间还受到了斯坦福计算机科学系副教授艾玛·布伦斯基尔、斯坦福以人为本AI研究中心主任李飞飞等许多杰出教授的指导。

过去四年,Cartesia团队积极构建SSM背后的理论,并将其扩展到文本、音频、视频、图像和时间序列数据等各种模态,取得了最先进的成果。基于在斯坦福对SSM的研究,创始团队一开始就瞄准了SSM架构和语音模型。

Cartesia为用户提供了一个企业级AI语音平台,用户在该平台上可以使用语音与文本转换的模型——文本转语音模型Sonic和语音转文本模型Ink,还可以构建语音Agent。

二、配备42种语言和自定义发音,响应速度不到0.2s

Cartesia公司的发展节奏相当之快,伴随着Cartesia拿到最新的一轮融资,该公司推出了全新的Sonic-3模型。

Sonic-3模型在支持语言数量、可控性和速度上存在优势。用户可以选择系统配备的42种语言和500多种音色进行文本转语音功能,在Sonic-2的15种语言的基础上大大增加。


▲Cartesia可支持语言(图源:Cartesia)

在Sonic-3语音库里,共有10种中文声音类型可供选择,而配备较多的英文语音还更细地分成了11种不同地区的口音。


▲拥有11种口音的英文(图源:Cartesia)

在可控性上,该模型不仅能进行基本的语音生成,还能够通过API参数和SSML标签对音量、语速和情绪进行精细控制,能精准捕捉人的情绪,包括笑声、语调及微妙的情感转换等,支持自定义发音。

Sonic-3的模型延迟仅为90毫秒,端到端总响应时间在190毫秒以内,外媒AIM Media House称该模型已跻身全球最快的实时语音AI系统之列。

Sonic-3还支持语音克隆的功能,并支持微调使其更还原参考原声。此外,新模型还能对生成的语音进行自动缓冲与延续,这意味着,实时语音处理将变得更加高效与自然。


▲语音克隆(图源:Cartesia)

与大多数依赖Transformer架构的语音模型不同,Sonic-3基于SSM架构。基于Transformer架构的模型会通过重新回顾先前对话来预测下一个词,从而导致语音生成的延迟与低效。而SSM(例如S4和Mamba等创新技术)更接近人类思维模式,它们能够持续理解主题和对话,无需从头开始回顾所有内容,这使得Sonic-3能够生成既自然又快速的语音。

利用Sonic模型,Cartesia的平台可以帮助企业构建具备复杂任务处理能力的语音Agent,包括客户支持、日程安排,甚至轻松愉快的恶作剧等。


▲创建个性化Agent(图源:Cartesia)

结语:Cartesia要革新实时语音模型赛道

在AI音频生成赛道上,不乏有MiniMax、Genspark、ElevenLabs等强劲的竞争对手。伴随着Cartesia获得新一轮融资,Sonic-3新模型投入使用,语音模型赛道竞争更加激烈。

ServiceNow产品副总裁Ravi Krishnamurthy称:“Cartesia的SSM架构为我们的语音Agent带来了企业级的速度和质量。”

近几年,Cartesia一直朝着SSM架构努力,随着实时对话需求的急剧增长,这一技术或将为企业和其他用户提供更为精准、快速的解决方案。

来源:AIM Media House

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
后续!世界杯版权谈崩,央视拒绝足联3亿要价,3大受害者已经出现

后续!世界杯版权谈崩,央视拒绝足联3亿要价,3大受害者已经出现

谭谈社会
2026-05-02 14:53:41
理想车主专享五一假期高速免费?客服回应:高速免费是国家政策,与是否为理想车主没有关系

理想车主专享五一假期高速免费?客服回应:高速免费是国家政策,与是否为理想车主没有关系

新浪财经
2026-05-01 20:55:25
地球已经装不下追觅这么牛的公司了

地球已经装不下追觅这么牛的公司了

老斯基财经
2026-04-30 11:05:19
摩根大通女高管被控性侵已婚印度裔男下属,女方否认,公司调查称并无证据

摩根大通女高管被控性侵已婚印度裔男下属,女方否认,公司调查称并无证据

红星新闻
2026-05-02 16:01:48
越来越多车主直接弃车,不走报废流程,内行:聪明人都这么选

越来越多车主直接弃车,不走报废流程,内行:聪明人都这么选

小李子体育
2026-05-02 04:53:06
一家四口游玩归来全部确诊!竟是因……医生:千万别大意

一家四口游玩归来全部确诊!竟是因……医生:千万别大意

福建卫生报
2026-05-02 11:35:09
斯马特:人们低估了我的弹跳;我可以对艾顿说一整天“我爱你”

斯马特:人们低估了我的弹跳;我可以对艾顿说一整天“我爱你”

懂球帝
2026-05-02 15:12:30
余华自嘲“翻车”:辅导儿子语文后,儿子没及格

余华自嘲“翻车”:辅导儿子语文后,儿子没及格

大象新闻
2026-05-02 16:26:05
美国警告赖清德当局,只要大陆决定武力统一,台湾的结局只有一个

美国警告赖清德当局,只要大陆决定武力统一,台湾的结局只有一个

猫女的小树屋
2026-05-02 10:14:06
著名汉学家宇文所安逝世,享年79岁,他读过上万首唐诗,娶走13岁直升北大的才女

著名汉学家宇文所安逝世,享年79岁,他读过上万首唐诗,娶走13岁直升北大的才女

极目新闻
2026-05-02 14:08:32
“以色列情报评估显示,美伊谈判最早可能在下周初破裂,美国或将重启战端”

“以色列情报评估显示,美伊谈判最早可能在下周初破裂,美国或将重启战端”

每日经济新闻
2026-05-02 15:08:07
重磅:乌克兰击中两架俄军最强的苏57战机!奔袭1700公里

重磅:乌克兰击中两架俄军最强的苏57战机!奔袭1700公里

项鹏飞
2026-05-01 21:35:04
女子找到工作月薪12000,仅面试一次老板就同意,入职两天没人理

女子找到工作月薪12000,仅面试一次老板就同意,入职两天没人理

丫头舫
2026-05-01 22:17:59
巴雷特三分准绝杀!猛龙加时胜骑士3-3拖进抢七 哈登16+9+9

巴雷特三分准绝杀!猛龙加时胜骑士3-3拖进抢七 哈登16+9+9

醉卧浮生
2026-05-02 10:30:14
陕西男子3次报警,民警拒不派警,致两家四口被杀,法院咋判的?

陕西男子3次报警,民警拒不派警,致两家四口被杀,法院咋判的?

就一点
2026-04-29 17:28:35
河南41岁单亲妈妈因“涉黑”被羁押821天后无罪释放,申请国赔仅13天被叫停,警方又以骗贷罪再立案,最新进展:警方撤销案件,赔偿将重启

河南41岁单亲妈妈因“涉黑”被羁押821天后无罪释放,申请国赔仅13天被叫停,警方又以骗贷罪再立案,最新进展:警方撤销案件,赔偿将重启

大风新闻
2026-05-02 15:39:04
关于吴石将军!国安部最新披露!

关于吴石将军!国安部最新披露!

雍亲王府
2026-05-01 20:00:07
一女子15年前在杭州一中国黄金柜台花1万2买2根20克金条,称重竟只有9克多,且检测出完全不含黄金,店长:不是我们卖的,你可以报警

一女子15年前在杭州一中国黄金柜台花1万2买2根20克金条,称重竟只有9克多,且检测出完全不含黄金,店长:不是我们卖的,你可以报警

大象新闻
2026-05-01 23:50:09
未爆弹药爆炸致伊朗伊斯兰革命卫队14人死亡

未爆弹药爆炸致伊朗伊斯兰革命卫队14人死亡

财联社
2026-05-02 02:20:12
美股市值已超75万亿美元、逼近全球前十GDP,谷歌也逼近5万亿美元

美股市值已超75万亿美元、逼近全球前十GDP,谷歌也逼近5万亿美元

邵旭峰域
2026-05-02 08:54:32
2026-05-02 17:27:00
新浪财经 incentive-icons
新浪财经
新浪财经是一家创建于1999年8月的财经平台
3095713文章数 7069关注度
往期回顾 全部

财经要闻

雷军很努力 小米还是跌破了30港元大关

头条要闻

单亲妈妈被无辜羁押821天申请国赔被叫停 最新消息来了

头条要闻

单亲妈妈被无辜羁押821天申请国赔被叫停 最新消息来了

体育要闻

休赛期总冠军,轮到休斯顿火箭

娱乐要闻

白百何罕晒大儿子 18岁元宝越来越帅

科技要闻

AI热潮耗尽库存,Mac Mini起售调高200美元

汽车要闻

新纪录!零跑汽车4月交付达71387台

态度原创

时尚
亲子
房产
旅游
教育

流汗不流“汤”!五一假期底妆指南请收好~

亲子要闻

完了,

房产要闻

所有户型全卖爆!海口TOP级豪宅,景观样板间五一全线开放!

旅游要闻

“五一”来彭州宝山 感受“彭派生活”

教育要闻

全市首个!这个区率先取消幼升小“六年一学位”

无障碍浏览 进入关怀版