网易首页 > 网易号 > 正文 申请入驻

黄仁勋又投了个AI创企!创始团队有两位华人大牛,还有Mamba、谷歌背景

0
分享至


智东西
编译 王欣逸
编辑 程茜

智东西11月3日消息,10月29日美国语音生成创企Cartesia创始人兼首席执行官Karan Goel在社交平台X上宣布推出全新的语音模型Sonic-3,同时还披露其已完成1亿美元(约合人民币7.12亿元)融资,英伟达参投。

Cartesia创立于2023年,由5位斯坦福AI实验室研究员创立,其中Chris Ré是他们导师、Albert Gu、Brandon Yang是华人。值得一提的是,Cartesia首席科学家兼联合创始人Albert Gu是Mamba作者之一,而另一位华人Brandon Yang曾在谷歌大脑团队工作


▲Cartesia创始人团队,从左到右依次为:Brandon Yang、Karan Goel、Albert Gu和Arjun Desai(图源:Cartesia)

此前,Cartesia曾在2024年12月获得Index Ventures领投的2700万美元(约合人民币1.92亿元)种子轮融资,仅过去不到3个月,2025 年 3 月,Cartesia就宣布完成了6400万美元(约合人民币4.56亿元)的A轮融资。

外媒AIM Media House称,Cartesia提供了基于SSM(状态空间模型)架构的语音生成和语音识别模型,Sonic-3采用的是非Transformer架构,适用于实时对话和语音交互应用。

目前,包括云计算平台ServiceNow、AI客服平台Cresta和Decagon在内的数千家企业都借助Sonic模型每月处理数百万次对话。

智东西第一时间对 Sonic-3进行了实测。智东西让Sonic-3用中文讲一个故事,Sonic-3只用了两秒就生成播放了音频,不过Sonic-3说中文的流畅度还有待提升。

智东西又让其用英文随机念了一段纪录片旁白,相比于中文,英文则相当流畅自然,几乎听不出来是AI生成的。

一、斯坦福全明星阵容,Mamba作者也上了

斯坦福AI实验室对多年来的SSM研究成果进行了转化,创办了Cartesia。

Cartesia联合创始团队相识于斯坦福,由两位华人、两位印度人及他们的共同导师组成。在校期间,他们便发明了SSM,用于训练更高质量、更高效的大模型。

Cartesia首席科学家兼联合创始人Albert Gu是Mamba的主要作者之一。相比传统Transformer模型,Mamba的SSM模型则实现了低延迟、高精度的序列预测。同时Albert Gu还入选了2024年《时代》杂志全球最具影响力人物名单。

Cartesia CEO兼联合创始人Karan Goel博士毕业于斯坦福大学,在卡内基梅隆大学攻读硕士期间曾获得Siebel Scholar奖学金,在斯坦福期间还受到了斯坦福计算机科学系副教授艾玛·布伦斯基尔、斯坦福以人为本AI研究中心主任李飞飞等许多杰出教授的指导。

过去四年,Cartesia团队积极构建SSM背后的理论,并将其扩展到文本、音频、视频、图像和时间序列数据等各种模态,取得了最先进的成果。基于在斯坦福对SSM的研究,创始团队一开始就瞄准了SSM架构和语音模型。

Cartesia为用户提供了一个企业级AI语音平台,用户在该平台上可以使用语音与文本转换的模型——文本转语音模型Sonic和语音转文本模型Ink,还可以构建语音Agent。

二、配备42种语言和自定义发音,响应速度不到0.2s

Cartesia公司的发展节奏相当之快,伴随着Cartesia拿到最新的一轮融资,该公司推出了全新的Sonic-3模型。

Sonic-3模型在支持语言数量、可控性和速度上存在优势。用户可以选择系统配备的42种语言500多种音色进行文本转语音功能,在Sonic-2的15种语言的基础上大大增加。


▲Cartesia可支持语言(图源:Cartesia)

在Sonic-3语音库里,共有10种中文声音类型可供选择,而配备较多的英文语音还更细地分成了11种不同地区的口音。


▲拥有11种口音的英文(图源:Cartesia)

在可控性上,该模型不仅能进行基本的语音生成,还能够通过API参数和SSML标签对音量、语速和情绪进行精细控制,能精准捕捉人的情绪,包括笑声、语调及微妙的情感转换等,支持自定义发音。

Sonic-3的模型延迟仅为90毫秒,端到端总响应时间在190毫秒以内,外媒AIM Media House称该模型已跻身全球最快的实时语音AI系统之列。

Sonic-3还支持语音克隆的功能,并支持微调使其更还原参考原声。此外,新模型还能对生成的语音进行自动缓冲与延续,这意味着,实时语音处理将变得更加高效与自然。


▲语音克隆(图源:Cartesia)

与大多数依赖Transformer架构的语音模型不同,Sonic-3基于SSM架构。基于Transformer架构的模型会通过重新回顾先前对话来预测下一个词,从而导致语音生成的延迟与低效。而SSM(例如S4和Mamba等创新技术)更接近人类思维模式,它们能够持续理解主题和对话,无需从头开始回顾所有内容,这使得Sonic-3能够生成既自然又快速的语音。

利用Sonic模型,Cartesia的平台可以帮助企业构建具备复杂任务处理能力的语音Agent,包括客户支持、日程安排,甚至轻松愉快的恶作剧等。


▲创建个性化Agent(图源:Cartesia)

结语:Cartesia要革新实时语音模型赛道

在AI音频生成赛道上,不乏有MiniMax、Genspark、ElevenLabs等强劲的竞争对手。伴随着Cartesia获得新一轮融资,Sonic-3新模型投入使用,语音模型赛道竞争更加激烈。

ServiceNow产品副总裁Ravi Krishnamurthy称:“Cartesia的SSM架构为我们的语音Agent带来了企业级的速度和质量。”

近几年,Cartesia一直朝着SSM架构努力,随着实时对话需求的急剧增长,这一技术或将为企业和其他用户提供更为精准、快速的解决方案。

来源:AIM Media House

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
在医院你遭遇过最羞耻的事是什么?网友:一个比一个炸裂啊

在医院你遭遇过最羞耻的事是什么?网友:一个比一个炸裂啊

解读热点事件
2026-02-04 00:05:07
噩耗传来!曝武汉失联16岁男学生身亡,细节痛心,母亲发声引争议

噩耗传来!曝武汉失联16岁男学生身亡,细节痛心,母亲发声引争议

大鱼简科
2026-02-03 14:16:54
零跑汽车员工吐槽“年会拉胯”,董事长朱江明回应,年会奖品和晚餐菜单曝光

零跑汽车员工吐槽“年会拉胯”,董事长朱江明回应,年会奖品和晚餐菜单曝光

红星新闻
2026-02-03 17:19:16
刘虎被抓事件,有媒体发声了

刘虎被抓事件,有媒体发声了

清书先生
2026-02-03 15:53:06
美媒:特朗普政府同意与伊朗在阿曼举行谈判

美媒:特朗普政府同意与伊朗在阿曼举行谈判

新华社
2026-02-04 10:18:04
满屏都是刘虎,多少人在等答案?

满屏都是刘虎,多少人在等答案?

走读新生
2026-02-03 23:30:07
一想到孩子将来还要接受这样的教育,就惆怅

一想到孩子将来还要接受这样的教育,就惆怅

观人随笔
2026-02-03 15:49:56
比尔·盖茨被曝感染性病并隐瞒,前妻首次回应:爱泼斯坦相关文件勾起痛苦回忆,“所有的问题应该让这些人回答,包括我的前夫”

比尔·盖茨被曝感染性病并隐瞒,前妻首次回应:爱泼斯坦相关文件勾起痛苦回忆,“所有的问题应该让这些人回答,包括我的前夫”

大风新闻
2026-02-04 10:38:09
NBA官方:莱昂纳德增补入选2026年全明星赛 填补美国队人数缺口

NBA官方:莱昂纳德增补入选2026年全明星赛 填补美国队人数缺口

罗说NBA
2026-02-04 07:40:12
中国没同意加群,普京也改主意了

中国没同意加群,普京也改主意了

喀秋莎大世界
2026-02-03 21:41:20
爱泼斯坦案公布海量内幕,精英群体说的“吃人”,原来是真吃人

爱泼斯坦案公布海量内幕,精英群体说的“吃人”,原来是真吃人

老木说
2026-02-03 21:39:19
韩媒首度还原大S死亡真相,揭开致命原因!让现场明星嘉宾很惊讶

韩媒首度还原大S死亡真相,揭开致命原因!让现场明星嘉宾很惊讶

娱乐团长
2026-02-03 15:15:49
河南许昌一男一女坠河,女子被救上岸,男子不幸溺亡,派出所工作人员:两人系男女朋友,交往一年多

河南许昌一男一女坠河,女子被救上岸,男子不幸溺亡,派出所工作人员:两人系男女朋友,交往一年多

极目新闻
2026-02-03 22:45:29
哈登6年5队:4次申请交易“换队”有望延续神迹 能否冲冠成功?

哈登6年5队:4次申请交易“换队”有望延续神迹 能否冲冠成功?

醉卧浮生
2026-02-04 09:39:58
爱泼斯坦死亡疑云再添关键爆料人,其身份被证实为狱警,曾发帖暗指爱泼斯坦并非自杀而是被 “调包”,此后其再未就该事件公开发声

爱泼斯坦死亡疑云再添关键爆料人,其身份被证实为狱警,曾发帖暗指爱泼斯坦并非自杀而是被 “调包”,此后其再未就该事件公开发声

扬子晚报
2026-02-03 22:32:13
0-1!97分钟遭绝杀 11.6亿豪门5连胜终结 被德比死敌双杀无缘决赛

0-1!97分钟遭绝杀 11.6亿豪门5连胜终结 被德比死敌双杀无缘决赛

狍子歪解体坛
2026-02-04 06:08:14
先别吹!,等高铁将换气难题和“卡脖子”短板攻下来再说!

先别吹!,等高铁将换气难题和“卡脖子”短板攻下来再说!

细雨中的呼喊
2026-02-03 07:15:05
官宣!第七笔交易达成,哈登加盟骑士,加兰远赴快船!马刺赢麻了

官宣!第七笔交易达成,哈登加盟骑士,加兰远赴快船!马刺赢麻了

体育大朋说
2026-02-04 09:42:28
泪目!26岁巴萨队长一把抱起60岁弗里克:感谢父亲救了迷路的儿子

泪目!26岁巴萨队长一把抱起60岁弗里克:感谢父亲救了迷路的儿子

风过乡
2026-02-04 07:05:36
重磅交易达成!快船送出哈登 从骑士换来加兰和一个次轮签

重磅交易达成!快船送出哈登 从骑士换来加兰和一个次轮签

罗说NBA
2026-02-04 09:14:36
2026-02-04 11:31:00
智东西 incentive-icons
智东西
聚焦智能变革,服务产业升级。
11178文章数 116964关注度
往期回顾 全部

财经要闻

35岁入行,先被考证“割韭菜”

头条要闻

强奸大嫂凶手出狱后去大嫂家 大嫂吓得穿内衣跑出求救

头条要闻

强奸大嫂凶手出狱后去大嫂家 大嫂吓得穿内衣跑出求救

体育要闻

“也许我的一小步,会成为中国足球的一大步”

娱乐要闻

姜元来在大S墓碑前哭泣,与具俊晔拥抱

科技要闻

李飞飞:AI的终点不是写代码,而是人类的尊严

汽车要闻

全伪装雪地现身 一汽-大众纯电车型线索曝光

态度原创

教育
艺术
时尚
旅游
本地

教育要闻

文字素描课 | 教写作技巧,更让你学会用心生活

艺术要闻

14字草书难倒9人,书法逆入法引千年争议!

状态比10年前更好,她到底做对了什么?

旅游要闻

“冰雪+”让旅游淡季变旺季——贵州:南方冰雪也正“热”着嘞!

本地新闻

云游中国|拨开云雾,巫山每帧都是航拍大片

无障碍浏览 进入关怀版