网易首页 > 网易号 > 正文 申请入驻

冲刺3400亿估值,翁荔亲自出镜,交出一款更像人的大模型

0
分享至


智东西
作者 王涵
编辑 心缘

智东西5月12日报道,今日凌晨,前OpenAI CTO米拉·穆拉蒂(Mira Murati)联合创办的AI独角兽Thinking Machines Lab发布新型交互语音模型研究版TML-Interaction-Small,该模型可以持续接收音频、视频和文本信息实时思考,与用户像聊天一样及时反馈。


该模型系统由一个276B的交互模型以及一个负责持续推理、工具使用和长周期任务的异步后台模型组成。

Thinking Machines Lab联合创始人翁荔亲自演示该模型的语音交互能力,该模型可以做到:

1、无缝对话管理

模型能隐式追踪说话者是在思考、停顿、自我纠正还是邀请回应,无需单独的对话管理模块。

2、语言和视觉上的插话

模型会根据上下文需要随时插入互动。

3、同时发声

用户和模型可以同时说话(例如实时翻译)。

4、时间感知

模型能直接感知时间的流逝。

5、同步工具调用、搜索与生成式UI

在说话和聆听用户的同时,模型可以并行进行搜索、浏览网页或生成UI,并根据需要将结果自然融入对话。

在较长的真实会话中,模型与用户的对话连续发生,更像是与用户协作而非仅是“提示”。

在基准测试上中,TML-Interaction-Small在智能与交互质量的对比中,其交互质量远超Gemini-3.1-flash-live-preview (minimal)等一众模型,智能则仅次于GPT-realtime-2.0 (xhigh)


在响应速度对比上,TML-Interaction-Small的响应时间最短,超越GPT-realtime-2.0、GPT-realtime-1.5以及Gemini-3.1-flash-live-preview。


模型一经发出,就获得了不少网友的支持与好评。


知名科技KOL Daniel评论称“天呐,他们做出了Her。”Her是一部2013年上映的的AI题材电影,男主购买了一套高度智能的AI操作系统,而这个系统逐渐发展出具有情感、幽默感和自主意识的人格。


在X担任高级软件工程师的Raimo Tuisku认为实时交互能力能够将AI的体验推向更接近人类所感知的智能。


但也有网友提出了质疑。

这位网友提出:“实时交互模型面临的隐私挑战在于:设备无法可靠区分孩子靠近时的无意背景音和有意输入,而不同标注者的合理判断差异常被误读为数据噪声,而非测量缺陷。实时交互模型非但没有缓解这一问题,还让这个问题更棘手了。”


Thinking Machines Lab是由前OpenAI CTO米拉·穆拉蒂(Mira Murati)联合创办的AI初创公司,于2025年2月正式成立于美国旧金山。

Thinking Machines Lab创立初期就从OpenAI、Meta等公司挖来了约30名核心研究员和工程师,其联合创始人团队成员有:OpenAI联合创始人John Schulman;前OpenAI后训练负责人Barret Zoph;前OpenAI VP翁荔;前OpenAI研究员Luke Metz与Andrew Tulloch。PyTorch核心人物Soumith Chintala后来也加入并担任CTO。

融资方面,2025年7月,Thinking Machines Lab完成由a16z领投的20亿美元(约合人民币135.9亿元)种子轮融资,投资方还包括NVIDIA、AMD、Cisco、ServiceNow等,融资后估值达到120亿美元(约合人民币815.4亿元),该轮融资被认为是硅谷历史上最大的Seed轮之一。

2025年底,Thinking Machines Lab被曝正在寻求新一轮融资,目标估值已被推高至约500亿美元(约合人民币3397.5亿元)。今年3月,其还与英伟达达成大规模算力合作,获得至少1GW级别的Vera Rubin GPU资源。

一、流式交互SOTA,主动视觉超越现有模型

在流式基准测试FD-bench V1、FD-bench V1.5、FD-bench V3中,TML-Interaction-Small的得分超过了同类型的GPT-realtime-2.0(minimal)等Instant模型与思考模型如GPT-realtime-2.0(xhigh)Gemini-3.1-flash-live(high)

但在轮次式基准测试Audio MultiChallenge、BigBench Audio、BigBench Audio与IFEval中,TML-Interaction-Small的得分仅次于GPT-realtime-2.0(xhigh)


Thinking Machines Lab(后简称TML)团队内部创建的的主动音频基准测试TimeSpeak、CueSpeak以及视觉主动性基准测试RepCount-A、ProactiveVideoQA与Charades中,TML-Interaction-Small的表现远超其他现有模型,其他模型要么保持沉默,要么给出错误答案。


在这个案例中,测试者让模型识别其伸出了几根手指并实时播报。可以看到TML-Interaction-Small可以很精准地数出手指的数量并且瞬时播报,几乎没有响应时间。

TML-Interaction-Small还可以计算时间的流逝,例如,测试者让其倒数30秒,并每十秒播报一次。TML-Interaction-Small没有受到测试者演讲内容的影响,认真执行倒数计时的任务,时间把握也很精确。


二、200ms并发处理,后台异步深度推理,口语化安全拒答

TML-Interaction-Small是原生适应双向连续交互的模型,它能够在同一持续循环中,跨音频、视频和文本同时进行感知与回应。整个系统围绕两个核心理念进行架构:一个具备时间感知能力、维持实时在场的交互模型,以及一个负责持续推理、工具使用和长周期任务的异步后台模型



轮次式模型看到的是交替的token序列。而具备时间感知能力的交互模型看到的则是连续的微轮次流,因此静默、重叠发声和打断都会保留在模型的上下文中。

当某项任务所需的深度推理无法瞬时完成时,交互模型会将任务委托给异步运行的后台模型。在整个过程中,交互模型始终保持在场并在后台结果产生时将其无缝融入对话。

这种分工让用户能够同时受益于高响应速度与最大限度的智能:既拥有非推理模型的响应延迟,又能获得推理模型的规划、工具使用和智能体工作流能力。需要注意的是,后台模型与交互模型本身都具备智能。


TML团队从连续的实时音频和视频出发,他们设计了:

1、时间对齐的微轮次

持续交替处理200毫秒的输入与生成200毫秒的输出。通过这种设计,模型必须遵守的人为轮次边界将不存在。


2、无编码器的早期融合

TML团队选择以dMel的形式接收音频信号,并通过一个轻量级的嵌入层进行转换。图像被分割成40×40的图块,并由hMLP进行编码。在音频解码方面,其使用了一个flow head。所有组件均与Transformer一起从零开始联合训练。


3、推理优化

在推理时,客户端可以将每个200毫秒块作为一个独立的请求发送,而推理服务器则将这些块追加到GPU内存中的一个持久化序列中。此外,TML团队还在MoE(混合专家)内核中采用了gather+gemv策略,优化了双向服务中遇到的延迟和计算形态。

4、训练器-采样器对齐

在训练稳定性和系统各组件调试方面,TML团队采用训练器-采样器对齐方法,实现了批处理不变的内核,端到端性能开销<5%。

5、交互模型与后台模型之间的协调

当交互模型进行任务委派时,它会发送一个丰富的上下文包,包含完整的对话内容。后台模型产生结果时会将其流式返回,而交互模型则会根据用户当前正在做的事情,在合适的时机将这些更新交织进对话中。

在安全方面,为了使拒答在语音中更自然口语化,TML团队使用文本转语音模型生成拒答和过度拒答的训练数据,覆盖一系列被禁止的话题范围,并将拒答边界校准为倾向于自然措辞但同样坚定的拒答方式。为了提升在extended语音对话中的鲁棒性,TML团队使用自动化红队测试工具生成了多轮拒答数据,同时在行为上保持与模型基于文本的拒答高度一致。

结语:AI开始具备真人感

就TML-Interaction-Small的表现来看,AI已经开始具备“真人感”。它能听、能看、能等待、能打断、能并行思考。

交互模型就像一个能一直和你同时说话、同时听你说话的人,而这种实时性是AI与物理世界交互所必需的。从落地角度来看,TML-Interaction-Small将给机器人、自动驾驶等物理交互领域带来突破。

当然,TML-Interaction-Small也并不完美,在技术博客的最后,TML团队提出该模型在长会话上下文管理、低延迟部署的网络依赖性、实时交互的对齐与安全、模型规模扩展的延迟瓶颈,以及后台代理与交互模型协同等五个方面仍有待突破的空间。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
卖掉格力换来的416亿,被他们“败”光了!

卖掉格力换来的416亿,被他们“败”光了!

犀利强哥
2026-05-11 08:30:22
国安部最新预警:你的手机可能被监听,5步立刻关闭

国安部最新预警:你的手机可能被监听,5步立刻关闭

Thurman在昆明
2026-05-10 19:57:58
50岁才醒悟:饭局上,领导低声对你说“去把账结了”,千万别说“好”,聪明人都这么办

50岁才醒悟:饭局上,领导低声对你说“去把账结了”,千万别说“好”,聪明人都这么办

心理观察局
2026-05-12 09:39:11
踏空的人可真不少...

踏空的人可真不少...

懒猫的丰收日
2026-05-11 17:29:40
徐本任张家港市委书记,王瑜任太仓代市长,前任均已到苏州任职

徐本任张家港市委书记,王瑜任太仓代市长,前任均已到苏州任职

江南江南
2026-05-12 12:02:07
Model Y 高速上被撞成这样,特斯拉车主说没事!

Model Y 高速上被撞成这样,特斯拉车主说没事!

新浪财经
2026-05-11 10:52:24
中纪委连发禁令:机关事业单位职工注意,这7种饭局一参加就出局

中纪委连发禁令:机关事业单位职工注意,这7种饭局一参加就出局

细说职场
2026-05-10 09:55:02
声势浩大!40国护航特朗普访华,全是美国盟友

声势浩大!40国护航特朗普访华,全是美国盟友

霁寒飘雪
2026-05-12 14:40:08
美国一旦霸权结束,一定会灭亡的三个国家,排第一的果然是它

美国一旦霸权结束,一定会灭亡的三个国家,排第一的果然是它

琴音缭绕回
2026-04-25 07:21:31
出乎预料,特朗普修改访华计划,中方官宣行程延长,必须多待一天

出乎预料,特朗普修改访华计划,中方官宣行程延长,必须多待一天

黑鹰观军事
2026-05-11 18:19:32
用血泪教训告诉大家:邻里关系再好,有些“善良”也不能给得太多

用血泪教训告诉大家:邻里关系再好,有些“善良”也不能给得太多

小马达情感故事
2026-05-11 18:40:04
“可偏转弹丸!中国研发出鳄鱼结构装甲”

“可偏转弹丸!中国研发出鳄鱼结构装甲”

观察者网
2026-05-12 14:04:05
林诗栋的姐姐是她!难怪能成为世界冠军,日本队输得不冤

林诗栋的姐姐是她!难怪能成为世界冠军,日本队输得不冤

叹为观止易
2026-05-12 17:58:47
世乒赛夺冠后,孙颖莎一句话触动王曼昱,让她不禁落泪!

世乒赛夺冠后,孙颖莎一句话触动王曼昱,让她不禁落泪!

鲸鲱鱼体坛
2026-05-12 21:55:09
中国制造重机枪,不小心犯了一个低级错误,却意外造就世界之最

中国制造重机枪,不小心犯了一个低级错误,却意外造就世界之最

云霄纪史观
2026-05-08 00:27:54
重磅!巴萨官宣续约弗里克,2+1合同剑指欧冠冠军!

重磅!巴萨官宣续约弗里克,2+1合同剑指欧冠冠军!

田先生篮球
2026-05-11 21:49:28
“嫂子,咱妈病了,需要5万做手术”嫂子:你妈病了,关我什么事

“嫂子,咱妈病了,需要5万做手术”嫂子:你妈病了,关我什么事

多久情感
2026-05-11 21:27:45
曝张婉婷为了宋宁峰割腕,声泪俱下挽留老公:我舍不得你

曝张婉婷为了宋宁峰割腕,声泪俱下挽留老公:我舍不得你

韩小娱
2026-05-12 15:45:44
癌细胞停止生长时,身体会出现这4个表现,占一个都是好兆头!

癌细胞停止生长时,身体会出现这4个表现,占一个都是好兆头!

健康之光
2026-05-12 21:35:05
四太太带儿媳奚梦瑶买豪宅,两人豪掷约1.7亿港元入手李泽楷新盘

四太太带儿媳奚梦瑶买豪宅,两人豪掷约1.7亿港元入手李泽楷新盘

小蜜情感说
2026-05-12 15:48:13
2026-05-12 22:35:00
智东西 incentive-icons
智东西
智东西,AI产业新媒体,专注报道人工智能的前沿技术发展,和技术应用带来的千行百业产业变革。
11813文章数 117073关注度
往期回顾 全部

科技要闻

宇树发布载人变形机甲,定价390万元起

头条要闻

新电动车到手不足一月频繁自动锁死 老人被摔伤五六次

头条要闻

新电动车到手不足一月频繁自动锁死 老人被摔伤五六次

体育要闻

总是掉链子的“倒霉蛋”,闯进了欧战决赛

娱乐要闻

白鹿风波升级!掉粉20万评论区沦陷

财经要闻

黄仁勋真是被白宫彻底封杀了

汽车要闻

吉利银河“TT”申报图曝光 电动尾翼+激光雷达

态度原创

家居
房产
亲子
健康
军事航空

家居要闻

极简主义下的居住场域与空间

房产要闻

穗八条引爆楼市!万博宝藏红盘,五一劲销出圈

亲子要闻

amh值0.95怎么调理?吃什么可以让卵泡长得好又大又圆?

干细胞能让人“返老还童”吗

军事要闻

知情人士披露:美国或考虑恢复对伊朗军事行动

无障碍浏览 进入关怀版