网易首页 > 网易号 > 正文 申请入驻

ChatGPT那一套要过时了?翁荔实测创业首个模型,回合制AI被“原生实时交互”秒了

0
分享至


整理 | 华卫

AI 是否正在结束“回合制”聊天的时代?

所有在工作或日常生活中经常使用 AI 模型的人都知道,在文本、图像、音频和视频等各种模态下,现在基本的交互模式仍然是一样的:人类用户先提供输入,然后等待从几毫秒到几分钟不等(在某些特别复杂的问题中,甚至需要数小时或数天),随后 AI 模型再给出输出。用 Thinking Machines 的话说,目前大多数 AI 模型都是通过“外挂式”的方式来实现交互,将不同组件拼接在一起以模拟打断、多模态或并发等能力。然而,这类手工构建的系统终将被通用能力的进步所超越。

“如果 AI 真正要承担那些需要自然交互的工作,它就必须超越这种「回合制」的交互方式。最终,它需要能够更流畅、更自然地响应人类输入,甚至在处理下一次人类输入(无论是文本还是其他形式)的同时就做出回应。”这是 Thinking Machines 的观点。去年,前 OpenAI 首席技术官 Mira Murati、前 OpenAI 研究员兼联合创始人 John Schulman 等人创立了这家资金充足的 AI 初创公司,致力于让先进 AI 系统“更易理解、更可定制,并具备更通用的能力”。

今天,Thinking Machines 宣布推出“交互模型”TML-Interaction-Small,将其称为“首个同时具备强大智能 / 指令遵循能力与交互性的模型”。据介绍,这是一个拥有 2760 亿参数的混合专家(MoE)模型,其中活跃参数为 120 亿,可以持续接收音频、视频和文本输入,并在实时中进行思考、响应和行动,不依赖外部“脚手架”来实现交互能力。根据第三方基准测试结果,这种方法在性能上取得了显著提升,同时也降低了延迟。

不过,该模型目前尚未向公众或企业开放,该公司在公告博客中表示:“在接下来的几个月里,我们将开放一个有限的研究预览以收集反馈,并计划在今年晚些时候更广泛发布。”

1 137 页训练日志的交互模型,实力碾压其他前沿模型

在研究预览中,Thinking Machines 展示了 TML-Interaction-Small 模型在交互能力上的质变,以及在智能与响应速度之间达到的当前最先进的综合表现。

“整体体验更像是在协作,而不是在‘下提示词’。”演示视频中,OpenAI 前应用研究副总裁、Thinking Machines 联合创始人翁荔出镜展示了 TML-Interaction-Small 模型的无缝对话管理能力。该模型能够隐式判断说话者是在思考、让出话语权、自我修正,还是在邀请回应,无需单独的对话管理模块。

在 X 上,翁荔表示,“过去几个月,我们玩得很开心,也有很多压力,最终产出了 12 个版本(外加大量子版本)和 137 页的训练日志。事实证明,人与人之间的协作对于提升人机协作非常重要。”


不仅如此,TML-Interaction-Small 模型还解锁了一系列原本需要通过“外部脚手架”实现的能力,包括:

  • 语言与视觉的即时插话:模型可以根据上下文在需要时主动插入,而不仅仅是在用户说完之后才回应。

  • 同时语音(Simultaneous speech):用户与模型可以同时说话(例如实时翻译)。

  • 时间感知(Time-awareness):模型对时间流逝具有直接的感知能力。

  • 同时进行工具调用、搜索与生成式 UI:在与用户对话(说与听)的同时,模型可以并行执行搜索、浏览网页或生成界面,并将结果自然地融入对话之中。

为衡量交互质量,该实验室使用了 FD-bench,这是目前少数专门用于衡量交互性的基准之一。为量化智能水平,他们使用 Audio MultiChallenge,这是一个常用的基准,用于评估智能和指令遵循能力。结果显示,TML-Interaction-Small 显著优于现有的实时系统,包括 Gemini-3.1-flash-live 和 GPT-realtime-2.0 minimal。


  • 响应速度:其轮次响应延迟为 0.40 秒,而 Gemini-3.1-flash-live 为 0.57 秒,GPT-realtime-2.0 minimal 为 1.18 秒。

  • 交互质量:在 FD-bench V1.5 上,其得分为 77.8,几乎是主要竞争对手的两倍(GPT-realtime-2.0 minimal 为 46.8)。在 FD-bench v1.5 中,模型会接收预录音频,并需要在特定时刻作出响应。该基准从多个场景评估模型行为,包括用户打断、用户回应性反馈(backchannel)、与他人对话以及背景语音。


同时,该实验室改造了 RepCount-A、ProactiveVideoQA 和 Charades 三个基准来评估模型的视觉主动性。结果显示,在 RepCount-A(视频中物理动作计数)和 ProactiveVideoQA 等专项测试中,Thinking Machines 的模型能够主动参与视觉环境,而其他前沿模型则保持沉默或给出错误答案,包括高推理模型。

Thinking Machines 认为,通过将“交互性”内化为模型的一部分,模型规模的扩展将不仅让其更聪明,也会让它成为更高效的协作伙伴。此外,他们表示,虽然预计随着模型规模的扩大,交互能力也会进一步提升,但目前更大规模的预训练模型在这一实时交互场景下仍然过于缓慢,无法投入使用。“今年晚些时候,我们计划发布更大规模的模型。”

2 从零开始训练,200 毫秒为单位实时响应

这次发布的核心,是 AI 在“时间感知”和“存在感”上的一次根本性转变。当前的前沿模型通常以单线程方式体验现实。它们会等待用户完成输入后才开始处理,并且在生成回应时,其“感知”是冻结的。在博客中,Thinking Machines 的研究人员将这种现状描述为一种限制,它迫使人类不得不去“迁就”AI 接口,比如把问题写得像邮件一样,并将思考打包成一整块再输入。

为解决这种“协作瓶颈”,Thinking Machines 从零开始训练了这一交互模型,并放弃了标准的交替式 token 序列。取而代之的是,他们采用了一种多流(multi-stream)、微回合(micro-turn)的设计,可以以 200 毫秒为单位同时处理输入和输出,确保实时响应能力。这种“全双工”(full-duplex)架构使模型能够实时地“听、说、看”,从而在用户说话时进行回应性反馈(backchannel),或在捕捉到视觉线索时主动插话。例如,当用户在代码片段中写出 bug,或者有朋友进入视频画面时。

技术上,该模型采用了无编码器的早期融合(encoder-free early fusion)。系统不再依赖像 Whisper 这样庞大的独立编码器来处理音频,而是通过一个轻量级嵌入层,直接接收原始音频信号(以 dMel 表示)和图像块(40×40),并在 Transformer 架构中从零开始联合训练所有组件。

由于实时交互需要近乎即时的响应速度,而这往往与深度推理能力存在冲突,该实验室因还此设计了一种由两部分组成的系统:

  • 交互模型(Interaction Model):始终与用户保持持续交互,负责对话管理、存在感维持以及即时响应。

  • 后台模型(Background Model):作为一个异步代理,负责处理持续性推理、网页浏览或复杂工具调用,并将结果流式传回交互模型,由后者自然地融入对话中。


在整个过程中,交互模型始终保持在线,回答后续问题、接收新的输入、维持对话上下文,并在后台结果返回时将其整合进对话中。当某个任务需要比即时响应更深层的推理时,交互模型会将其委托给异步运行的后台模型。这种分工让用户既能获得高响应速度,又能享受到完整的智能能力,包括推理模型的规划能力、工具使用能力以及代理式工作流,同时又具备非“思考型”模型的低延迟响应。

并且,这种架构使 AI 能够在执行任务(如实时翻译或生成 UI 图表)的同时,继续监听用户反馈。这一功能在发布视频中也得到了展示,模型在生成条形图的同时,给出了类似人类反应时间的多种提示反馈。需要注意的是,后台模型和交互模型本身都具备智能能力。即使单独使用,交互模型在交互性能和智能基准测试上也具有很强的竞争力。

3 一旦开放,将为企业带来巨大价值

如果 Thinking Machines 的交互模型向企业开放,很可能将从根本上改变企业将 AI 融入运营流程的方式。像 TML-Interaction-Small 这样的原生交互模型,可以实现当前标准多模态模型无法做到或极其脆弱的多种企业能力。

当前的企业 AI 必须完成一个“回合”后才能分析数据。而在制造业或实验室环境中,原生交互模型可以持续监控视频流,一旦检测到安全违规或流程偏差,就能主动插入提醒,无需等待工作人员提出问题。该模型在 RepCount-A(精确计数重复动作)和 ProactiveVideoQA(随着视觉证据出现即时回答问题)等视觉基准中的表现,表明它可以作为高风险物理任务的实时审计员。

在语音客服中,主要的摩擦来自于 2026 年标准 API 常见的 1–2 秒“处理延迟”。Thinking Machines 的模型将轮次延迟降低至 0.40 秒,大致相当于自然人类对话的速度。由于其原生支持同时语音处理,企业客服机器人可以在不打断用户的情况下,一边倾听客户情绪,一边提供“回应性反馈”(例如“我明白”“嗯嗯”),并提供实时翻译,使对话更像自然交流,而不是一段段割裂的录音。

标准大模型缺乏“内在时钟”,只有在文本提示中提供时间信息时才“知道时间”。而交互模型天生具备时间感知能力,可以管理时间敏感流程,例如“每 4 分钟提醒我检查一次温度”或“如果这个流程比上一次耗时更长就提醒我”。这对于工业维护和制药研究尤为关键,因为时间是核心变量。

此前,Thinking Machines 表示,将在其发布中坚持“重要的开源组件”,以赋能研究社区。但目前,尚不清楚这些新的交互模型是否会遵循同样的开源策略。

另值得一提的是,此次模型发布前,Meta 已从 Thinking Machines 挖走 7 名创始成员。据外媒报道,挖人前,Meta CEO 马克·扎克伯格曾接触 Mira Murati,试图收购 Thinking Machines Lab,但被拒绝了。

不过,Thinking Machines 并非单向流失人才,公司也聘请了 PyTorch 创始人 Soumith Chintala 担任 CTO,并引入 Neal Wu 等知名技术人才。有外媒报道称,曾在 Meta 工作 8 年、负责多模态感知系统的 Weiyao Wang 也已加入该公司。目前,该公司的规模增长至约 130 人。

https://thinkingmachines.ai/blog/interaction-models/


特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
一语成谶!西安36岁骑手遇车祸身亡,出事前视频文案让人细思极恐

一语成谶!西安36岁骑手遇车祸身亡,出事前视频文案让人细思极恐

火山詩话
2026-05-15 05:56:36
WSBK捷克站排位赛:德比斯1分33秒884获第3名,正赛将罚退3位发车

WSBK捷克站排位赛:德比斯1分33秒884获第3名,正赛将罚退3位发车

全景体育V
2026-05-15 20:48:41
全智贤时隔11年亮相戛纳,身穿纯白礼服高贵宛如女王!

全智贤时隔11年亮相戛纳,身穿纯白礼服高贵宛如女王!

娱乐顺风车666
2026-05-16 12:52:02
1952年许世友返乡,不顾老母亲下跪劝阻,掏出枪对准三叔:毙了你

1952年许世友返乡,不顾老母亲下跪劝阻,掏出枪对准三叔:毙了你

云端小院
2026-05-12 06:41:03
歌手温岚因脓毒症休克紧急入住ICU,三甲医院医生解读:是感染界“天花板”,居家死亡率100%

歌手温岚因脓毒症休克紧急入住ICU,三甲医院医生解读:是感染界“天花板”,居家死亡率100%

环球网资讯
2026-05-16 07:50:46
30岁夜市老板娘当众脱内裤套男子脖颈,丈夫全程旁观,细节太辣眼

30岁夜市老板娘当众脱内裤套男子脖颈,丈夫全程旁观,细节太辣眼

老特有话说
2026-05-15 16:18:24
抽奖得来的Switch 2被老婆偷偷送人,37岁男玩家决心离婚

抽奖得来的Switch 2被老婆偷偷送人,37岁男玩家决心离婚

爱游戏的萌博士
2026-05-14 15:08:52
2026医保严查:住院晚上私自回家,报销直接作废

2026医保严查:住院晚上私自回家,报销直接作废

匹夫来搞笑
2026-05-16 11:16:14
情侣在瑞士雪山顶“撒欢”,就这么被全世界直播了···

情侣在瑞士雪山顶“撒欢”,就这么被全世界直播了···

新欧洲
2026-04-21 19:37:05
广东3消息!徐杰表明态度,宏远最终排名出炉,朱芳雨谈判破裂

广东3消息!徐杰表明态度,宏远最终排名出炉,朱芳雨谈判破裂

多特体育说
2026-05-16 10:27:35
医生:这6种癌症几乎不影响寿命,确诊后别慌,合理治疗即可!

医生:这6种癌症几乎不影响寿命,确诊后别慌,合理治疗即可!

健康之光
2026-04-03 16:15:03
今日!央视直播国乒樊振东出战,CCTV5吴艳妮+NBA,CCTV16转中超

今日!央视直播国乒樊振东出战,CCTV5吴艳妮+NBA,CCTV16转中超

晚池
2026-05-16 10:57:56
原来她是妈妈,难怪儿子如此惹人爱,孩子4个月大就与马斯克分手

原来她是妈妈,难怪儿子如此惹人爱,孩子4个月大就与马斯克分手

白面书誏
2026-05-15 13:57:35
港独、骂中国人,如今却还想来内地捞金,这3位香港明星令人作呕

港独、骂中国人,如今却还想来内地捞金,这3位香港明星令人作呕

傲傲讲历史
2026-04-19 01:20:08
邹市明:毁在娶了一个北大毕业,却不知自己几斤几两的老婆手上?

邹市明:毁在娶了一个北大毕业,却不知自己几斤几两的老婆手上?

拳击时空
2026-05-16 06:10:38
NBA 赛场播放文班亚马少林修行片段 东方修炼赋能赛场统治力

NBA 赛场播放文班亚马少林修行片段 东方修炼赋能赛场统治力

语妍视频剪辑
2026-05-16 14:39:27
国宴的顶级国风,尽显东方之美!却被外国元首的儿媳旗袍装惊艳

国宴的顶级国风,尽显东方之美!却被外国元首的儿媳旗袍装惊艳

白宸侃片
2026-05-16 01:34:42
主持人:梅根试图重夺王妃头衔,被批“可耻且低劣”,对王室上瘾

主持人:梅根试图重夺王妃头衔,被批“可耻且低劣”,对王室上瘾

盛夏微凉
2026-05-16 14:46:01
森林狼主帅:对爱德华兹我只有赞美之词,我们的弹药真的打光了

森林狼主帅:对爱德华兹我只有赞美之词,我们的弹药真的打光了

懂球帝
2026-05-16 15:07:15
俄罗斯又开始许愿,要求乌克兰撤出“俄罗斯领土”

俄罗斯又开始许愿,要求乌克兰撤出“俄罗斯领土”

山河路口
2026-05-13 20:35:10
2026-05-16 16:16:49
InfoQ incentive-icons
InfoQ
有内容的技术社区媒体
12385文章数 51891关注度
往期回顾 全部

科技要闻

涨的是车价,要的是老命

头条要闻

"企二代"国宴与马斯克同席 接班9年公司营收超2000亿

头条要闻

"企二代"国宴与马斯克同席 接班9年公司营收超2000亿

体育要闻

马刺2号,少年老成,这集看过?

娱乐要闻

张嘉译和老婆的差距让人心酸

财经要闻

造词狂魔贾跃亭

汽车要闻

高尔夫GTI刷新纽北纪录 ID. Polo GTI迎全球首秀

态度原创

游戏
健康
数码
房产
公开课

曝PS5 Pro独占黑科技要"下放"!让PS5用户也都用上

专家揭秘干细胞回输的安全风险

数码要闻

2999元带自动制冰!小米推出新款米家法式400L冰箱:60cm超薄平嵌

房产要闻

老黄埔热销之下,珠江春,为何去化仅3成?

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版