网易首页 > 网易号 > 正文 申请入驻

OpenAI 前 CTO 创业大模型首秀,第一剑先斩 ChatGPT 聊天框

0
分享至

2013 年的科幻电影《Her》中,操作系统 Samantha(萨曼莎)让观众首次具象化了理想的 AI 存在方式:不等你说完即可开口、能感知语气迟疑,且始终「在场」,而非被动等待唤醒。

十三年后,由 OpenAI 前 CTO Mira Murati 创立的 Thinking Machines Lab 发布了一篇研究预览,其构建的交互模型在底层追求上,与 Samantha 的逻辑高度契合。


这篇题为《交互模型:人机协作的可扩展方案》的博客,全篇反复强调的核心便是一个词:「presence」——持续在场。


博客链接地址:https://thinkingmachines.ai/blog/interaction-models/

颇有意思的是,2024 年正是 Mira Murati 在 OpenAI 主持发布了 GPT-4o 的高级语音模式,让人机交互开始更接近人与人的自然交流。


两年后,她带着出走的团队另起炉灶,却又把这件事从头做了一遍。


评论区的吐槽也是一条比一条犀利。



人类已被移出 AI 协作群聊

文章开篇指出,结合 METR 在 2025 年的研究报告,主流 AI 公司普遍倾向将「模型自主完成长任务」作为最重要的能力指标,导致目前的交互界面几乎没给人类留出持续参与的空间。

但在实际工作中,需求极少能在最初就交代得完美无缺。高质量产出往往需要人持续介入与反复调整,而现有的「回合制」机制恰恰缺乏这样的通道。

语言学者 Clark 和 Brennan 在 1991 年的研究表明:高效沟通依赖共在、同时性和并发性。双方需共处同一情境,同步接收和表达信息;同时,如 Walter Ong 在 1982 年关于「口语稍纵即逝性」的研究所示,对话的本质在于高频参与。结合哈耶克 1945 年的理论,真正有价值的知识正存在于这类即时的细节传递中。

现在的模型工作时,用户输入,AI 等待;AI 输出时,则对用户的即时反应一无所知。Thinking Machines 将此比喻为:面对紧迫分歧不去当面沟通,而是靠发邮件来回拉扯。

目前的实时语音市场存在两条存在局限的路线:大多数主流商业系统是靠在模型外接入语音活动检测(VAD)等组件拼接出的「伪实时」。

这种外挂组件的管理方式局限性明显:模型无法主动打断对话,无法对屏幕报错等视觉变化作即时反应,更难以胜任「边听边同传」这类高频并发任务。 而另一方面,市场上虽然也出现了 Moshi、PersonaPlex 等无需 VAD 的原生全双工系统,但它们多为较小规模的模型,为了低延迟在综合智能水平上做出了妥协。

Thinking Machines 认同强化学习学者 Richard Sutton 的观点:依赖人工设计组件的系统最终会被通用学习赶超。交互能力必须成为模型原生的一部分。

为此,他们参考了业界在 全双工语音交互与异步智能体 上的探索(如 Seeduplex、Qwen-omni、MoshiRAG 等),从头训练了原生支持实时交互的系统。该系统由感知时间的「交互模型」(前台)和异步运行的「后台模型」(负责深层推理)协同工作。


基于时间对齐的微轮次分析 / 微轮次机制 :模型以 200 毫秒为处理单元,持续交替处理输入与输出。用户的沉默、抢话均作为真实信息保留。


打破人为轮次边界后,模型能隐式追踪用户是在思考、让步、自我纠正还是邀请回应,无需独立的对话管理模块。它不仅能同步说话、中途插话,甚至能在边听边看的同时,并行调用工具、搜索网页或生成 UI 界面。

在模态处理上,他们省去了独立的大型编码器,音视频经轻量处理后直接与 Transformer 主体联合训练。同时,为满足高频处理要求,团队实现了「流式会话」机制并优化了底层算力与通信,避免反复重分配内存,确保了低延迟的稳定运行。


当遇到复杂任务时,前台会把完整上下文抛给后台,后台将结果流式返回,前台再伺机自然地融入对话,在保证实时响应的同时兼顾深度推理。针对新衍生的安全挑战,模型也进行了拒绝对话的拟真训练与防越狱的鲁棒性测试。

一份让主流模型集体关注的成绩单

测试中,这款名为 TML-Interaction-Small(活跃参数 12B)的模型表现亮眼。

在评估打断、背景音干扰的 FD-bench v1.5 基准中,TML 获 77.8 分,远超 GPT Realtime-2.0(46.8 分)和 Gemini(54.3 分),轮次切换延迟仅 0.40 秒。在需深度推理的 FD-bench v3 中,其响应质量/Pass@1(82.8/68.0)也稳压竞品高延迟版本。

在其他综合测试中,TML 同样展现了极强的平衡性:QIVD 音视频问答(54.0 分)、BigBench Audio(75.7/96.5 分)以及 IFEval 指令遵循(82.1/89.7 分),并在 Harmbench 保持了 99.0% 的安全拒绝率。虽然在部分纯智力单项上略微落后于 Qwen 3.5 Omni 或 GPT-2.0 极高延迟版,但它是唯一在响应速度与智能水平上实现双优的模型。


为了更精准地衡量原生交互能力,Thinking Machines 自建了多项评测。

对比学术界现有的 StreamBridge、AURA 等文本输出原型,TML 实现了真正的语音并发输出。在考察主动发言的 TimeSpeak(得分 64.7)、同步纠错的 CueSpeak(得分 81.7)、持续视觉追踪的 RepCount-A(得分 35.4)以及看视频抢答的 ProactiveVideoQA 等单项测试中,TML 均取得有效成绩,而对比的主流模型在这些场景下几乎全部得零分或沉默以对。


当然,这套架构目前也有局限:长会话的上下文积累难以管理,且流式音视频高度依赖网络稳定性。此外,该架构尚未扩展至更大参数量的版本,计划于今年晚些时候发布。

和 AI 说话,越来越像在和人说话

参与这项工作的研究员 Neal Wu 概括了他们的初衷:「如果和 AI 协作不再是对着聊天框输入,而更像在和另一个人说话,会怎样?」原生支持交互的模型,就是他们给出的初步尝试。

Thinking Machines CTO Soumith Chintala 则将整体路线图分为三步:第一步,提升人与 AI 之间的信息带宽;第二步,拉高人类加 AI 的智能上限;第三步,帮助人类在未来的体系中继续发挥核心作用。


在许多 AI 研发方向倾向于让模型更自主、减少人类介入的当下,Thinking Machines 选择了一条不同的路径:让人类的介入变得更流畅,让沟通带宽本身成为一种基础设施。

翁荔更是在推文中提到:「写了 137 页日志,产出了 12 个版本。结果发现,人与人之间的协作,对于改善人与 AI 之间的协作至关重要。」这或许意味着,要研发出一个能理解人类沟通节奏的模型,研究者首先需要深刻体会人类沟通的本质。


不过,一个持续在场、能即时感知情绪和状态的 AI,与传统的工具型 AI 带来的心理感受是截然不同的。当模型在每次交互中的在场感越来越强,人们对它的认知和依赖会发生怎样的改变?

这些触及灵魂的拷问,论文并没有作答,只是留下了一个关于「实时对齐与安全」的开放性方向。但可以预见的是,当科幻电影里的情节真正降临桌面,AI 变成一个一个始终陪伴左右的「存在」时,我们真正需要对齐的,或许不只是模型,更是人类自己在新世界中的位置。

我们正在招募伙伴

简历投递邮箱hr@ifanr.com

✉️ 邮件标题「姓名+岗位名称」(请随简历附上项目/作品或相关链接)


特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
饱满状态干大事,当花瓶也要亲力亲为!

饱满状态干大事,当花瓶也要亲力亲为!

飛娱日记
2026-05-07 08:35:29
人伦之乱,正在悄悄毁掉无数家庭!看完一身冷汗

人伦之乱,正在悄悄毁掉无数家庭!看完一身冷汗

三农老历
2026-05-08 19:20:12
常州多所学校停止招生!

常州多所学校停止招生!

常州大喇叭
2026-05-12 17:02:52
特斯拉FSD入华倒计时:中国智驾的鲶鱼,已经游进池塘了

特斯拉FSD入华倒计时:中国智驾的鲶鱼,已经游进池塘了

新浪财经
2026-05-10 23:49:22
捅了马蜂窝!黄仁勋喊中国不应拿芯片:结果中国四个月一片没买!

捅了马蜂窝!黄仁勋喊中国不应拿芯片:结果中国四个月一片没买!

烈史
2026-05-11 18:28:17
晚节不保?72岁濮存昕硬捧外孙女拍戏,全网吐槽:尖嘴猴腮求放过

晚节不保?72岁濮存昕硬捧外孙女拍戏,全网吐槽:尖嘴猴腮求放过

观察鉴娱
2026-05-11 13:57:43
从狂赚到大亏15亿卢布!吉利长安在俄罗斯一年从天堂摔地狱

从狂赚到大亏15亿卢布!吉利长安在俄罗斯一年从天堂摔地狱

老马拉车莫少装
2026-05-11 14:18:27
莫雷加德:恭喜中国队夺冠!我真服了 王楚钦简直太强实力太夸张

莫雷加德:恭喜中国队夺冠!我真服了 王楚钦简直太强实力太夸张

念洲
2026-05-12 15:16:01
婚姻糜烂的康有为:55岁娶17岁日本女佣,却生下了自己的孙女

婚姻糜烂的康有为:55岁娶17岁日本女佣,却生下了自己的孙女

墨策史
2026-05-11 02:40:09
全球目光锁定北京,莫迪敲锣打鼓出发了:全球宣讲,挽回印度声誉

全球目光锁定北京,莫迪敲锣打鼓出发了:全球宣讲,挽回印度声誉

蓝猫说剧
2026-05-13 09:28:36
拿过11冠被淘汰也不遗憾!粤媒喷杜锋:这么说你问过老板队员吗

拿过11冠被淘汰也不遗憾!粤媒喷杜锋:这么说你问过老板队员吗

大嘴爵爷侃球
2026-05-13 09:35:31
“可偏转弹丸!中国研发出鳄鱼结构装甲”

“可偏转弹丸!中国研发出鳄鱼结构装甲”

观察者网
2026-05-12 14:04:05
访华在即,特朗普当众敲打卢比奥?中国法律亮剑,谁也别想通融

访华在即,特朗普当众敲打卢比奥?中国法律亮剑,谁也别想通融

标体
2026-05-13 08:48:14
善恶有报!许家印刚认罪1天,子女近况曝光,大儿子的安排全白费

善恶有报!许家印刚认罪1天,子女近况曝光,大儿子的安排全白费

历史伟人录
2026-05-10 22:06:40
第一次感受到维C的“杀伤力”,2块钱一瓶,就能搞定8个麻烦事

第一次感受到维C的“杀伤力”,2块钱一瓶,就能搞定8个麻烦事

室内设计师有料儿
2026-05-09 10:26:26
蒋介石孙子召开发布会,提出“两蒋”移灵大陆,2句话让世人唏嘘

蒋介石孙子召开发布会,提出“两蒋”移灵大陆,2句话让世人唏嘘

老谢谈史
2026-03-18 18:33:35
荔枝大量上市却很冷清,为何大家不爱吃了?网友:5个扎心原因

荔枝大量上市却很冷清,为何大家不爱吃了?网友:5个扎心原因

餐饮新纪元
2026-05-12 07:09:59
李楠当助教忙坏!频繁与杰曼赵睿沟通,大喊指挥,还能吸取建议!

李楠当助教忙坏!频繁与杰曼赵睿沟通,大喊指挥,还能吸取建议!

篮球资讯达人
2026-05-13 02:13:12
仅4个月,中国出口芯片7030亿元,这是要卷翻美国企业?

仅4个月,中国出口芯片7030亿元,这是要卷翻美国企业?

互联网.乱侃秀
2026-05-13 09:57:19
中软国际:离职补偿 1.77 亿

中软国际:离职补偿 1.77 亿

云头条
2026-05-12 23:18:36
2026-05-13 10:52:49
AppSo incentive-icons
AppSo
让智能手机更好用的秘密
6374文章数 26832关注度
往期回顾 全部

科技要闻

谷歌剧透安卓重大升级 Gemini深度集成底层

头条要闻

中国驻美大使:“成为中国人”刷屏 大势不可阻挡

头条要闻

中国驻美大使:“成为中国人”刷屏 大势不可阻挡

体育要闻

14年半,74万,何冰娇没选那条更安稳的路

娱乐要闻

巩俐用中文宣布戛纳开幕,彰显国际地位

财经要闻

深圳夫妻囤芯片,身家飙涨320亿

汽车要闻

吉利银河“TT”申报图曝光 电动尾翼+激光雷达

态度原创

亲子
数码
健康
艺术
时尚

亲子要闻

奇奇怪怪的经验又增加了一些

数码要闻

比现有快40%!美光256GB DDR5速度破9200MT/s :功耗直降40%

干细胞能让人“返老还童”吗

艺术要闻

这位女摄影师的航拍风景照片,简直太美了!

没八卦、纯素人、不惊艳,可她赢麻了

无障碍浏览 进入关怀版