网易首页 > 网易号 > 正文 申请入驻

她曾掌舵OpenAI技术,如今要颠覆OpenAI的规则

0
分享至

文 | 硅基星芒

恕我直言,今天你跟AI的交流,跟对讲机没什么区别。

输入,发送,它开始思考。你盯着屏幕,等几秒,甚至几分钟。然后它吐出一大段文字。你读完,再输入下一条。

如果人机交互永远停留在这个方式,AGI不会到来。

因为人类协作从来不是回合制的。两个人面对面吵架,语气、表情、停顿、抢话,信息在每一个毫秒里流动。这才是真实的带宽。

有一家公司正在改写这个规则。它叫Thinking Machines Lab,创始人Mira Murati,前OpenAI首席技术官。她的目标与老东家不同:OpenAI做顶级闭源模型,她做人类与AI的协作。


要协作,先掀翻回合制。

昨天,TML发布了TML-Interaction-Small。名字叫Small,参数2760亿,是行业内第一个原生支持实时、多模态人机协作的大模型。0.4秒响应延迟,无需唤醒的视觉主动介入,听、看、想、说四个动作同步。

在智能和交互的基准测试中,它双双登顶。部分竞品连参赛资格都没有。

大模型下半场的战役,已经从算力与参数的堆砌,演变为机器情商与交互本能的革命。

01 外挂是一条死路

回想一下,为什么面对面吵架比发邮件高效?

邮件是回合制的。你写一段,我回一段。中间隔着思考和打字的时间,情绪、表情、语气全部丢失。面对面不同。我还没说完,你就打断;我刚皱眉,你就调整说辞。信息的交换是并行的、连续的、双向的。

当前的AI,包括OpenAI和Anthropic的旗舰产品,本质上都是邮件模式。

TML的技术报告里给这种现象起了个名字:单线程现实感知。用户说完之前,AI处于“五感消失”状态。它听不到你的语气,看不到你的表情,不知道你停顿是因为犹豫还是因为喘气。它生成回答的过程中,感知同样被冻结。除非你强行打断,否则它就像一台背诵录音机,从头放到尾。

这套机制的根源在于架构。现有的多模态AI,绝大部分是外挂缝合的。语音活动检测模块判断用户是否说完,语音识别模块把声音转成文字,大语言模型思考,语音合成模块把文字读出来。级联,串行,每一步都增加延迟,每一步都丢失信息。

强化学习之父Rich Sutton在《The Bitter Lesson》里说过一句话,TML把它贴在报告里:所有依赖人类手工设计的复杂外挂系统,最终都会被底层模型通过暴力计算和统一架构降维打击。


翻译成人话:外挂没有未来。真正的交互能力,必须长在模型身体里,像呼吸一样自然。从提示词驱动,升级为伴随式协作。

02 双向奔赴的无缝交互

说起来简单,做起来难。要在技术底层彻底打破“回合制”的束缚,难度无异于给天上的飞机更换引擎。

TML-Interaction-Small(以下简称TML-Small)之所以能做到听、看、想、说四个动作的同步,源于底层架构的四个易于理解的颠覆性创新:

1.时间对齐的微轮转

这就是TML架构中最有想象力的核心。

传统的Transformer架构把输入和输出的信息流都压缩成了一个有序的token序列。但文字与音频和视频包含的信息量和复杂程度截然不同,不能被简单地划分到同一个维度之中,因此TML-Small将现实世界的连续音视频流都切分成了每200毫秒一个的“微轮转”。


在这个200毫秒的微小切片之内,模型同时接收输入并生成输出。它无需等待用户完成整个交互过程,只需要用这种高频碎片化的方式就可以持续不断地与用户进行双向的信息交换。

这种类似微积分的处理方式有效地打破了人为设置的“回合边界”,模型也能够自然地听懂人们说话时喘气带来的停顿和话语权的交接。当前音频模型主要的应用场景“同声传译”即可由此实现。

2.无编码器的早期融合

告别了“缝合怪”,TML也实现了极致的早期融合。

由于坚信外挂的模块不是通往AGI的正确道路,这款新模型没有采用庞大的独立语音识别系统或视觉编码模型。

音频被直接转化为dMel信号,视频画面被切分为40×40像素的微小图块并经过轻量级的MLP网络处理,随后这些音视频的原始切片就会和文本一起送入同一个Transformer架构之中。


所有组件都从零开始联合训练,就是TML-Small能够做到零损耗和无时差的原生多模态感知的秘诀。

3.前台交互+后台思考的双轨系统

性能、速度和成本,全球的AI企业都在费尽心思试图突破这个不可能三角的边界。很多端到端的语音大模型为了追求毫秒级的延迟,往往只能做简单的闲聊,也就是只能做一些简单的翻译,一旦遇到复杂的数学推理或是编程直接崩溃。

TML给出了一种优雅的架构解法:双轨并行。


交互模型始终驻留前台,保持实时在线,和人类企业的前台服务人员一样负责察言观色、快速回应、稳住场面。

一旦遇到需要深思熟虑、调用搜索、使用工具的复杂任务时,前台就会将丰富的上下文打包给后台进行异步处理。

4.2760亿参数的算力经济学与底层工程

如此高频的交互,必然会带来致命的算力成本压力。好在,TML-Small并非浪得虚名,作为一个276B参数的混合专家(MoE)模型,每次推理时的活跃参数仅有12B。

同时,为了应对海量200毫秒级别的碎片产生的推理开销,TML团队也学习国产AI企业深入底层,开发了流式会话(Streaming sessions)技术。通过在GPU内存中持久化保留序列能够避免频繁的内存重新分配,这套优化方案也已经贡献给了开源框架SGLang。

03 竞品连考场都进不去

榜单上的数据让人沉默。

在“智能与交互质量”的综合评估中,TML-Small同时占据高智商和快响应两个角落的顶点。在交互延迟测试中,它跑出0.40秒,比OpenAI和Google的最新实时模型还快,接近人类本能反应的极限。


但真正让人震撼的是另外两件事。

第一件,TML被迫创建了全新的评测维度。因为现有的商业模型,在这些任务上的得分基本都是零。测试很简单:用户要求每4秒提醒一次深呼吸。TML-Small准确率超过60%。其它模型陷入沉默。它们没有时间观念。

第二件,主动视觉测试。传统的语音助手必须听到唤醒词才看一眼屏幕。TML-Small主动盯着屏幕,用户完成目标时主动插话提示。没有唤醒,没有外挂,AI第一次真正长出了眼睛,拥有了时间。

04 带宽跃迁之后的世界

一旦AI突破了回合制的协作带宽瓶颈,它就不再是一个屏幕里的文本生成器。几个行业的商业逻辑将被重写。

数字员工的定义要改了。现在的AI客服只会照本宣科。你语气变了,它听不出来;你皱眉了,它看不见。换成一个拥有TML能力的数字员工,它能在你不耐烦之前主动停掉冗长的回答,能在你犹豫时补充信息。客服、销售、咨询,这些依赖人类情绪识别的行业,将迎来一次范围打击。

空间计算和下一代游戏也会变。苹果Vision Pro被诟病“缺乏灵魂”,缺的就是一个实时伴随的智能体。TML驱动的AR眼镜,智能体和你看到同样的景象,能做危险提示,能同声传译。游戏里的NPC不用再呆呆地站在固定位置,它们有时间观念,能主动互动,彻底摆脱脚本。

具身智能终于有了大脑。自动驾驶和机器人面对的世界没有暂停键。传统大模型“等你说完我再思考”的模式,对机器人来说是致命的卡顿。TML每200毫秒处理一次的机制,恰好匹配机器人底层“感知—决策—控制”的循环。这是现阶段的最优解,也是唯一解。

05 结语

TML在报告结尾坦承了局限:超长会话的上下文管理、对优质网络的依赖。但更大规模的模型将在今年晚些时候推出。

过去三年,行业拼命堆砌参数,让AI写更复杂的代码、解更难的数学题。有一件事正在被淡忘:

人类文明的伟大,不仅有个体的灵光一现,还有协作与沟通的本能。

当人类试图打造AGI时,让机器懂得如何与人类同频呼吸、无缝交流,远比让它变得更聪明更加重要。

对讲机时代应该结束了。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
中美元首是否讨论人工智能合作?外交部回应

中美元首是否讨论人工智能合作?外交部回应

澎湃新闻
2026-05-15 15:30:33
15号收评:三大指数集体下挫,所有人都注意,大盘下周或将这样走

15号收评:三大指数集体下挫,所有人都注意,大盘下周或将这样走

春江财富
2026-05-15 15:22:23
最高院:提供 “口交” “肛交”等进入式性服务,是否属卖淫行为?

最高院:提供 “口交” “肛交”等进入式性服务,是否属卖淫行为?

周军律师聊案子
2026-04-21 09:50:16
华为突然宣布:5月15日,Mate80全系正式官降

华为突然宣布:5月15日,Mate80全系正式官降

科技堡垒
2026-05-15 11:44:35
2006年,张顺兴8小时取3命,枪决前笑着接受采访:我走了,谢谢

2006年,张顺兴8小时取3命,枪决前笑着接受采访:我走了,谢谢

莫地方
2026-05-14 00:50:05
中美晚宴结束,双方达成一项共识,马斯克出面说了一句话,不简单

中美晚宴结束,双方达成一项共识,马斯克出面说了一句话,不简单

激情与荣耀并存
2026-05-15 14:05:23
天王嫂滤镜彻底碎!方媛抢单人间引众怒,极致利己嘴脸藏不住了

天王嫂滤镜彻底碎!方媛抢单人间引众怒,极致利己嘴脸藏不住了

千言娱乐记
2026-05-14 23:30:52
暴涨95%!“最大芯片”公司成功上市!英伟达要当心了

暴涨95%!“最大芯片”公司成功上市!英伟达要当心了

EETOP半导体社区
2026-05-15 07:32:03
名记:詹姆斯如果离开湖人,大概率只能签全额中产或老将底薪

名记:詹姆斯如果离开湖人,大概率只能签全额中产或老将底薪

懂球帝
2026-05-15 14:15:07
中国排协高层大洗牌,赖亚文实至名归,惠若琪上桌,郎平另辟蹊径

中国排协高层大洗牌,赖亚文实至名归,惠若琪上桌,郎平另辟蹊径

阿讯说天下
2026-05-15 11:54:59
福州市仓山区民政局原党组书记、局长陈晶被查

福州市仓山区民政局原党组书记、局长陈晶被查

海峡网
2026-05-15 15:50:04
全球最大的公司诞生!市值35万亿,相当于15个阿里,利润超8000亿

全球最大的公司诞生!市值35万亿,相当于15个阿里,利润超8000亿

混沌录
2026-05-11 22:34:09
女儿对快百岁父亲说:爸,你活的日子太长了,我妈应该来把你带走

女儿对快百岁父亲说:爸,你活的日子太长了,我妈应该来把你带走

烙任情感
2026-05-14 14:29:49
趁着大半个美国高层都在北京,坐镇白宫的万斯“杀伐果断”

趁着大半个美国高层都在北京,坐镇白宫的万斯“杀伐果断”

健身狂人
2026-05-15 01:35:03
抽奖得来的Switch 2被老婆偷偷送人,37岁男玩家决心离婚

抽奖得来的Switch 2被老婆偷偷送人,37岁男玩家决心离婚

爱游戏的萌博士
2026-05-14 15:08:52
4年3亿美元超级合同遭文班亚马拒绝,他的野心早已写在脸上

4年3亿美元超级合同遭文班亚马拒绝,他的野心早已写在脸上

郝小小看体育
2026-05-15 06:33:32
特朗普还没回国,就开始放狠话了

特朗普还没回国,就开始放狠话了

利刃号
2026-05-15 17:16:39
“满脸通红”,广东一男子考科目二前一天凌晨醉驾:以为不会被发现,没想到真遇上了;交警回应

“满脸通红”,广东一男子考科目二前一天凌晨醉驾:以为不会被发现,没想到真遇上了;交警回应

鲁中晨报
2026-05-15 18:22:06
查明了!华谊兄弟不是被电影拖垮的,是靠1万多亩地"吃"垮自己

查明了!华谊兄弟不是被电影拖垮的,是靠1万多亩地"吃"垮自己

咸鱼金脑袋
2026-05-15 18:23:55
骑士晋级隐患!流感在队内大面积爆发 主帅阿特金森也已经中招

骑士晋级隐患!流感在队内大面积爆发 主帅阿特金森也已经中招

罗说NBA
2026-05-15 07:07:29
2026-05-15 20:16:49
钛媒体APP incentive-icons
钛媒体APP
独立财经科技媒体
133616文章数 862158关注度
往期回顾 全部

科技要闻

两年联姻一地鸡毛,传苹果OpenAI濒临决裂

头条要闻

美媒询问是否认为现在的美国是"衰落国家" 外交部回应

头条要闻

美媒询问是否认为现在的美国是"衰落国家" 外交部回应

体育要闻

德约科维奇买的球队,从第6级联赛升入法甲

娱乐要闻

方媛为何要来《桃花坞6》没苦硬吃?

财经要闻

腾讯掉队,马化腾戳破真相

汽车要闻

高尔夫GTI刷新纽北纪录 ID. Polo GTI迎全球首秀

态度原创

艺术
数码
亲子
手机
公开课

艺术要闻

敦煌挖出王羲之书法!全卷2000字清晰如新!

数码要闻

“小创世神”:XIKII INDUSTRY FF20 Series机箱亮相

亲子要闻

这可是你自愿吃的啊~

手机要闻

小米卢伟冰宣布明日直播:将爆料17 Max手机卖点

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版