![]()
恕我直言,今天你跟AI的交流,跟对讲机没什么区别。
输入,发送,它开始思考。你盯着屏幕,等几秒,甚至几分钟。然后它吐出一大段文字。你读完,再输入下一条。
如果人机交互永远停留在这个方式,AGI不会到来。
因为人类协作从来不是回合制的。两个人面对面吵架,语气、表情、停顿、抢话,信息在每一个毫秒里流动。这才是真实的带宽。
有一家公司正在改写这个规则。它叫Thinking Machines Lab,创始人Mira Murati,前OpenAI首席技术官。她的目标与老东家不同:OpenAI做顶级闭源模型,她做人类与AI的协作。
![]()
要协作,先掀翻回合制。
昨天,TML发布了TML-Interaction-Small。名字叫Small,参数2760亿,是行业内第一个原生支持实时、多模态人机协作的大模型。0.4秒响应延迟,无需唤醒的视觉主动介入,听、看、想、说四个动作同步。
在智能和交互的基准测试中,它双双登顶。部分竞品连参赛资格都没有。
大模型下半场的战役,已经从算力与参数的堆砌,演变为机器情商与交互本能的革命。
01
外挂是一条死路
回想一下,为什么面对面吵架比发邮件高效?
邮件是回合制的。你写一段,我回一段。中间隔着思考和打字的时间,情绪、表情、语气全部丢失。面对面不同。我还没说完,你就打断;我刚皱眉,你就调整说辞。信息的交换是并行的、连续的、双向的。
当前的AI,包括OpenAI和Anthropic的旗舰产品,本质上都是邮件模式。
TML的技术报告里给这种现象起了个名字:单线程现实感知。用户说完之前,AI处于“五感消失”状态。它听不到你的语气,看不到你的表情,不知道你停顿是因为犹豫还是因为喘气。它生成回答的过程中,感知同样被冻结。除非你强行打断,否则它就像一台背诵录音机,从头放到尾。
这套机制的根源在于架构。现有的多模态AI,绝大部分是外挂缝合的。语音活动检测模块判断用户是否说完,语音识别模块把声音转成文字,大语言模型思考,语音合成模块把文字读出来。级联,串行,每一步都增加延迟,每一步都丢失信息。
强化学习之父Rich Sutton在《The Bitter Lesson》里说过一句话,TML把它贴在报告里:所有依赖人类手工设计的复杂外挂系统,最终都会被底层模型通过暴力计算和统一架构降维打击。
![]()
翻译成人话:外挂没有未来。真正的交互能力,必须长在模型身体里,像呼吸一样自然。从提示词驱动,升级为伴随式协作。
02
双向奔赴的无缝交互
说起来简单,做起来难。要在技术底层彻底打破“回合制”的束缚,难度无异于给天上的飞机更换引擎。
TML-Interaction-Small(以下简称TML-Small)之所以能做到听、看、想、说四个动作的同步,源于底层架构的四个易于理解的颠覆性创新:
1.时间对齐的微轮转
这就是TML架构中最有想象力的核心。
传统的Transformer架构把输入和输出的信息流都压缩成了一个有序的token序列。但文字与音频和视频包含的信息量和复杂程度截然不同,不能被简单地划分到同一个维度之中,因此TML-Small将现实世界的连续音视频流都切分成了每200毫秒一个的“微轮转”。
![]()
在这个200毫秒的微小切片之内,模型同时接收输入并生成输出。它无需等待用户完成整个交互过程,只需要用这种高频碎片化的方式就可以持续不断地与用户进行双向的信息交换。
这种类似微积分的处理方式有效地打破了人为设置的“回合边界”,模型也能够自然地听懂人们说话时喘气带来的停顿和话语权的交接。当前音频模型主要的应用场景“同声传译”即可由此实现。
2.无编码器的早期融合
告别了“缝合怪”,TML也实现了极致的早期融合。
由于坚信外挂的模块不是通往AGI的正确道路,这款新模型没有采用庞大的独立语音识别系统或视觉编码模型。
音频被直接转化为dMel信号,视频画面被切分为40×40像素的微小图块并经过轻量级的MLP网络处理,随后这些音视频的原始切片就会和文本一起送入同一个Transformer架构之中。
![]()
所有组件都从零开始联合训练,就是TML-Small能够做到零损耗和无时差的原生多模态感知的秘诀。
3.前台交互+后台思考的双轨系统
性能、速度和成本,全球的AI企业都在费尽心思试图突破这个不可能三角的边界。很多端到端的语音大模型为了追求毫秒级的延迟,往往只能做简单的闲聊,也就是只能做一些简单的翻译,一旦遇到复杂的数学推理或是编程直接崩溃。
TML给出了一种优雅的架构解法:双轨并行。
![]()
交互模型始终驻留前台,保持实时在线,和人类企业的前台服务人员一样负责察言观色、快速回应、稳住场面。
一旦遇到需要深思熟虑、调用搜索、使用工具的复杂任务时,前台就会将丰富的上下文打包给后台进行异步处理。
4.2760亿参数的算力经济学与底层工程
如此高频的交互,必然会带来致命的算力成本压力。好在,TML-Small并非浪得虚名,作为一个276B参数的混合专家(MoE)模型,每次推理时的活跃参数仅有12B。
同时,为了应对海量200毫秒级别的碎片产生的推理开销,TML团队也学习国产AI企业深入底层,开发了流式会话(Streaming sessions)技术。通过在GPU内存中持久化保留序列能够避免频繁的内存重新分配,这套优化方案也已经贡献给了开源框架SGLang。
03
竞品连考场都进不去
榜单上的数据让人沉默。
在“智能与交互质量”的综合评估中,TML-Small同时占据高智商和快响应两个角落的顶点。在交互延迟测试中,它跑出0.40秒,比OpenAI和Google的最新实时模型还快,接近人类本能反应的极限。
![]()
但真正让人震撼的是另外两件事。
第一件,TML被迫创建了全新的评测维度。因为现有的商业模型,在这些任务上的得分基本都是零。测试很简单:用户要求每4秒提醒一次深呼吸。TML-Small准确率超过60%。其它模型陷入沉默。它们没有时间观念。
第二件,主动视觉测试。传统的语音助手必须听到唤醒词才看一眼屏幕。TML-Small主动盯着屏幕,用户完成目标时主动插话提示。没有唤醒,没有外挂,AI第一次真正长出了眼睛,拥有了时间。
04
带宽跃迁之后的世界
一旦AI突破了回合制的协作带宽瓶颈,它就不再是一个屏幕里的文本生成器。几个行业的商业逻辑将被重写。
数字员工的定义要改了。现在的AI客服只会照本宣科。你语气变了,它听不出来;你皱眉了,它看不见。换成一个拥有TML能力的数字员工,它能在你不耐烦之前主动停掉冗长的回答,能在你犹豫时补充信息。客服、销售、咨询,这些依赖人类情绪识别的行业,将迎来一次范围打击。
空间计算和下一代游戏也会变。苹果Vision Pro被诟病“缺乏灵魂”,缺的就是一个实时伴随的智能体。TML驱动的AR眼镜,智能体和你看到同样的景象,能做危险提示,能同声传译。游戏里的NPC不用再呆呆地站在固定位置,它们有时间观念,能主动互动,彻底摆脱脚本。
具身智能终于有了大脑。自动驾驶和机器人面对的世界没有暂停键。传统大模型“等你说完我再思考”的模式,对机器人来说是致命的卡顿。TML每200毫秒处理一次的机制,恰好匹配机器人底层“感知—决策—控制”的循环。这是现阶段的最优解,也是唯一解。
05
结语
TML在报告结尾坦承了局限:超长会话的上下文管理、对优质网络的依赖。但更大规模的模型将在今年晚些时候推出。
过去三年,行业拼命堆砌参数,让AI写更复杂的代码、解更难的数学题。有一件事正在被淡忘:
人类文明的伟大,不仅有个体的灵光一现,还有协作与沟通的本能。
当人类试图打造AGI时,让机器懂得如何与人类同频呼吸、无缝交流,远比让它变得更聪明更加重要。
对讲机时代应该结束了。
转载开白 | 商务合作 | 内容交流
请添加微信:cutstill
添加微信请备注姓名公司与来意
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.