MIT何恺明团队发布了新语言模型 ELF(Embedded Language Flows)。他们绕开了目前的自回归架构,把自己在视觉领域最拿手的扩散模型直接用在了文本生成上。具体做法是:把整个生成过程塞进连续的向量空间,直到最后一步才把数据还原成离散 token。
![]()
图像像素能平滑变色,天生适合扩散模型去噪。但文字不行,词与词之间是断开的,「猫」和「狗」之间没有任何中间地带。为了填平这个鸿沟,以前的文本扩散模型做得很拧巴:要么在去噪时每一步都强行去查词表,要么在模型外面再挂一个独立的解码器。ELF 彻底切断了这种纠缠:中间全不管,让模型安安心心在连续空间里算去噪,只在最后一刻用同一套网络把向量转回文字。
这条路不仅走通了,而且极度省数据。在 OpenWebText 评测中,105M 参数的 ELF-B 仅用32步采样,困惑度(Gen. PPL)就压到了约24.1,优于多款基线模型。更重要的是,它只消耗了约45B 训练 token,而同级别对手通常需要500B 以上,训练量直接砍掉九成。这个结果证明,语言天生的离散性并没有堵死连续扩散这条路。
一旦这种思路成熟,未来的大模型有望彻底摆脱只能「从左到右、单向蹦字」的架构束缚。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.