![]()
哈喽,大家好,今天小墨要给大家拆解 AI 圈的重磅突破,伯克利+UIUC 团队用开源框架 dLLM,让经典 BERT 模型学会对话,50GPU小时训练就比肩主流小模型,这波操作直接打破扩散模型高门槛的魔咒!
最近,伯克利和UIUC的联合团队扔出了一颗 “炸弹”,他们用自己开发的dLLM框架,让原本只会 “读文本” 的 BERT 模型,学会了像ChatGPT一样聊天。
更夸张的是整个训练只花了50个GPU小时,成本不到常规扩散模型的三分之一,还把所有代码都公开了。
![]()
破解扩散模型两大痛点
作为支撑BERT Chat 的核心,dLLM框架的设计初衷就是 “降低扩散模型的使用门槛”。
与传统工具库不同,这个开源框架实现了训练、推理、评测的全流程封装,不仅结构清晰,还提供了可直接运行的 “Hello World” 示例,即便是笔记本电脑也能复现核心实验。
更值得关注的是,dLLM具备极强的兼容性,支持Dream、LLaDA、RND 等主流扩散模型,还首次公开了Edit Flows等论文算法的实现,让原本停留在理论层面的技术真正落地。
![]()
这一突破恰逢其时,当前扩散模型领域正面临效率瓶颈,蚂蚁集团此前发布的dInfer推理框架虽实现了10倍速度提升,但主要聚焦推理优化。
而dLLM则从全流程出发,构建了从模型训练到应用落地的完整生态。
这种“易用性 + 扩展性” 的设计,不仅让初学者能快速入门,也为研究者提供了灵活的实验平台,进一步推动了扩散模型的民主化。
![]()
![]()
8192token窗口成关键
在基座模型的选择上,团队没有跟风主流生成式模型,而是盯上了ModernBERT,这款BERT变体最大的优势的是将上下文窗口从原始BERT的512token扩展到8192token,且在非生成任务中表现突出。
通过在Wikitext-103-v1数据集上的预训练测试,答案浮出水面,ModernBERT在对比模型中取得了最低的训练损失,证明其在生成式训练中同样具备优势。
![]()
这一选择也为后续的高效训练奠定了基础,毕竟更长的上下文窗口意味着模型能处理更复杂的对话场景,而原始BERT的语言知识积累则减少了额外预训练的成本。
相比之下,同类扩散模型常选用专用生成基座,不仅训练难度大,还存在知识迁移不足的问题。
![]()
实验过程中团队意外发现了一个关键结论,对ModernBERT而言,额外的扩散式预训练几乎没有收益。
![]()
他们分别测试了三个版本的模型,无生成式预训练版、Wikitext-103-v1 预训练版、OpenWebText 预训练版。
结果显示尽管预训练模型初期损失更低,但最终三者的训练和评测效果几乎一致。
这一发现颠覆了扩散模型的常规训练逻辑。
团队据此调整策略,直接将allenai/tulu-3-sft-mixture 与 HuggingFaceTB/smoltalk 数据集拼接,进行离散扩散指令微调(SFT)。
![]()
最终0.1B参数的 ModernBERT-base-chat-v0 能生成流畅语言,0.4B参数的 large 版本在 LAMBADA 语言理解、GSM8K 数学推理、CEVAL-valid 中文测评中,性能逼近阿里开源的 Qwen1.5-0.5B 模型,而整个训练过程仅耗时约50 GPU 小时,成本大幅降低。
![]()
推动社区共同进步
不同于追求商业落地的模型,BERT Chat 系列更像是一份 “扩散模型入门教程”。
团队不仅开源了模型权重,还公开了完整的训练脚本、参数设置、训练曲线和消融实验数据,所有信息可通过 W&B 报告查询。
![]()
这种透明化的研究方式,让初学者能一步步复现实验,真正理解扩散模型的去噪生成机制。
更贴心的是,团队还提供了性能优化小贴士:减少扩散步数可显著提升生成速度,因为扩散模型支持并行生成多个 token。
这一细节也体现了框架的实用性,在实际应用中,用户可根据需求在速度和效果间灵活平衡。
目前dLLM 框架已在 GitHub 开源,吸引了大量开发者关注,进一步丰富了扩散模型的生态。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.