网易首页 > 网易号 > 正文 申请入驻

通用的dLLM开发框架,让BERT掌握扩散式对话

0
分享至



周展辉(https://zhziszz.github.io/):加州大学伯克利分校计算机博士生;

陈凌杰(https://lingjiechen2.github.io/):伊利诺伊大学厄巴纳香槟分校计算机博士生

扩散式语言模型(Diffusion Language Model, DLM)虽近期受关注,但社区长期受限于(1)缺乏易用开发框架与(2)高昂训练成本,导致多数 DLM 难以在合理预算下复现,初学者也难以真正理解其训练与生成机制。

为此,伯克利与 UIUC 团队基于自研的扩散语言模型工具 dLLM,做了一个简单的实验:让 BERT 通过离散扩散学会对话。结果远超预期 —— 无需生成式预训练,仅约 50 GPU・小时的监督微调,ModernBERT-large-chat-v0(0.4B 参数)在多项任务中的表现已逼近 Qwen1.5-0.5B,证明「离散扩散 + 轻量级指令微调」即可赋予经典 BERT 强生成能力,为社区提供了真正高效、低成本的方案。

更重要的是,团队已将训练、推理与评测的全流程代码完全开源,并封装为可直接运行的「Hello World」示例,使初学者也能轻松复现并理解扩散式语言模型的关键步骤。同时团队也开源了其背后的支持框架 dllm,兼容当前主流开源扩散模型且有极强的可扩展性。



  • 项目链接:https://github.com/ZHZisZZ/dllm
  • 项目报告:https://wandb.ai/asap-zzhou/dllm/reports/dLLM-BERT-Chat--VmlldzoxNDg0MzExNg
  • 项目模型:https://huggingface.co/collections/dllm-collection/bert-chat

dLLM: 支撑 BERT Chat 的通用扩散语言模型框架

BERT Chat 系列的训练、评测与可视化均基于团队自研的 dLLM—— 一个面向扩散式语言模型的统一开发框架。dLLM 不仅是工具库,更是一体化的研究平台,持续吸引研究者使用与贡献。

在设计上,dLLM 强调易用性与可复现性。框架结构清晰、脚本完善,使 BERT Chat 等扩散式训练实验能够在单卡甚至笔记本环境复现,非常适合初学者快速入门。同时,它兼容当前主流的开源扩散语言模型,包括 Dream、LLaDA、RND 等,提供灵活的模型基座选择。

更重要的是,dLLM 还实现了多个缺乏公开实现的研究算法,如 Edit Flows,使许多原本停留在论文中的扩散式生成方法得以真正落地,为社区进一步探索提供了坚实基础。

基座模型选择:为何最终选择 ModernBERT

在选择基座模型之前,实验首先关注 ModernBERT 这一近期提出的 BERT 变体。相比原始 BERT 的 512-token 上下文窗口,ModernBERT 将上下文长度显著扩展至 8,192 tokens,并在多个非生成式基准任务上表现更优。因此,实验的核心问题是:这些改进是否能够在生成式训练场景中带来实际收益?为此,实验采用离散扩散语言建模,在 Wikitext-103-v1 数据集上进行了预训练测试。结果显示,在一众对比的模型中,ModernBERT 达到了最低的训练 loss,表明它在生成式训练中同样具备优势。基于这一表现,我们选定 ModernBERT 为后续离散扩散训练与指令微调的主要基座模型。

扩散式预训练是否必要?

SFT 已足以激活生成能力

在探索扩散式训练路径时,实验首先尝试在更大规模的语料库(OpenWebText)上对 ModernBERT 进行离散扩散语言建模预训练。然而,与在 Wikitext-103-v1 上的训练效果不同,模型在 OpenWebText 上的训练 loss 并未出现显著下降。这一结果表明,ModernBERT 的原始 MLM 预训练已经提供了大量语言与世界知识,对相似语料进行额外的 MDLM 预训练可能收益有限。

由此进一步提出疑问:对于 ModernBERT 而言,持续的生成式预训练是否真的必要?为验证这一点,实验分别对三种 ModernBERT-large 检查点进行指令微调(SFT):

(1) 未经任何生成式预训练的版本,

(2) 在 Wikitext-103-v1 上做过 MDLM 预训练的版本,

(3) 在 OpenWebText 上做过 MDLM 预训练的版本。

尽管经过生成式预训练的模型(2 和 3)在 SFT 初期具有更低的训练 loss,但三者最终在训练与评测 loss 上的收敛表现几乎相同。该结果说明,ModernBERT 的原始 MLM 预训练已编码了足够的语言知识,在此基础上进行额外的离散扩散语言建模预训练,对后续的指令微调带来的收益非常有限。

在确认预训练并非必要后,团队扩大了 SFT 数据规模,将 allenai/tulu-3-sft-mixture 与 HuggingFaceTB/smoltalk 拼接,并分别在 ModernBERT-base 与 ModernBERT-large 上进行离散扩散微调,最终得到两个模型权重:ModernBERT-base-chat-v0(0.1B) 与 ModernBERT-large-chat-v0(0.4B)。两者均展现出稳定的多轮对话能力。综合这些结果可以得到结论:对于 BERT 而言,扩散式 SFT 本身就足以激活生成能力;额外的生成式扩散预训练带来的收益极小,而决定最终性能的关键是指令微调。

实验结果:超乎预期的小模型表现

在多项主流评测任务上,对 ModernBERT 系列模型进行了系统测试,包括 LAMBADA(语言理解)、GSM8K(数学推理)以及 CEVAL-valid(中文知识测评)。结果显示,ModernBERT-base-chat-v0(0.1B)与 ModernBERT-large-chat-v0(0.4B)在各项指标上均表现稳定,其中 large 版本的整体性能已接近 Qwen1.5-0.5B。值得注意的是,ModernBERT-base-chat-v0 仅使用约四分之一规模的参数(0.1B),便能够生成流畅自然的语言,这进一步说明扩散式训练在小模型规模下依然具备竞争力。



项目说明:一份为学习而生的扩散模型示例

团队将 BERT Chat 系列定位为一项教学与研究实验,而非商用系统。在 0.1B 与 0.4B 这样的小模型规模下,我们并不过多追求其在基准测试集上的表现,但它们足以作为入门示例,帮助研究者理解扩散式语言模型的训练与生成机制。若希望进一步探索模型潜力,也可以尝试减少扩散步数(例如将 T 减半),通常会带来明显的生成速度提升,因为扩散模型能够在一次迭代中并行生成多个 token。

为保持研究过程的透明与可复现性,团队不仅开放了完整的训练脚本,还公布了全部训练曲线、消融实验、参数设置与运行指令。相关记录可直接在 W&B 报告中查看。我们相信,开放研究不应只呈现成功的结果,而应将完整的探索过程一并公开,帮助社区更全面地理解扩散语言模型的研究路径。

总结:BERT 的新潜力

本研究展示了一个简单却关键的结论:仅依靠扩散式 SFT 与少量指令数据,就能够赋予传统 BERT 实用级的对话生成能力。无需庞大的自回归预训练,也无需 TB 级 token 的数据成本,BERT 仍然具备被「重新激活」的潜力。对于一直希望找到一个「能跑通、能看懂」的 Diffusion LM 教程的读者而言,dLLM 正是一个从训练、推理到评测都能完整贯通的起点。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
陈真扮演者梁小龙离世!前一天还和朋友吃火锅,两任妻子都很漂亮

陈真扮演者梁小龙离世!前一天还和朋友吃火锅,两任妻子都很漂亮

另子维爱读史
2026-01-18 20:03:02
药师提醒:银杏叶片、血塞通、复方丹参片,心脑血管用药别再选错

药师提醒:银杏叶片、血塞通、复方丹参片,心脑血管用药别再选错

蜉蝣说
2026-01-17 18:36:03
访华第三天,卡尼情绪爆发,当着中方的面,说了一句掏心窝子的话

访华第三天,卡尼情绪爆发,当着中方的面,说了一句掏心窝子的话

知鉴明史
2026-01-17 22:39:23
一支乌克兰亿万富翁创建的部队,在收复库皮扬斯克中重击俄军

一支乌克兰亿万富翁创建的部队,在收复库皮扬斯克中重击俄军

火星宏观
2026-01-18 11:29:17
庄则栋走了,穆铁柱走了,聂卫平走了,体育界4大脊梁就他还活着

庄则栋走了,穆铁柱走了,聂卫平走了,体育界4大脊梁就他还活着

林子说事
2026-01-18 15:05:56
遭日本U23门将骚扰的中国女球迷:我曾苦口婆心劝告了他一番

遭日本U23门将骚扰的中国女球迷:我曾苦口婆心劝告了他一番

懂球帝
2026-01-18 16:46:11
嫣然医院获大量网友捐款,为何明星和网红却不为所动

嫣然医院获大量网友捐款,为何明星和网红却不为所动

映射生活的身影
2026-01-18 16:00:39
窦靖童:妈妈钱多到用不完,但穷苦潦倒的爸爸,却成她如今的心病

窦靖童:妈妈钱多到用不完,但穷苦潦倒的爸爸,却成她如今的心病

丰谭笔录
2025-12-25 11:35:18
68死伤5失联!包钢爆炸原因被扒,内部画面流出,一画面信息量大

68死伤5失联!包钢爆炸原因被扒,内部画面流出,一画面信息量大

博士观察
2026-01-18 21:30:44
1949年傅作义任水利部长不批文件,伟人疑其挂名,周恩来当场发火

1949年傅作义任水利部长不批文件,伟人疑其挂名,周恩来当场发火

唠叨说历史
2026-01-14 17:40:43
编程从此不再有门槛!Claude Code火爆出圈,一周干完一年的活,一人顶一个团队

编程从此不再有门槛!Claude Code火爆出圈,一周干完一年的活,一人顶一个团队

华尔街见闻官方
2026-01-18 20:00:50
1-0夺冠!马内获非洲杯MVP,离开C罗1个月:胜利让出榜首落后7分

1-0夺冠!马内获非洲杯MVP,离开C罗1个月:胜利让出榜首落后7分

球场没跑道
2026-01-19 09:36:09
拿5260万顶薪,个人数据越来越好,球队越来越差!你终于明牌宣战

拿5260万顶薪,个人数据越来越好,球队越来越差!你终于明牌宣战

老梁体育漫谈
2026-01-19 00:04:39
中国男篮迎战日本!建议郭士强:不要再带这三人,这五将不考虑吗

中国男篮迎战日本!建议郭士强:不要再带这三人,这五将不考虑吗

理工男评篮球
2026-01-18 19:33:12
绝了!金姐臀部教倒钩,C罗拿金球奖,暗戳戳感谢曲线灵感

绝了!金姐臀部教倒钩,C罗拿金球奖,暗戳戳感谢曲线灵感

罗氏八卦
2026-01-19 08:41:47
人生建议:永远不要在心里责怪任何人

人生建议:永远不要在心里责怪任何人

洞见
2026-01-18 10:25:29
一声叹息:U23国足晋级四强,但2位19岁神童落寞,王钰栋最憋屈

一声叹息:U23国足晋级四强,但2位19岁神童落寞,王钰栋最憋屈

国足风云
2026-01-19 08:44:18
教科书要改写?美国发明无齿齿轮,中国发明5000年的齿轮变天了?

教科书要改写?美国发明无齿齿轮,中国发明5000年的齿轮变天了?

徐德文科学频道
2026-01-18 22:54:50
合川女孩杀年猪爆赚700万!母亲深夜一语封神,全网瞬间沉默

合川女孩杀年猪爆赚700万!母亲深夜一语封神,全网瞬间沉默

老特有话说
2026-01-18 15:48:15
不想访华了?特朗普派军舰硬闯台海,卡尔森直言:中国统一没错

不想访华了?特朗普派军舰硬闯台海,卡尔森直言:中国统一没错

空景孤扰人心
2026-01-19 10:00:29
2026-01-19 11:28:49
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12135文章数 142545关注度
往期回顾 全部

科技要闻

编程从此不再有门槛!Claude Code火爆出圈

头条要闻

李国庆向李亚鹏捐款100万 晒出银行转账和聊天截图

头条要闻

李国庆向李亚鹏捐款100万 晒出银行转账和聊天截图

体育要闻

21年后,中国男足重返亚洲四强

娱乐要闻

《狮子王》导演在家中去世,终年76岁

财经要闻

GDP增长5%!统计局正在解读

汽车要闻

2026款福特烈马上市 售价29.98-39.98万元

态度原创

教育
房产
家居
本地
公开课

教育要闻

复试面试经典问题:你为什么报考我们学校?

房产要闻

真四代来了!这次,海口楼市将彻底颠覆!

家居要闻

隽永之章 清雅无尘

本地新闻

云游内蒙|黄沙与碧波撞色,乌海天生会“混搭”

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版