网易首页 > 网易号 > 正文 申请入驻

dLLM:复用自回归模型权重快速训练扩散语言模型

0
分享至

大语言模型的文本生成方式一直都是以自回归为主:一个token接一个token,从左往右,生成完就定了。

但现在有个不太一样的思路开始在研究圈里流行起来,那就是扩散语言模型(Diffusion LMs)。扩散模型在图像生成领域已经证明了自己的可行性,但是问题是把这套东西用到文本上一直很麻烦——训练难、评估难、更别提怎么集成到现有的LLM工作流里了。



dLLM是一个开源的Python库,它把扩散语言模型的训练、微调、推理、评估这一整套流程都统一了起来,而且号称任何的自回归LLM都能通过dLLM转成扩散模型,还不需要什么特殊的算力。

扩散模型用在语言上有什么不同

做过图像扩散模型的应该能理解这个思路。

传统自回归是顺序生成,扩散模型的玩法不一样:先从噪声或者masked tokens开始,然后一步步把整个序列细化出来。它不是一个token一个token往后走,而是对整个输出做全局优化。



扩散模型在几个场景下表现特别好:需要复杂推理的任务、文本编辑重写、结构化生成,还有需要多轮迭代优化的场景。

dLLM提供了什么

dLLM不是某个具体模型它是个框架,包括了下面的功能:

统一的训练流程

底层用的是Hugging Face的Trainer,所以常见的那些东西都支持:LoRA微调、DeepSpeed、FSDP、多节点Slurm集群、4-bit量化。

训练扩散模型和训练transformer没什么区别用的都是同一套工具链。

统一的评估体系

评估部分基于lm-evaluation-harness搭建,好处是不同benchmark用同一套接口,不需要针对每个模型写推理代码,结果也能复现。

把AR模型转成扩散模型

这是dLLM最核心的功能,LLaMA系列模型、instruction-tuned的LLM,甚至BERT这种encoder,都能拿来微调成扩散模型。而且支持的方法包括:Masked Diffusion(MDLM)、Block Diffusion(BD3LM)和Edit Flows。

支持的模型和训练方式

dLLM自带了几个参考实现:LLaDA/LLaDA-MoE、Dream、BERT-Chat、Edit Flow模型。训练示例覆盖预训练、监督微调(SFT)、评估这几个阶段。

# Create environment
conda create -n dllm python=3.10 -y
conda activate dllm
# Install PyTorch (CUDA 12.4 example)
conda install cuda=12.4 -c nvidia
pip install torch==2.6.0 torchvision==0.21.0 torchaudio==2.6.0 \
--index-url https://download.pytorch.org/whl/cu124
# Install dLLM
pip install -e .

如果要跑评估:

git submodule update --init --recursive
pip install -e "lm-evaluation-harness[ifeval,math]"

训练代码实际长什么样

最简单的训练脚本:

import transformers
import dllm
model = dllm.utils.get_model(model_args)
tokenizer = dllm.utils.get_tokenizer(model_args)
trainer = dllm.core.trainers.MDLMTrainer(
model=model,
tokenizer=tokenizer,
train_dataset=train_data,
eval_dataset=eval_data,
args=training_args,
data_collator=transformers.DataCollatorForSeq2Seq(
tokenizer,
padding=True,
return_tensors="pt",
),
)
trainer.train()

就这些,不用写自定义loss,不用手动搞扩散循环,也不是那种只能在论文里跑的代码。

还可以使用LoRA + 4-bit量化微调

accelerate launch \
--config_file scripts/accelerate_configs/zero2.yaml \
examples/llada/sft.py \
--num_train_epochs 4 \
--load_in_4bit True \
--lora True

推理怎么做

扩散推理是分步骤迭代的和自回归的greedy decoding完全是不同的概念,dLLM用统一的sampler把这层抽象掉了:

import dllm
model = dllm.utils.get_model(model_args).eval()
tokenizer = dllm.utils.get_tokenizer(model_args)
sampler = dllm.core.samplers.MDLMSampler(
model=model,
tokenizer=tokenizer
)
inputs = tokenizer.apply_chat_template(
[{"role": "user", "content": "Explain diffusion models simply."}],
add_generation_prompt=True,
tokenize=True,
)
outputs = sampler.sample(inputs)

sampler会处理mask schedule、refinement steps、decoding、output cleanup这些细节。

Edit Flows:拿扩散做文本编辑

Edit Flows算是dLLM里比较有意思的一个方向。模型不是从零生成文本,而是学会对现有文本做操作:插入token、删除token、替换token。这种方式特别适合代码重构、文档编辑、可控的文本改写这类任务,而dLLM提供了从头训练Edit Flow模型的完整教程。

评估

评估扩散模型确实有点麻烦,dLLM用标准化的脚本解决这个问题。

在MMLU-Pro上跑个评估的示例如下:

accelerate launch --num_processes 4 \
dllm/pipelines/llada/eval.py \
--tasks "mmlu_pro" \
--model "llada" \
--apply_chat_template \
--num_fewshot 0

总结

扩散语言模型之前一直停留在研究阶段,dLLM把它变成了能实际用起来的工程工具。现有的LLM可以直接复用,微调需要的算力也不夸张,模型之间的对比有了统一标准,想做实验也不用把整套东西重新搞一遍。

自回归LLM能占主导地位,很大原因是它足够实用。扩散模型要是想在语言领域站稳脚,就要做到训练简单、评估方便、容易集成,dLLM在这个方向上走了不小一步。

对于在做next-gen语言模型的人来说,这个框架确实值得研究一下。

https://avoid.overfit.cn/post/5dc5d844044d404d868bf9512bca2f9b

作者:Sonu Yadav

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
英达直播间喊话巴图遭3分钟沉默,网友:惦记曾被视为累赘的孩子

英达直播间喊话巴图遭3分钟沉默,网友:惦记曾被视为累赘的孩子

诗意世界
2026-01-02 22:52:32
尘埃落定,郭士强下课?篮协表态,去向曝光,徐杰或回归

尘埃落定,郭士强下课?篮协表态,去向曝光,徐杰或回归

乐聊球
2026-01-05 12:17:11
事件升级!司晓迪晒开房记录,16个男顶流被锤!内娱彻底玩完

事件升级!司晓迪晒开房记录,16个男顶流被锤!内娱彻底玩完

可乐谈情感
2026-01-06 13:01:50
马杜罗进入法院,现场画面曝光!专家称美方涉毒指控都是借口

马杜罗进入法院,现场画面曝光!专家称美方涉毒指控都是借口

南方都市报
2026-01-05 21:42:25
震惊!宿茂臻执掌山东泰山,韩鹏为何落选?

震惊!宿茂臻执掌山东泰山,韩鹏为何落选?

姜大叔侃球
2026-01-06 11:10:10
网友吐槽口味王将50槟榔克数减少至40克,折合下来一斤625

网友吐槽口味王将50槟榔克数减少至40克,折合下来一斤625

映射生活的身影
2026-01-05 13:02:05
坏消息传来,要严查退休人员,“4类人”可能逃不掉

坏消息传来,要严查退休人员,“4类人”可能逃不掉

巢客HOME
2025-08-03 19:09:22
国产女模特172高挑身材,火辣身姿,尺度大

国产女模特172高挑身材,火辣身姿,尺度大

傲娇的马甲线
2025-12-05 18:15:51
2026年初官媒高调官宣王虹喜讯,韦东奕:终于等到这天

2026年初官媒高调官宣王虹喜讯,韦东奕:终于等到这天

地球记
2026-01-06 10:19:43
网传2.0T大众新迈腾,只要12.99万了?

网传2.0T大众新迈腾,只要12.99万了?

米粒说车唯一呀
2026-01-05 14:32:17
重磅!浙金中心再发公告:即日9:00起恢复运行!提现功能恢复

重磅!浙金中心再发公告:即日9:00起恢复运行!提现功能恢复

新浪财经
2026-01-06 13:44:29
经纪人:很多人错误地认为詹姆斯5400万美元薪资影响了湖人补强

经纪人:很多人错误地认为詹姆斯5400万美元薪资影响了湖人补强

懂球帝
2026-01-06 08:59:32
泽连斯基任命布达诺夫为“二当家”,前任因牵涉腐败案辞职

泽连斯基任命布达诺夫为“二当家”,前任因牵涉腐败案辞职

合赞历史
2026-01-06 14:07:31
特斯拉放大招!推出7年超低息、5年0息车贷

特斯拉放大招!推出7年超低息、5年0息车贷

中国基金报
2026-01-06 14:18:35
四川一独居老人3个月买900包盐,店家觉得异常赶紧报警,警方破门后愣住了……

四川一独居老人3个月买900包盐,店家觉得异常赶紧报警,警方破门后愣住了……

品读时刻
2026-01-05 09:03:53
伊朗总统下场,全面战争警告!哈梅内伊能撑过2026年吗?

伊朗总统下场,全面战争警告!哈梅内伊能撑过2026年吗?

健身狂人
2026-01-06 13:12:00
国乒教练竞聘结束才3天,令人担忧的事发生, 遭殃的不止马琳一人

国乒教练竞聘结束才3天,令人担忧的事发生, 遭殃的不止马琳一人

梦史
2026-01-06 09:35:02
张水华首度公布惊人身体数据,34岁的她仍在进步尚未到生涯黄金期

张水华首度公布惊人身体数据,34岁的她仍在进步尚未到生涯黄金期

杨华评论
2026-01-05 22:10:29
多次不缴纳联合国会费的美国突然大手一挥,付清了二十亿美元

多次不缴纳联合国会费的美国突然大手一挥,付清了二十亿美元

安安说
2026-01-02 11:27:50
北京楼市:上热搜了

北京楼市:上热搜了

北京房姐
2026-01-06 09:54:06
2026-01-06 14:52:49
deephub incentive-icons
deephub
CV NLP和数据挖掘知识
1881文章数 1440关注度
往期回顾 全部

科技要闻

速看!黄仁勋万字实录:甩出"物理AI"王牌

头条要闻

美媒:大批美军机突然飞往欧洲 主要型号为C-17运输机

头条要闻

美媒:大批美军机突然飞往欧洲 主要型号为C-17运输机

体育要闻

从NBA最菜首发控卫,到NBA最强乔治

娱乐要闻

朱媛媛遗作《小城大事》定档1月10日

财经要闻

丁一凡:中美进入相对稳定的竞争共存期

汽车要闻

让智驾能看懂真实世界 英伟达发布开源Alpamayo平台

态度原创

数码
时尚
家居
房产
公开课

数码要闻

CES 2026震撼登场!AMD 2nm新品强势对决Intel 18A工艺

穿了十年仍然心动的外套,它算一件

家居要闻

引光之宅 地下室也有生机

房产要闻

再次登顶海南楼市!超越阿那亚的,只有阿那亚!

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版