网易首页 > 网易号 > 正文 申请入驻

扩散不死,BERT永生!Karpathy凌晨反思:自回归时代该终结了?

0
分享至


新智元报道

编辑:KingHZ

【新智元导读】谷歌遗珠与IBM预言:一文点醒Karpathy,扩散模型或成LLM下一步。

Karpathy难以抵挡的诱惑!

苹果的前员工、德克萨斯大学奥斯汀分校(UT Austin)的计算机科学研究生Nathan Barry,得出一个惊人的结论:

BERT本质上,只是文本扩散中的一步!

基于「强化版BERT」RoBERTa,他成功地把表示学习算法改造为生成算法:


看完帖子后,OpenAI创始员工、特斯拉前AI总监Karpathy陷入了沉思:

人类的思维或许更偏向自回归一些——一步步推进的感觉。但在我们的思维潜空间里,也很难说就不存在某种更像扩散的机制。

说不定在这两者之间,其实可以继续插值、或者更进一步泛化。

这部分生成逻辑在LLM架构中,依然是一个相对「可变」的部分。

不过,Karpathy最近忙于为Eureka Labs的《LLM 101n》课程开发终级实践项目「100美元带回家的ChatGPT」,所以他只能「忍痛割爱」:

现在我必须克制住用扩散模型训练nanochat的冲动,不能偏离主线去搞支线任务了。


可以上下滚动的图片

谷歌的遗珠

当第一次读到语言扩散模型论文时,Nathan Barry惊讶地发现它们的训练目标只是掩码语言建模(masked language model,MLM)的一种推广。


而自从2018年BERT以来,大家一直早已对掩码语言建模习以为常。


预印本:https://arxiv.org/abs/1810.04805

他脑海里立刻冒出一个想法:我们能不能把类似BERT的模型微调一下,让它也能做文本生成?

出于好奇,他做了个快速的验证实验。随后,他发现其实早就有人做过了——DiffusionBERT基本就是这个想法,不过做得更严谨。

值得一提的是,大约3年前,DiffusionBERT由国内高校的研究者提出,100%国产!


预印本链接:https://arxiv.org/abs/2211.15029

最初,扩散模型在图像生成领域一炮而红。

在图像生成中,扩散模型会先对图像逐步添加高斯噪声(前向过程),然后训练神经网络对其进行迭代去噪(反向过程)。


将这一思路应用于文本领域,意味着我们需要找到方法对文本添加噪声并在之后分阶段消除。

最简单的实现方式是基于掩码的噪声处理流程:

  • 在前向过程中,初始文本未被破坏。在每一步迭代中,根据预设的调度计划(从0%到100%),随机将一定比例的词语替换为特殊的 标记

  • 在反向(去噪)过程中,训练模型根据每个 预测正确的原始词语。这与掩码语言模型(MLM)类似,但采用了动态掩码率

为了解决以往方法存在的问题,BERT提出了掩码语言建模(Masked LM)。

具体做法是:对每条训练输入序列随机遮盖15%的词语,仅对这些被遮盖的词进行预测。用图示语言来表达就是:


换句话说,BERT的MLM训练目标,其实就可以看作是文本扩散的一种特例,只不过它用的是固定的掩码率。

而只要我们引入一个从0到1的动态掩码率范围,就可以把BERT的训练目标自然扩展为一个完整的文本生成过程。

扩展无处不在,自监督模型变生成模型

2019年发布的RoBERTa模型,是在原始BERT基础上的一次强化升级。


预印本:https://arxiv.org/abs/1907.11692

它调整了超参数、扩大了训练语料,并简化了训练目标——

只保留MLM(掩码语言建模),去掉了「下一句预测」任务。

而Nathan Barry使用HuggingFace的开源库,加载RoBERTa的预训练权重、分词器以及Trainer类,对模型进行微调,数据集选用 WikiText。核心代码(完整代码见原文)大致如下:


在当前实现中,设定了10个扩散步骤,每个训练批次随机采样一个遮盖比例p,从[1.0, 0.9, ..., 0.1]中选取,然后对该比例的Token进行掩码处理。这个逻辑封装在自定义的diffusion_collator中:


在推理时,从一个长度为256的输入向量开始:前16个位置是提示词(prompt)的Token ID,后面240个全是 。然后,逐步减少掩码比例,每一步都做预测、采样、重新掩码。流程如下:


对应的简化代码如下:


在H200显卡上,经过30分钟训练后,模型基于如下提示词生成了如下文本:

...dominion over Europe beginning about the early 19th. There conflict took place on the island, between British and Irish Ireland. British officials administered British Ireland, a Celtic empire under the control of the Irish nationalist authorities, defined as a dominion of Britain. As the newly Fortic states acquired independent and powerful status, many former English colonies played their part in this new, British @-@ controlled colonial system. Following this period the Non @-@ Parliamentaryist Party won its influence in Britain in 1890, led by the support of settlers from the Irish colonies. Looking inwards, Sinclair, Lewis questioned, and debated the need to describe " The New Britain "

提示词为:Following their victory in the French and Indian War, Britain began to assert greater...

生成的文本看起来出奇地连贯!其中大部分「怪异之处」, Nathan Barry归因于WikiText数据集本身的格式化问题——比如标点符号前后带空格,连字符「-」被处理成了@-@等。


数据显示,GPT-2在输出连贯性和生成速度方面略胜一筹(约9秒对比13秒)。

但RoBERTa Diffusion未经优化,如此效果,已令人惊喜。

这次的概念验证无疑非常成功——若能结合AR-Diffusion、跳跃步扩散等新兴技术并深度优化,生成质量与推理速度都将获得飞跃提升。

扩散模型归来

通过实验证明,以RoBERTa为代表的掩码语言模型(原本专为填空任务设计),将变比率掩码重构为离散扩散过程,完全可以转型为全功能生成引擎。

通过渐进式植入 标记污染文本,并训练模型在递增的掩码强度下迭代去噪,标准MLM目标成功地转化为渐进式文本生成流程。

值得注意的是,即使不调整模型架构,仅对训练目标进行微调后的RoBERTa就能生成视觉连贯的文本。

这有力印证了一个重要洞见:本质上,BERT系模型就是在固定掩码率上训练的文本扩散模型。

Karpathy点赞了Nathan Barry的短文:

帖子虽短,却解释了文本(离散)扩散模型可以有多简单。

许多扩散模型的论文看起来颇为晦涩,但若抛开数学形式的外壳,最终得到的往往是简洁的基础算法。


例如在连续空间中更接近流匹配的方法,或是像这样的离散空间方案,其本质还是经典的Transformer架构,只不过采用了双向注意力机制——

根据噪声调度计划,在「token画布」上迭代重采样和重复掩码处理所有token,直至最终步生成完整样本。

自回归生成的过程,就像是在Token画布上不断.append(token) ,每次只参考左侧已有的上下文;

而扩散式生成,则是在整个Token画布上反复.setitem(idx, token) ,每次都依赖双向注意力进行刷新更新。

从整个大语言模型(LLM)技术栈的角度来看,生成领域仍大有可为,存在着优化与创新的空间。

今年更早的时候,在2025 I/O大会上,谷歌DeepMind发布了一项实验性的扩展语言模型——。


在速度上,扩散语言模型优势明显。以至于有网友预测:文本扩展模型就是每个人视而不见的下一步,因为训练成本太高了!


而「蓝色巨人」IBM的作家也断言,随着下一代AI浮现,扩散模型要挑战GPT。


参考资料:

https://nathan.rs/posts/roberta-diffusion/

https://x.com/karpathy/status/1980347971935068380

https://x.com/yacinelearning/status/1980351871413022901

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
张雪峰公司对联已拆!一个月前注册近40枚“姩菡”商标,捐款千万

张雪峰公司对联已拆!一个月前注册近40枚“姩菡”商标,捐款千万

离离言几许
2026-03-25 15:07:06
张雪峰现任妻子遭扒,曝其去年再婚有儿子,年轻漂亮还很清纯

张雪峰现任妻子遭扒,曝其去年再婚有儿子,年轻漂亮还很清纯

古希腊掌管松饼的神
2026-03-25 14:28:44
以色列专打伊朗“镇压机器”,为巴列维王储势力铺路

以色列专打伊朗“镇压机器”,为巴列维王储势力铺路

老马拉车莫少装
2026-03-01 21:19:35
事情闹大了,日本内阁连发公告,中国的态度,告诉了世界一个事实

事情闹大了,日本内阁连发公告,中国的态度,告诉了世界一个事实

兰妮搞笑分享
2026-03-26 13:55:33
银行人员再次提醒:存款超过20万的储户,就不要再傻傻的存定期了

银行人员再次提醒:存款超过20万的储户,就不要再傻傻的存定期了

蓝色海边
2026-03-26 13:44:58
伊朗创造历史,美国难以置信!而一位神秘老人不得不提了!

伊朗创造历史,美国难以置信!而一位神秘老人不得不提了!

华人星光
2026-03-25 11:24:58
38.6万元起拍!南京一民国老四合院上架拍卖

38.6万元起拍!南京一民国老四合院上架拍卖

现代快报
2026-03-26 14:34:07
四川多所中学发布严正声明

四川多所中学发布严正声明

四川省教育厅
2026-03-26 10:57:12
张雪峰不是留几手的爹!?

张雪峰不是留几手的爹!?

八卦疯叔
2026-03-26 11:23:27
张雪峰医疗文件疑遭泄露?苏州市卫生健康委员会:已关注到此事并在处理

张雪峰医疗文件疑遭泄露?苏州市卫生健康委员会:已关注到此事并在处理

护理传真
2026-03-25 15:46:16
张雪峰猝然离世,11岁女儿张姩菡成最大牵挂:他铺完了路,却来不及陪她走

张雪峰猝然离世,11岁女儿张姩菡成最大牵挂:他铺完了路,却来不及陪她走

阿凯销售场
2026-03-26 15:48:07
今年首次超10米!中国第一大淡水湖水位大涨:修建水利有何好处?

今年首次超10米!中国第一大淡水湖水位大涨:修建水利有何好处?

阿凫爱吐槽
2026-03-26 15:54:03
黄天鹅两份角黄素检测声明数据从“本底水平”变为“无”,与打假团队步入诉讼阶段

黄天鹅两份角黄素检测声明数据从“本底水平”变为“无”,与打假团队步入诉讼阶段

新浪财经
2026-03-26 16:24:17
悲催!辽宁一200多斤男子饮酒时突发脑出血,8个月身孕妻子崩溃了

悲催!辽宁一200多斤男子饮酒时突发脑出血,8个月身孕妻子崩溃了

火山詩话
2026-03-26 13:34:59
特朗普:伊朗在谈判但不敢明说,其领导人怕被自己人干掉!伊外长:与美“交流信息” ,没谈判!美媒:万斯将前往巴基斯坦讨论停战

特朗普:伊朗在谈判但不敢明说,其领导人怕被自己人干掉!伊外长:与美“交流信息” ,没谈判!美媒:万斯将前往巴基斯坦讨论停战

每日经济新闻
2026-03-26 09:53:08
广东91岁老人让儿子保管900多万养老钱,儿媳去世前却将300多万分给自己姐姐,老人瞬间傻眼,法院:钱是保管不是赠与,全额返还

广东91岁老人让儿子保管900多万养老钱,儿媳去世前却将300多万分给自己姐姐,老人瞬间傻眼,法院:钱是保管不是赠与,全额返还

观威海
2026-03-18 22:11:07
针对中国的谋划落空,高市被安排“鸿门宴”,并对中日关系表态

针对中国的谋划落空,高市被安排“鸿门宴”,并对中日关系表态

袁周院长
2026-03-26 16:08:54
越打越贵的账单:俄罗斯的“红线”为什么消失了

越打越贵的账单:俄罗斯的“红线”为什么消失了

民间胡扯老哥
2026-03-24 07:16:00
七旬阿婆卖房助女还贷,反而无家可归?女儿喊冤:被她严重影响了生活

七旬阿婆卖房助女还贷,反而无家可归?女儿喊冤:被她严重影响了生活

福建第一帮帮团
2026-03-25 19:38:24
随着朝鲜1-1,泰国2-2,西安邀请赛积分榜出炉:中国男足排名第一

随着朝鲜1-1,泰国2-2,西安邀请赛积分榜出炉:中国男足排名第一

侧身凌空斩
2026-03-25 21:41:35
2026-03-26 17:00:49
新智元 incentive-icons
新智元
AI产业主平台领航智能+时代
14819文章数 66720关注度
往期回顾 全部

科技要闻

Meta高管狂分百亿期权,700名员工却下岗

头条要闻

国防部:日本侵略过所有周边国家 至今都没有真正反省

头条要闻

国防部:日本侵略过所有周边国家 至今都没有真正反省

体育要闻

申京努力了,然而杜兰特啊

娱乐要闻

张雪峰家人首发声 不设追思会丧事从简

财经要闻

长护险谁能享受?享受多少?解答来了

汽车要闻

一汽奥迪A6L e-tron开启预售 CLTC最大续航815km

态度原创

家居
手机
本地
公开课
军事航空

家居要闻

傍海而居 静观蝴蝶海

手机要闻

iPhone「自己打电话」是Bug!苹果终于承认了,怎么回事?

本地新闻

救命,这只酱板鸭已经在我手机复仇了一万遍

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

担心特朗普突然停战 以总理下令48小时尽力摧毁伊设施

无障碍浏览 进入关怀版