网易首页 > 网易号 > 正文 申请入驻

字节Seed:大概念模型来了,推理的何必是下一个token

0
分享至

henry 发自 凹非寺
量子位 | 公众号 QbitAI

LLM的下一个推理单位,何必是Token?

刚刚,字节Seed团队发布最新研究——

DLCM(Dynamic Large Concept Models)将大模型的推理单位从token(词) 动态且自适应地推到了concept(概念)层级。



DLCM通过端到端地方式学习语义边界,动态地将Token序列分割成概念,在压缩后的概念空间中进行深度推理,并借助因果交叉注意力将概念级推理结果重构为Token级预测

由此,传统LLM中基于均匀、冗余Token信息密度的计算分配,被转化为面向概念的动态推理与自适应算力分配。

在以推理为主的基准任务上,DLCM在将推理阶段FLOPs降低34%的同时,还将平均准确率提升了2.69%

这也意味着,大模型的推理效率并不必然依赖更密集的Token级计算,而可以通过更高层级的语义组织来获得。

接下来,我们具体来看。

分层的下一token预测框架

如上所说,DLCM的核心在于学习动态的Token-概念映射,实现了计算资源的自适应分配。

之所以这样做主要有两方面原因:

一方面,在自然语言中,信息的分布并不是均匀的,而是集中在集中在少数语义转换的节点上。

然而,在当前的LLM中,所有token被统一处理,信息密度不均匀的自然语言消耗了同样的计算量,造成了大量的冗余与模型容量的错配。

另一方面,此前基于潜在推理的框架,如大型概念模型(Large Concept Model, LCM)等,不仅需要单独训练编码器和解码器,还依赖人为划分的固定的、句子级别的粒度,缺乏拓展性与自适应性。

针对这些问题,DLCM通过一种分层的下一token预测框架,将计算重心转移到压缩后的语义空间,实现了更高效的深度推理。



具体来说,这一框架包含四个阶段:

首先,在编码阶段,DLCM通过一个编码器,提取细粒度的Token级表示,捕获局部上下文信息,作为边界检测和最终Token级解码的基础。

接下来,在动态分割阶段,模型基于Token级表示,计算相邻Token之间在潜在空间中的局部不相似性(使用余弦距离),当不相似度超过阈值时,模型判断为一个语义断点(概念边界)。



与固定句子长度不同,DLCM端到端地学习这些边界,实现内容自适应的分割。

它将同一片段内(即同一概念内)的所有Token表示进行均值池化(Mean Pooling),然后投影到更高维度的概念维度上,最终形成一个长度大大压缩的概念序列 。

然后,在概念级推理阶段,模型将上面得到的概念序列在压缩空间中进行深度的、高容量的推理,得到经过深度推理和信息整合后的概念表示。

最后,在Token级解码阶段,DLCM利用经过推理的概念表示,重构并预测下一个token。

由此,DLCM通过以上四个步骤,成功地将计算分配从低效的Token-Token交互,转移到高效的Token-概念-Token 交互,实现了计算资源的自适应、结构化利用。

关键技术突破与优化

虽然DLCM架构在设计上实现了Token级和概念级模块的异构,但同时也引入了新的工程和训练挑战。

全局解析器(Global Parser):内容自适应压缩

DLCM 的核心优势在于它能够根据信息密度动态地划分概念。

例如,对于信息冗余度高的代码或简单文本,可以激进地压缩;对于语义复杂的转折点,则保持较低压缩比。

为实现这一点,研究引入了全局解析器(Global Parser)和辅助损失函数。



这个机制的关键在于:它不要求单个序列严格遵循目标压缩比 ,而是在整个Batch层面约束平均边界生成率。

这使得DLCM在共享全局压缩比例目标的前提下,实现了随领域变化、随内容波动的自适应分段,从而将计算资源精准地分配到语义最关键的区域。

针对Flash Attention的效率优化

在解码阶段,Token需要通过因果交叉注意力关注其所属的概念。

由于每个概念包含的Token数量是变化的,如果直接实现,会严重依赖效率低下的动态掩码和不规则的内存访问。

针对这一问题,研究引入概念复制(Concept Replication)策略。它将概念特征沿着序列维度复制扩展,使其长度与原始Token序列对齐。



由此,研究将复杂的可变长交叉注意力问题转换为长度对齐、局部恒定的注意力问题,并使其能够利用高度优化的Flash Attention Varlen内核,获得了1.26倍到1.73倍的显著加速。

异构架构的稳定训练

由于DLCM 的Token级组件和概念级骨干网络的宽度不一致,通过上投影连接,无法共享单一有效学习率。

为解决这一问题,研究采用解耦的最大更新参数化,为Token模块和概念模块分配了独立的宽度缩放因子,并发现各组件的有效学习率应与其宽度的倒数成比例缩放。



由此,研究成功地稳定了这种不等宽架构的训练,并实现了零样本超参数迁移,即小型代理模型上找到的最佳学习率可以直接用于训练更大的DLCM模型。

量化最优分配点

除上述优化外,研究还进一步基于scaling law探究了token级处理与概念级推理之间的最优分配。

研究发现,在固定压缩比下,架构效率在中等概念主干占比处达到峰值,而非随概念容量单调提升。

更重要的是,这一最优配置在规模增大时优势愈发明显:随着基线模型变大,在性能对齐的前提下,DLCM可实现越来越显著的FLOPs节省。



在实验阶段,研究采用了与LLaMA论文中报告的相同的全局批次大小、学习率和序列长度,让每个模型都在1T Token上进行训练。



其中,DLCM实现了43.92%的平均准确率,超过了基线模型41.23%的分数,提升了2.69%。

One more thing

这篇论文的一作来自英国曼彻斯特大学的在读博士生Qu Xingwei,师从Chenghua Lin教授。



他的研究方向聚焦于大语言模型(LLMs),主要包括预训练、微调、专家混合(Mixture of Experts)以及System-2大语言模型。

在教育背景方面,他本科毕业于北京航空航天大学,导师为段海滨教授;硕士就读于获慕尼黑工业大学,导师为Daniel Cremers教授。

在读博前,他曾在字节跳动和小鹏汽车担任研究工程师。

[1]https://x.com/GeZhang86038849

[2]https://arxiv.org/abs/2512.24617

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
付辛博7岁女儿放寒假,颖儿带娃三亚游玩,月亮看全英文书超厉害

付辛博7岁女儿放寒假,颖儿带娃三亚游玩,月亮看全英文书超厉害

小咪侃娱圈
2026-01-07 09:08:48
全新量产版歼35首飞,绿皮机采用涡扇19?疑似背部留了硬式受油口

全新量产版歼35首飞,绿皮机采用涡扇19?疑似背部留了硬式受油口

国平视野
2026-01-07 09:46:04
天赋被埋没了一辈子是啥体验?网友:学啥都快,放弃也特别快

天赋被埋没了一辈子是啥体验?网友:学啥都快,放弃也特别快

带你感受人间冷暖
2026-01-02 00:10:08
沈祥福、高洪波、杨晨当选北京市足协副主席

沈祥福、高洪波、杨晨当选北京市足协副主席

澎湃新闻
2026-01-07 04:22:04
2025年,内娱最赚钱的10位明星,刘德华第四,第一名让人意外

2025年,内娱最赚钱的10位明星,刘德华第四,第一名让人意外

林雁飞
2026-01-06 13:15:06
四川峨眉山缆车高空骤停,游客:不敢往下看,很害怕;景区回应:突发轻微地震,水电站临时停电所致

四川峨眉山缆车高空骤停,游客:不敢往下看,很害怕;景区回应:突发轻微地震,水电站临时停电所致

台州交通广播
2026-01-06 23:24:14
米粉破防小米紧急取消合作!万能的大熊:这事和我一点关系没有

米粉破防小米紧急取消合作!万能的大熊:这事和我一点关系没有

柴狗夫斯基
2026-01-06 10:39:18
岁辰:一首写给自己的无声音符

岁辰:一首写给自己的无声音符

疾跑的小蜗牛
2025-12-28 21:43:36
这一夜,70岁米雪秒了78岁的汪明荃,才懂穿着得体的含金量有多高

这一夜,70岁米雪秒了78岁的汪明荃,才懂穿着得体的含金量有多高

洲洲影视娱评
2026-01-05 12:41:30
美联储,降息重磅!美股、黄金,突发!

美联储,降息重磅!美股、黄金,突发!

证券时报e公司
2026-01-07 07:47:40
非王皓!王励勤在等一人,奥运冠军将重回国乒,冲击洛杉矶6金王

非王皓!王励勤在等一人,奥运冠军将重回国乒,冲击洛杉矶6金王

卿子书
2026-01-07 08:08:18
比亚迪估计也没想到,方程豹钛7能卖这么好,有谁也在等车?

比亚迪估计也没想到,方程豹钛7能卖这么好,有谁也在等车?

川雨玩车
2026-01-04 20:08:52
郑州“狗熊岭雪乡”开业3天狂揽700多条差评:“棉花假雪、稀泥地、人多物价高”,景区暂停营业;文旅局介入

郑州“狗熊岭雪乡”开业3天狂揽700多条差评:“棉花假雪、稀泥地、人多物价高”,景区暂停营业;文旅局介入

大风新闻
2026-01-06 18:53:06
谷际庆:申花中心是我们与城市、球迷深化情感连接的全新起点

谷际庆:申花中心是我们与城市、球迷深化情感连接的全新起点

懂球帝
2026-01-07 10:35:39
北京八旬老太饿死家中,4年未火化,几个儿子后来落魄不堪

北京八旬老太饿死家中,4年未火化,几个儿子后来落魄不堪

明德阅读
2026-01-05 19:09:20
神权支柱动摇:哈梅内伊密拟逃亡莫斯科预案,革命卫队陷忠诚危机

神权支柱动摇:哈梅内伊密拟逃亡莫斯科预案,革命卫队陷忠诚危机

老马拉车莫少装
2026-01-05 23:23:48
特斯拉突然官宣:26.35万起,新车正式发布!

特斯拉突然官宣:26.35万起,新车正式发布!

高科技爱好者
2026-01-06 22:54:18
千胜何时来?卡莱尔执教生涯达到999胜后步行者遭遇13连败

千胜何时来?卡莱尔执教生涯达到999胜后步行者遭遇13连败

懂球帝
2026-01-07 10:45:10
赖昌星发妻曾明娜现状:逃亡10年后回国,守着3000平老宅安静养老

赖昌星发妻曾明娜现状:逃亡10年后回国,守着3000平老宅安静养老

古书记史
2025-12-12 11:21:38
原来马杜罗被抓前还留了一手!英媒:“最大内鬼”是她?

原来马杜罗被抓前还留了一手!英媒:“最大内鬼”是她?

兵国大事
2026-01-06 17:47:39
2026-01-07 11:44:49
量子位 incentive-icons
量子位
追踪人工智能动态
11977文章数 176356关注度
往期回顾 全部

科技要闻

马斯克杀疯了!xAI官宣200亿美元融资

头条要闻

河北农村居民:"煤改气"后 160平空间燃气费最少8千元

头条要闻

河北农村居民:"煤改气"后 160平空间燃气费最少8千元

体育要闻

全明星次轮票数:东契奇票王 詹皇超KD升西部第8

娱乐要闻

2026年央视春晚彩排:沈腾确定回归

财经要闻

茅台为何要和分销商彻底说拜拜?

汽车要闻

蔚来2025百万台收官 一场迟到的自我修复

态度原创

旅游
教育
亲子
时尚
房产

旅游要闻

临朐文旅新年“开门红”,元旦假期接待游客超10万人次

教育要闻

果脯咋读?噘嘴还是撅嘴?《咬文嚼字》发布“2025年十大语文差错”;快来看看,这些你都读写正确了吗? #咬文嚼字 #语文 #读音 #错别字

亲子要闻

笑发财了!宝妈问网友:给娃买的衣服留不留,不料评论区炸了锅

冬天穿衣既要有温度又要有风度!看看这些穿搭,优雅又显瘦

房产要闻

海珠双冠王!中交天翠以强兑现力+生活温度,筑就长期主义产品

无障碍浏览 进入关怀版