网易首页 > 网易号 > 正文 申请入驻

字节Seed:大概念模型来了,推理的何必是下一个token

0
分享至

henry 发自 凹非寺
量子位 | 公众号 QbitAI

LLM的下一个推理单位,何必是Token?

刚刚,字节Seed团队发布最新研究——

DLCM(Dynamic Large Concept Models)将大模型的推理单位从token(词) 动态且自适应地推到了concept(概念)层级。



DLCM通过端到端地方式学习语义边界,动态地将Token序列分割成概念,在压缩后的概念空间中进行深度推理,并借助因果交叉注意力将概念级推理结果重构为Token级预测

由此,传统LLM中基于均匀、冗余Token信息密度的计算分配,被转化为面向概念的动态推理与自适应算力分配。

在以推理为主的基准任务上,DLCM在将推理阶段FLOPs降低34%的同时,还将平均准确率提升了2.69%

这也意味着,大模型的推理效率并不必然依赖更密集的Token级计算,而可以通过更高层级的语义组织来获得。

接下来,我们具体来看。

分层的下一token预测框架

如上所说,DLCM的核心在于学习动态的Token-概念映射,实现了计算资源的自适应分配。

之所以这样做主要有两方面原因:

一方面,在自然语言中,信息的分布并不是均匀的,而是集中在集中在少数语义转换的节点上。

然而,在当前的LLM中,所有token被统一处理,信息密度不均匀的自然语言消耗了同样的计算量,造成了大量的冗余与模型容量的错配。

另一方面,此前基于潜在推理的框架,如大型概念模型(Large Concept Model, LCM)等,不仅需要单独训练编码器和解码器,还依赖人为划分的固定的、句子级别的粒度,缺乏拓展性与自适应性。

针对这些问题,DLCM通过一种分层的下一token预测框架,将计算重心转移到压缩后的语义空间,实现了更高效的深度推理。



具体来说,这一框架包含四个阶段:

首先,在编码阶段,DLCM通过一个编码器,提取细粒度的Token级表示,捕获局部上下文信息,作为边界检测和最终Token级解码的基础。

接下来,在动态分割阶段,模型基于Token级表示,计算相邻Token之间在潜在空间中的局部不相似性(使用余弦距离),当不相似度超过阈值时,模型判断为一个语义断点(概念边界)。



与固定句子长度不同,DLCM端到端地学习这些边界,实现内容自适应的分割。

它将同一片段内(即同一概念内)的所有Token表示进行均值池化(Mean Pooling),然后投影到更高维度的概念维度上,最终形成一个长度大大压缩的概念序列 。

然后,在概念级推理阶段,模型将上面得到的概念序列在压缩空间中进行深度的、高容量的推理,得到经过深度推理和信息整合后的概念表示。

最后,在Token级解码阶段,DLCM利用经过推理的概念表示,重构并预测下一个token。

由此,DLCM通过以上四个步骤,成功地将计算分配从低效的Token-Token交互,转移到高效的Token-概念-Token 交互,实现了计算资源的自适应、结构化利用。

关键技术突破与优化

虽然DLCM架构在设计上实现了Token级和概念级模块的异构,但同时也引入了新的工程和训练挑战。

全局解析器(Global Parser):内容自适应压缩

DLCM 的核心优势在于它能够根据信息密度动态地划分概念。

例如,对于信息冗余度高的代码或简单文本,可以激进地压缩;对于语义复杂的转折点,则保持较低压缩比。

为实现这一点,研究引入了全局解析器(Global Parser)和辅助损失函数。



这个机制的关键在于:它不要求单个序列严格遵循目标压缩比 ,而是在整个Batch层面约束平均边界生成率。

这使得DLCM在共享全局压缩比例目标的前提下,实现了随领域变化、随内容波动的自适应分段,从而将计算资源精准地分配到语义最关键的区域。

针对Flash Attention的效率优化

在解码阶段,Token需要通过因果交叉注意力关注其所属的概念。

由于每个概念包含的Token数量是变化的,如果直接实现,会严重依赖效率低下的动态掩码和不规则的内存访问。

针对这一问题,研究引入概念复制(Concept Replication)策略。它将概念特征沿着序列维度复制扩展,使其长度与原始Token序列对齐。



由此,研究将复杂的可变长交叉注意力问题转换为长度对齐、局部恒定的注意力问题,并使其能够利用高度优化的Flash Attention Varlen内核,获得了1.26倍到1.73倍的显著加速。

异构架构的稳定训练

由于DLCM 的Token级组件和概念级骨干网络的宽度不一致,通过上投影连接,无法共享单一有效学习率。

为解决这一问题,研究采用解耦的最大更新参数化,为Token模块和概念模块分配了独立的宽度缩放因子,并发现各组件的有效学习率应与其宽度的倒数成比例缩放。



由此,研究成功地稳定了这种不等宽架构的训练,并实现了零样本超参数迁移,即小型代理模型上找到的最佳学习率可以直接用于训练更大的DLCM模型。

量化最优分配点

除上述优化外,研究还进一步基于scaling law探究了token级处理与概念级推理之间的最优分配。

研究发现,在固定压缩比下,架构效率在中等概念主干占比处达到峰值,而非随概念容量单调提升。

更重要的是,这一最优配置在规模增大时优势愈发明显:随着基线模型变大,在性能对齐的前提下,DLCM可实现越来越显著的FLOPs节省。



在实验阶段,研究采用了与LLaMA论文中报告的相同的全局批次大小、学习率和序列长度,让每个模型都在1T Token上进行训练。



其中,DLCM实现了43.92%的平均准确率,超过了基线模型41.23%的分数,提升了2.69%。

One more thing

这篇论文的一作来自英国曼彻斯特大学的在读博士生Qu Xingwei,师从Chenghua Lin教授。



他的研究方向聚焦于大语言模型(LLMs),主要包括预训练、微调、专家混合(Mixture of Experts)以及System-2大语言模型。

在教育背景方面,他本科毕业于北京航空航天大学,导师为段海滨教授;硕士就读于获慕尼黑工业大学,导师为Daniel Cremers教授。

在读博前,他曾在字节跳动和小鹏汽车担任研究工程师。

[1]https://x.com/GeZhang86038849

[2]https://arxiv.org/abs/2512.24617

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
2026年春晚,释放了3个信号,普通人要清醒

2026年春晚,释放了3个信号,普通人要清醒

老特有话说
2026-02-25 22:03:08
欧尔班认怂?不再阻挠900亿欧元贷款,给泽连斯基发公开信求尊重

欧尔班认怂?不再阻挠900亿欧元贷款,给泽连斯基发公开信求尊重

鹰眼Defence
2026-02-27 12:49:39
警惕!凡是微信里有钱的、绑银行卡的,今后要多注意了

警惕!凡是微信里有钱的、绑银行卡的,今后要多注意了

冷峻视角下的世界
2026-02-26 22:06:04
央行出手了,直接降到零!

央行出手了,直接降到零!

达文西看世界
2026-02-27 15:05:32
最可惜的十位革命先烈,每一位都足以改变历史

最可惜的十位革命先烈,每一位都足以改变历史

【历史客栈】
2026-02-25 10:00:31
新加坡住了一年才敢说:被吹上天的居者有其屋,其实是一地鸡毛

新加坡住了一年才敢说:被吹上天的居者有其屋,其实是一地鸡毛

天下霸奇
2026-02-24 08:09:25
7亿成本,《镖人》亏损2亿,吴京不服气,一口气立项了7部武侠片

7亿成本,《镖人》亏损2亿,吴京不服气,一口气立项了7部武侠片

电影票房预告片
2026-02-26 23:39:18
“120未及时搬抬老人延误抢救,急救中心被判赔17万余元”最新:家属已收到赔偿款

“120未及时搬抬老人延误抢救,急救中心被判赔17万余元”最新:家属已收到赔偿款

红星新闻
2026-02-27 19:09:14
场均9.5分,三巨头都带不动你!作为超级状元,你确实快退役了

场均9.5分,三巨头都带不动你!作为超级状元,你确实快退役了

老梁体育漫谈
2026-02-27 23:29:17
年前100多元一斤,年后价格腰斩!有湖北人已迫不及待下单

年前100多元一斤,年后价格腰斩!有湖北人已迫不及待下单

环球网资讯
2026-02-27 09:52:19
吃他汀不能碰牛奶?医生苦劝:不只是牛奶,这6物再馋也要忌嘴

吃他汀不能碰牛奶?医生苦劝:不只是牛奶,这6物再馋也要忌嘴

摇感军事
2026-02-27 09:43:26
震惊!网传广西某设计院普通员工年终奖144000元,月工资86699元

震惊!网传广西某设计院普通员工年终奖144000元,月工资86699元

火山詩话
2026-02-27 12:08:36
岳云鹏早期有多“卑微”,一张德云社旧相片,与君把酒话当年!

岳云鹏早期有多“卑微”,一张德云社旧相片,与君把酒话当年!

放开他让wo来
2026-02-25 22:52:19
特斯拉中国:大量全新 Model 3/Y 现车上架

特斯拉中国:大量全新 Model 3/Y 现车上架

新浪财经
2026-02-27 22:31:13
孔乙己排出九文大钱,相当于现在多少钱?网友:终于算清楚了

孔乙己排出九文大钱,相当于现在多少钱?网友:终于算清楚了

长风文史
2026-02-27 11:00:36
男篮战胜日本队后的思考:周琦曾凡博张镇麟胡明轩还能进国家队吗

男篮战胜日本队后的思考:周琦曾凡博张镇麟胡明轩还能进国家队吗

姜大叔侃球
2026-02-27 10:41:56
55岁主持人李静自曝绝经过程,很快失去性魅力,连男人也没兴趣了

55岁主持人李静自曝绝经过程,很快失去性魅力,连男人也没兴趣了

林轻吟
2026-02-23 07:16:08
男子高速上语音呼叫“关闭阅读灯”,语音助手却误将大灯熄灭致车辆撞上护栏,领克致歉:已更新,行驶状态下只能手动关闭大灯

男子高速上语音呼叫“关闭阅读灯”,语音助手却误将大灯熄灭致车辆撞上护栏,领克致歉:已更新,行驶状态下只能手动关闭大灯

大象新闻
2026-02-27 09:57:17
活了30年才知道,不是东西难用,是你一直用错了!

活了30年才知道,不是东西难用,是你一直用错了!

室内设计师有料儿
2026-02-27 18:32:03
“穷人才这样过生日”,19岁男孩的生日礼物火了,家长用心反被嘲

“穷人才这样过生日”,19岁男孩的生日礼物火了,家长用心反被嘲

妍妍教育日记
2026-02-27 18:32:25
2026-02-28 00:00:49
量子位 incentive-icons
量子位
追踪人工智能动态
12209文章数 176397关注度
往期回顾 全部

科技要闻

狂揽1100亿美元!OpenAI再创融资神话

头条要闻

东莞纯电公交大面积停运 公司5.5亿索赔"砍"至6400万

头条要闻

东莞纯电公交大面积停运 公司5.5亿索赔"砍"至6400万

体育要闻

一场必须要赢的比赛,男篮何止击败了裁判

娱乐要闻

郭晶晶霍启刚现身香港艺术节尽显恩爱

财经要闻

沈明高提共富建议 百姓持科技股国家兜底

汽车要闻

岚图泰山黑武士版3月上市 搭载华为四激光智驾方案

态度原创

旅游
游戏
健康
数码
亲子

旅游要闻

通知!四川多家滑雪场陆续闭园

知名舅舅党爆料:索尼克游戏新作有望今年公布

转头就晕的耳石症,能开车上班吗?

数码要闻

蓝宝石发布黑钻、合金脉动S两款RX 9060 XT显卡,2749元起

亲子要闻

孩子感冒一定要硬抗吗?

无障碍浏览 进入关怀版