网易首页

注册免费邮箱

网易首页 > 网易号 > 正文申请入驻

字节Seed：大概念模型来了，推理的何必是下一个token

2026-01-05 12:51:07　来源: 量子位

北京举报

0

分享至

henry 发自凹非寺
量子位 | 公众号 QbitAI

LLM的下一个推理单位，何必是Token？

刚刚，字节Seed团队发布最新研究——

DLCM（Dynamic Large Concept Models）将大模型的推理单位从token（词）动态且自适应地推到了concept（概念）层级。

DLCM通过端到端地方式学习语义边界，动态地将Token序列分割成概念，在压缩后的概念空间中进行深度推理，并借助因果交叉注意力将概念级推理结果重构为Token级预测

由此，传统LLM中基于均匀、冗余Token信息密度的计算分配，被转化为面向概念的动态推理与自适应算力分配。

在以推理为主的基准任务上，DLCM在将推理阶段FLOPs降低34%的同时，还将平均准确率提升了2.69%

这也意味着，大模型的推理效率并不必然依赖更密集的Token级计算，而可以通过更高层级的语义组织来获得。

接下来，我们具体来看。

分层的下一token预测框架

如上所说，DLCM的核心在于学习动态的Token-概念映射，实现了计算资源的自适应分配。

之所以这样做主要有两方面原因：

一方面，在自然语言中，信息的分布并不是均匀的，而是集中在集中在少数语义转换的节点上。

然而，在当前的LLM中，所有token被统一处理，信息密度不均匀的自然语言消耗了同样的计算量，造成了大量的冗余与模型容量的错配。

另一方面，此前基于潜在推理的框架，如大型概念模型（Large Concept Model, LCM）等，不仅需要单独训练编码器和解码器，还依赖人为划分的固定的、句子级别的粒度，缺乏拓展性与自适应性。

针对这些问题，DLCM通过一种分层的下一token预测框架，将计算重心转移到压缩后的语义空间，实现了更高效的深度推理。

具体来说，这一框架包含四个阶段：

首先，在编码阶段，DLCM通过一个编码器，提取细粒度的Token级表示，捕获局部上下文信息，作为边界检测和最终Token级解码的基础。

接下来，在动态分割阶段，模型基于Token级表示，计算相邻Token之间在潜在空间中的局部不相似性（使用余弦距离），当不相似度超过阈值时，模型判断为一个语义断点（概念边界）。

与固定句子长度不同，DLCM端到端地学习这些边界，实现内容自适应的分割。

它将同一片段内（即同一概念内）的所有Token表示进行均值池化（Mean Pooling），然后投影到更高维度的概念维度上，最终形成一个长度大大压缩的概念序列。

然后，在概念级推理阶段，模型将上面得到的概念序列在压缩空间中进行深度的、高容量的推理，得到经过深度推理和信息整合后的概念表示。

最后，在Token级解码阶段，DLCM利用经过推理的概念表示，重构并预测下一个token。

由此，DLCM通过以上四个步骤，成功地将计算分配从低效的Token-Token交互，转移到高效的Token-概念-Token 交互，实现了计算资源的自适应、结构化利用。

关键技术突破与优化

虽然DLCM架构在设计上实现了Token级和概念级模块的异构，但同时也引入了新的工程和训练挑战。

全局解析器（Global Parser）：内容自适应压缩

DLCM 的核心优势在于它能够根据信息密度动态地划分概念。

例如，对于信息冗余度高的代码或简单文本，可以激进地压缩；对于语义复杂的转折点，则保持较低压缩比。

为实现这一点，研究引入了全局解析器（Global Parser）和辅助损失函数。

这个机制的关键在于：它不要求单个序列严格遵循目标压缩比，而是在整个Batch层面约束平均边界生成率。

这使得DLCM在共享全局压缩比例目标的前提下，实现了随领域变化、随内容波动的自适应分段，从而将计算资源精准地分配到语义最关键的区域。

针对Flash Attention的效率优化

在解码阶段，Token需要通过因果交叉注意力关注其所属的概念。

由于每个概念包含的Token数量是变化的，如果直接实现，会严重依赖效率低下的动态掩码和不规则的内存访问。

针对这一问题，研究引入概念复制（Concept Replication）策略。它将概念特征沿着序列维度复制扩展，使其长度与原始Token序列对齐。

由此，研究将复杂的可变长交叉注意力问题转换为长度对齐、局部恒定的注意力问题，并使其能够利用高度优化的Flash Attention Varlen内核，获得了1.26倍到1.73倍的显著加速。

异构架构的稳定训练

由于DLCM 的Token级组件和概念级骨干网络的宽度不一致，通过上投影连接，无法共享单一有效学习率。

为解决这一问题，研究采用解耦的最大更新参数化，为Token模块和概念模块分配了独立的宽度缩放因子，并发现各组件的有效学习率应与其宽度的倒数成比例缩放。

由此，研究成功地稳定了这种不等宽架构的训练，并实现了零样本超参数迁移，即小型代理模型上找到的最佳学习率可以直接用于训练更大的DLCM模型。

量化最优分配点

除上述优化外，研究还进一步基于scaling law探究了token级处理与概念级推理之间的最优分配。

研究发现，在固定压缩比下，架构效率在中等概念主干占比处达到峰值，而非随概念容量单调提升。

更重要的是，这一最优配置在规模增大时优势愈发明显：随着基线模型变大，在性能对齐的前提下，DLCM可实现越来越显著的FLOPs节省。

在实验阶段，研究采用了与LLaMA论文中报告的相同的全局批次大小、学习率和序列长度，让每个模型都在1T Token上进行训练。

其中，DLCM实现了43.92%的平均准确率，超过了基线模型41.23%的分数，提升了2.69%。

One more thing

这篇论文的一作来自英国曼彻斯特大学的在读博士生Qu Xingwei，师从Chenghua Lin教授。

他的研究方向聚焦于大语言模型（LLMs），主要包括预训练、微调、专家混合（Mixture of Experts）以及System-2大语言模型。

在教育背景方面，他本科毕业于北京航空航天大学，导师为段海滨教授；硕士就读于获慕尼黑工业大学，导师为Daniel Cremers教授。

在读博前，他曾在字节跳动和小鹏汽车担任研究工程师。

[1]https://x.com/GeZhang86038849

[2]https://arxiv.org/abs/2512.24617

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐

热点推荐

编程已死，键盘长草！Claude Code之父对谈Kaparthy，全程爆金句

新智元 2026-02-04 11:41:01
65 跟贴 65
DeepSeek剧透V4架构改写大模型推理格局？

量子位 2026-02-27 16:13:34
12 跟贴 12

华为推出软工代码智能体SWE-Lego，解锁SFT训练极致性能

机器之心Pro 2026-01-13 14:54:45
0 跟贴 0

DistDF：时序预测需要分布对齐——从MSE到联合Wasserstein

机器之心Pro 2026-02-26 14:57:35
0 跟贴 0
杨植麟暂时挺过风暴

虎嗅APP 2026-02-27 17:11:06
2 跟贴 2

VFMTok: Visual Foundation Models驱动的Tokenizer时代来临

机器之心Pro 2025-10-28 18:00:47
1 跟贴 1

DeepSeek发布下一代技术！北大实习生立功

智东西 2026-02-27 12:59:15
92 跟贴 92
订阅【AI文献追踪】，查新省时省力！

医咖会 2026-02-27 19:28:40
0 跟贴 0

精准推理排除炸，稳稳赢3炮！！！

抖球 2026-02-26 01:41:46
0 跟贴 0
中国AI调用量首超美国四款大模型霸榜全球前五

财联社 2026-02-26 19:44:05
6226 跟贴 6226
马年4大顶流模型会师阿里云Coding Plan开工！Token量大管饱

量子位 2026-02-25 23:10:53
3 跟贴 3
为什么猫的形状没有狗多?

果壳 2026-02-27 20:16:19
1 跟贴 1
为什么说在四维空间里，你连个死结都打不成？

安逸安逸 2026-02-27 19:34:40
0 跟贴 0
字节校招200万年薪岗！别人家孩子站上风口，你孩子却只有寒风

留学生日报 2026-02-26 20:40:50
33 跟贴 33
华人天才出走xAI：算力竞赛已死，30美元解锁AI自进化！

新智元 2026-02-27 14:18:25
4 跟贴 4
具身数据战开打！普通人都能上手，边采边筛，只喂机器人爱吃的

量子位 2026-01-12 12:20:02
0 跟贴 0
2026年，大模型训练的下半场属于「强化学习云」

机器之心Pro 2026-01-12 14:03:47
0 跟贴 0
全世界只能用一次的诡计！阿加莎的推理史诗《东方快车谋杀案》

开心奇异果 2026-02-23 09:48:53
2 跟贴 2
媒体：俄乌惨烈的仗或打到2030年双方旨在"耗尽敌方"

中国新闻周刊 2026-02-26 22:44:14
21818 跟贴 21818
连环杀人×烧脑反转! 这本推理看到我血压飙升

卖书狂魔熊猫君 2026-02-25 18:50:49
0 跟贴 0
告别抽卡！一手实测字节刚放出的视频模型Seedance 1.5 pro

机器之心Pro 2025-12-18 17:49:18
0 跟贴 0
谁知道三十万头羊是什么概念？

猫仔观影 2026-02-23 09:12:48
18 跟贴 18
“太恐怖，iPhone半夜自己给陌生人打47分钟电话！”

都市快报橙柿互动 2026-02-25 11:28:41
29365 跟贴 29365
深圳湾公园晚上“黑灯瞎火”被吐槽，公园管理中心回应：为了让鸟儿睡好觉，主要出入口等地保留了基础照明

扬子晚报 2026-02-27 12:33:02
1109 跟贴 1109
DeepSeek深夜发论文，V4前奏来了？联手清北破GPU难题，智能体大爆炸

新智元 2026-02-27 12:03:27
33 跟贴 33
兄妹服务区捡到4万多元现金和首饰，为等失主错过高速免费时间

扬子晚报 2026-02-27 07:44:46
2205 跟贴 2205
AlphaEvolve再进化！DeepMind用AI「养殖」算法，碾压所有人类设计

新智元 2026-02-27 17:10:23
0 跟贴 0
阶跃星辰杀入季后赛，强势跻身AI“新六小虎”第一梯队

量子位 2026-02-27 14:32:24
0 跟贴 0
秦始皇能被称为千古一帝，不是统一六国，而是发明了中国这个概念

崩坏星穹铁道 2026-02-26 06:27:47
0 跟贴 0
司机框架掉落,架子已经被摔坏,于是现场还原一下!

脑洞大开了闹 2026-02-26 17:37:50
0 跟贴 0
极氪公布春节十大猎装旅行路线，揭秘深度自驾游版图

鲁中晨报 2026-02-26 12:29:41
15583 跟贴 15583
清华联手千问重塑归一化范式，让 Transformer 回归「深度」学习

机器之心Pro 2026-02-10 18:50:12
0 跟贴 0
算力救不了AI智商？谷歌新大招终结「随机鹦鹉」争论！

新智元 2026-02-27 05:58:29
0 跟贴 0
多国撤人、航母抵以美伊战争风险急剧升高

环球网资讯 2026-02-27 22:13:54
45 跟贴 45
涡轮风扇发动机模型套件(1)

制造科技 2026-02-27 19:30:03
0 跟贴 0
年前100多元一斤，年后价格腰斩！有湖北人已迫不及待下单

环球网资讯 2026-02-27 09:52:19
156 跟贴 156
初中数学函数方程证明题

天天数理学习分享 2026-02-27 19:36:47
1 跟贴 1
5部高智商犯罪电影，法律+推理硬核烧脑

黑豆观影 2026-02-26 19:00:09
1 跟贴 1
谷歌不相信眼泪，但相信运气

虎嗅APP 2026-02-27 21:16:28
0 跟贴 0
又一国产全模态视频大模型杀入Artificial Analysis榜单Top 2

机器之心Pro 2026-02-27 14:42:39
0 跟贴 0

2026年春晚，释放了3个信号，普通人要清醒

2026年春晚，释放了3个信号，普通人要清醒

老特有话说

2026-02-25 22:03:08

欧尔班认怂？不再阻挠900亿欧元贷款，给泽连斯基发公开信求尊重

欧尔班认怂？不再阻挠900亿欧元贷款，给泽连斯基发公开信求尊重

鹰眼Defence

2026-02-27 12:49:39

警惕！凡是微信里有钱的、绑银行卡的，今后要多注意了

警惕！凡是微信里有钱的、绑银行卡的，今后要多注意了

冷峻视角下的世界

2026-02-26 22:06:04

央行出手了，直接降到零！

达文西看世界

2026-02-27 15:05:32

最可惜的十位革命先烈，每一位都足以改变历史

最可惜的十位革命先烈，每一位都足以改变历史

【历史客栈】

2026-02-25 10:00:31

新加坡住了一年才敢说：被吹上天的居者有其屋，其实是一地鸡毛

新加坡住了一年才敢说：被吹上天的居者有其屋，其实是一地鸡毛

天下霸奇

2026-02-24 08:09:25

7亿成本，《镖人》亏损2亿，吴京不服气，一口气立项了7部武侠片

7亿成本，《镖人》亏损2亿，吴京不服气，一口气立项了7部武侠片

电影票房预告片

2026-02-26 23:39:18

“120未及时搬抬老人延误抢救，急救中心被判赔17万余元”最新：家属已收到赔偿款

“120未及时搬抬老人延误抢救，急救中心被判赔17万余元”最新：家属已收到赔偿款

红星新闻

2026-02-27 19:09:14

场均9.5分，三巨头都带不动你！作为超级状元，你确实快退役了

场均9.5分，三巨头都带不动你！作为超级状元，你确实快退役了

老梁体育漫谈

2026-02-27 23:29:17

年前100多元一斤，年后价格腰斩！有湖北人已迫不及待下单

年前100多元一斤，年后价格腰斩！有湖北人已迫不及待下单

环球网资讯

2026-02-27 09:52:19

吃他汀不能碰牛奶？医生苦劝：不只是牛奶，这6物再馋也要忌嘴

吃他汀不能碰牛奶？医生苦劝：不只是牛奶，这6物再馋也要忌嘴

摇感军事

2026-02-27 09:43:26

震惊！网传广西某设计院普通员工年终奖144000元，月工资86699元

震惊！网传广西某设计院普通员工年终奖144000元，月工资86699元

火山詩话

2026-02-27 12:08:36

岳云鹏早期有多“卑微”，一张德云社旧相片，与君把酒话当年！

岳云鹏早期有多“卑微”，一张德云社旧相片，与君把酒话当年！

放开他让wo来

2026-02-25 22:52:19

特斯拉中国：大量全新 Model 3/Y 现车上架

特斯拉中国：大量全新 Model 3/Y 现车上架

新浪财经

2026-02-27 22:31:13

孔乙己排出九文大钱，相当于现在多少钱？网友：终于算清楚了

孔乙己排出九文大钱，相当于现在多少钱？网友：终于算清楚了

长风文史

2026-02-27 11:00:36

男篮战胜日本队后的思考：周琦曾凡博张镇麟胡明轩还能进国家队吗

男篮战胜日本队后的思考：周琦曾凡博张镇麟胡明轩还能进国家队吗

姜大叔侃球

2026-02-27 10:41:56

55岁主持人李静自曝绝经过程，很快失去性魅力，连男人也没兴趣了

55岁主持人李静自曝绝经过程，很快失去性魅力，连男人也没兴趣了

林轻吟

2026-02-23 07:16:08

男子高速上语音呼叫“关闭阅读灯”，语音助手却误将大灯熄灭致车辆撞上护栏，领克致歉：已更新，行驶状态下只能手动关闭大灯

男子高速上语音呼叫“关闭阅读灯”，语音助手却误将大灯熄灭致车辆撞上护栏，领克致歉：已更新，行驶状态下只能手动关闭大灯

大象新闻

2026-02-27 09:57:17

活了30年才知道，不是东西难用，是你一直用错了！

活了30年才知道，不是东西难用，是你一直用错了！

室内设计师有料儿

2026-02-27 18:32:03

“穷人才这样过生日”，19岁男孩的生日礼物火了，家长用心反被嘲

“穷人才这样过生日”，19岁男孩的生日礼物火了，家长用心反被嘲

妍妍教育日记

2026-02-27 18:32:25

追踪人工智能动态

12209文章数 176397关注度

往期回顾全部

科技要闻

狂揽1100亿美元！OpenAI再创融资神话

头条要闻

东莞纯电公交大面积停运公司5.5亿索赔"砍"至6400万

头条要闻

东莞纯电公交大面积停运公司5.5亿索赔"砍"至6400万

体育要闻

一场必须要赢的比赛，男篮何止击败了裁判

娱乐要闻

郭晶晶霍启刚现身香港艺术节尽显恩爱

财经要闻

沈明高提共富建议百姓持科技股国家兜底

汽车要闻

岚图泰山黑武士版3月上市搭载华为四激光智驾方案

态度原创

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

旅游

游戏

健康

数码

亲子

旅游要闻

通知！四川多家滑雪场陆续闭园

知名舅舅党爆料：索尼克游戏新作有望今年公布

转头就晕的耳石症，能开车上班吗？

数码要闻

蓝宝石发布黑钻、合金脉动S两款RX 9060 XT显卡，2749元起

亲子要闻

孩子感冒一定要硬抗吗？

© 1997-2026 网易公司版权所有 About NetEase | 公司简介 | 联系方法 | 招聘信息 | 客户服务 | 隐私政策 | 不良信息举报 Complaint Center | 廉正举报 | 侵权投诉

无障碍浏览进入关怀版