ByteDance联手顶尖学府重新定义AI思考：当机器学会分层理解世界|序列|令牌|解耦|预测器

分享至

这项突破性研究由ByteDance Seed团队联合曼彻斯特大学、魁北克AI研究院、清华大学和M-A-P机构共同完成，发表于2026年1月1日，论文编号arXiv:2512.24617v1。对这项研究感兴趣的读者可通过该编号查阅完整论文内容。

现代AI就像一个过度勤奋的学生，无论遇到简单还是复杂的问题，都要花费同样多的时间思考。当你问它"今天天气怎么样"这样的简单问题时，它会动用全部脑力来回答。而当你问它一道复杂的数学题时，它投入的思考力度竟然一模一样。这种"一刀切"的思考方式就像用牛刀杀鸡，既浪费资源又效率低下。

研究团队敏锐地发现了这个问题。他们注意到，人类在理解语言时有着天然的层次感：我们会先把一段话分解成有意义的概念块，然后在这些概念之间建立联系和推理。比如阅读"小明今天买了苹果和橘子"这句话时，我们会自然地将其理解为"小明"、"今天"、"买了"、"苹果和橘子"几个语义单元，而不是逐个字符分析。

基于这一洞察，研究团队提出了动态大概念模型(DLCM)。这个模型的核心创新在于让AI学会自动识别语言中的"概念边界"，然后将计算资源重点投入到这些重要的语义转折点上。就像一个聪明的厨师，会根据食材的重要性分配不同的处理时间：简单的配菜快速处理，主要食材精心烹饪。

更令人兴奋的是，这项研究还引入了全新的压缩感知缩放定律，首次从理论上阐明了如何在固定计算资源下，在令牌级处理和概念级推理之间进行最优分配。研究团队还开发了专门的μP参数化方法，确保这种异构架构能够稳定训练。

在实际测试中，当压缩比设为4时(即平均4个令牌组成一个概念)，DLCM将约三分之一的推理计算重新分配给了更高容量的推理主干网络。结果相当令人振奋：在12个零样本基准测试中，平均准确率提升了2.69%，且推理所需的浮点运算次数保持在同一水平。

一、模型如何学会智能分层思考

传统的大语言模型就像一台按部就班的流水线，对每个文字都投入相同的处理精力。这种做法的问题在于，语言本身具有高度不均匀的信息密度。有些文字组合包含丰富的语义信息，需要深度思考，而有些则相对简单，过度处理反而是资源浪费。

研究团队设计的DLCM采用了四阶段流水线处理方式。首先是编码阶段，一个轻量级编码器负责处理原始令牌，提取细粒度的表示信息。这就像一个初级编辑，先把文章大致过一遍，标记出重要段落。

接下来是动态分割阶段，这是整个系统的核心创新。模型通过测量相邻令牌表示之间的语义差异来识别概念边界。当相邻两个令牌的相似度突然下降时，系统就判断这里可能是一个新概念的开始。这种边界检测完全由模型自主学习，不依赖任何预定义的语言学规则。

第三阶段是概念级推理，这里是计算资源的主要投入点。系统将每个概念段内的令牌通过平均池化合并成统一的概念表示，然后一个高容量的变压器专门对这些压缩后的概念序列进行深度推理。由于序列长度大幅压缩，这个推理模块可以做得更深更宽，专注于高层次的语义理解。

最后是令牌级解码阶段，解码器通过因果交叉注意机制重构令牌级预测。这个阶段的巧妙之处在于，它能够在保持因果关系的前提下，让每个令牌都能获取到经过深度推理的概念信息。

这种设计的精髓在于将"思考什么"和"如何思考"完全分离。传统模型必须在每一层都重复推断高层语义结构，而DLCM通过学习到的边界检测，将计算资源从冗余的令牌处理转移到真正需要推理的概念层面。

二、突破性的压缩感知缩放定律

传统的缩放定律就像一个简单的数学公式，只考虑模型参数总数、数据量和计算资源之间的关系。但对于DLCM这样的层次化模型，情况变得复杂得多：不同层级的计算能力、压缩比例、以及概念推理模块的参数分配，都会影响最终性能。

研究团队提出的压缩感知缩放定律是一个划时代的理论贡献。这个定律的数学表达式为：L(N,D,R,P) = E? + A?????/(N(1-P)+t?????)^δ? + A??_???×R^γ/(NP+t??_???)^δ? + A????/(D+t????)^α。虽然公式看起来复杂，但其含义相当直观：它将模型性能分解为令牌处理效率、概念处理效率和数据规模三个独立因子。

这个定律的关键创新在于引入了压缩比R和概念层参数比例P两个新维度。压缩比R决定了多少个令牌会被合并成一个概念，而参数比例P则决定了多少计算资源分配给概念级推理。通过这个定律，研究人员可以在给定计算预算下，精确计算出最优的架构配置。

为了验证这个缩放定律，研究团队构建了一个包含不同概念层参数比例(30%、50%、70%)和压缩比(2、4、8)的模型网格。所有模型都在2000亿令牌的数据上训练，涵盖了小型(2.74亿参数)、中型(4.68亿参数)和大型(8.33亿参数)三个规模。

实验结果证实了缩放定律的准确性：所有缩放指数在不同模型规模和压缩比下都保持一致，拟合误差控制在0.05以下。更重要的是，这个定律预测的有效计算倍数约为1.4，与标准基线因子1.34高度吻合，证明了理论预测与实证规律的一致性。

三、异构架构的稳定训练技术

训练DLCM这样的异构架构面临着前所未有的挑战。不同于传统的统一宽度变压器，DLCM包含令牌级组件和概念级组件，它们具有不同的隐藏维度。这种差异会导致特征学习动态的不一致，进而引发训练不稳定。

研究团队开发了专门针对异构架构的解耦μP参数化方法。这种方法的核心思想是为不同的组件定义独立的宽度乘数：令牌级组件的宽度乘数为s????? = d?????/d_base，概念级组件的宽度乘数为s??_??? = d??_???/d_base。

在初始化方面，所有隐藏层线性权重的方差都按照相应组件的宽度乘数进行缩放：σ? = σ?_base × s??。这确保了不同宽度组件的激活值保持在相似的量级。学习率的调整遵循类似原理：令牌级组件的学习率为η_base × s??_token，概念级组件的学习率为η_base × s??_concept。

最关键的是输出缩放策略。为了确保最终的logits保持O(1)量级，研究团队在前向传播过程中对最终解码器投影进行了缩放：logits = (1/s_token) × (h_final × W_unemb^T)。

为了验证这种参数化方法的有效性，研究团队采用了两阶段策略：先在8700万参数的代理模型上调优超参数，然后验证其在更大模型上的零样本迁移能力。实验结果表明，从μP预测的学习率偏离会导致性能下降，证实了最优超参数能够有效迁移到更大规模，无需额外调优。

四、全局负载均衡的压缩策略

自然语言具有高度变化的信息密度，这意味着不同文本段落需要不同的压缩粒度。代码往往具有高度结构化的语法，可以压缩得更激进，而技术文献包含密集的概念信息，需要保留更多细节。

为了处理这种变化性，DLCM引入了全局负载均衡机制。与传统的按序列固定压缩不同，这种方法在整个批次级别控制压缩率。系统会跟踪全局期望边界率G_global = (1/|T|)∑p_{i,t}和实际边界率F_global = (1/|T|)∑b_{i,t}，其中T表示分布式批次中的所有令牌。

关键的辅助损失函数设计为：L_aux = (R/(R-1))[(R-1)×F_global×G_global + (1-F_global)×(1-G_global)] - 1。这个函数的巧妙之处在于，它鼓励全局压缩率收敛到目标值1/R，同时允许局部波动。当全局压缩率偏离目标时，损失会增加，迫使模型调整边界预测策略。

研究团队对比了全局正则化与普通正则化的效果。在目标压缩比为4的设置下，全局正则化方法在6项下游任务中的5项都取得了更好性能。更重要的是，全局正则化实现的压缩比(约3.9)远比普通方法(约3.15)更接近目标值4.0。

这种全局策略的关键洞察是：强制每个序列都达到固定压缩比过于严格。真实数据的信息密度变化很大，全局正则化允许模型学习自适应行为：对重复性代码进行更激进的压缩，同时保留密集技术文本的细节，从而在全局预算内有效分配压缩资源。

五、跨注意力优化的工程突破

DLCM的解码器交叉注意机制在理论上需要处理L×M的不规则注意模式，其中L是令牌序列长度，M是概念序列长度。由于令牌到概念的映射长度可变，这种不规则模式给高效实现带来了重大挑战。

直接使用Flex Attention实现这种动态掩码会产生显著开销，因为动态掩码生成和不规则内存访问模式效率低下。研究团队采用了概念复制策略来解决这个问题，该策略类似于分组查询注意(GQA)的思想。

具体来说，对于每个属于概念c_j的令牌t_i，系统会在键/值序列的位置i复制概念特征c_j：K = repeat_interleave(K, segment_lengths)，V = repeat_interleave(V, segment_lengths)。这种转换将键/值长度与查询长度(L)对齐，使得问题变成标准因果自注意，可以利用针对标准因果掩码优化的Flash Attention内核。

研究团队对这种优化策略进行了全面的性能基准测试。测试覆盖了不同序列长度(2K到16K)和隐藏维度(1024、2048、4096)的组合。结果显示，Flash Attention Varlen在所有配置下都显著优于Flex Attention，加速比从1.26×到1.73×不等。

特别值得注意的是性能随序列长度的缩放趋势。在2K序列长度下，平均加速比约为1.44×。当序列长度增加8倍到16K时，平均加速比攀升至1.70×，最高达到1.73×。这种缩放优势表明，Flex Attention的动态掩码生成和不规则内存访问开销随序列长度增长更快，而Flash Varlen的优化内核和规则访问模式在长序列下更加高效。

六、多领域数据的精心构建

为了确保实验的可重现性和公平性，研究团队完全基于开源数据构建了训练语料库，并使用DeepSeek-v3分词器进行标记化。语料库跨越多个领域，包括网络文本(英文和中文)、数学和代码，形成了涵盖语言、事实和推理能力的综合基础。

数据构成的设计服务于两个关键目标。首先是平衡广度和专业化：网络文本提供广泛的自然语言覆盖，而数学和代码数据则增强结构化推理能力。其次，这种多样性对于学习鲁棒的动态分割至关重要。通过让模型接触信息密度差异巨大的领域(如高度结构化的代码语法vs冗长的自然语言散文)，迫使学习到的边界预测器发现能够跨不同任务泛化的内容自适应分割策略。

英文和中文网络文本占据了较大比重，以确保多语言对齐能力。Nemotron-CC提供的英文网络数据占50%(5000亿令牌)，MAP-CC的中文网络数据占25%(2500亿令牌)。专业数据集如MegaMath-Web和OpenCoder-Pretrain分别占10%(1000亿令牌)和15%(1500亿令牌)，用于微调模型对高熵转换的处理能力。

为了证明DLCM的架构优势而非数据整理收益，研究团队并未进行激进的过滤，而是使用与标准开源语料库质量相当的数据。这种设计确保了性能提升主要归因于架构创新，而非数据质量差异。

七、令人瞩目的实验结果分析

研究团队将DLCM与参数匹配的LLaMA架构基线进行了全面对比。两个模型都从零开始在相同的专有数据集上训练，使用相同的全局批次大小、学习率和序列长度。每个模型都在1万亿令牌上训练，确保了公平比较的基础。

DLCM采用编码器-压缩器-解码器架构，具有学习到的概念循环，明确将计算从统一的令牌级处理重新分配到自适应的概念级推理。这种架构偏差意味着性能差异直接反映了语义压缩和边界感知计算分配带来的影响。

整体而言，DLCM实现了43.92%的平均准确率，比基线的41.23%提升了2.69%。然而，这些收益在不同任务间高度不均匀，揭示了推理主导基准与依赖细粒度令牌级对齐任务之间的明显分离。

在推理主导任务中，DLCM取得了一致且往往显著的改进。常识推理任务CommonSenseQA提升1.64%，HellaSwag提升0.67%，OpenBookQA提升3.00%，PIQA提升2.42%，ARC Easy和ARC Challenge分别提升2.61%和1.77%。这些任务的特点是信息密度不均匀，预测难度集中在语义转换而非均匀分布在令牌上。通过压缩局部可预测的span并将大部分模型容量分配给高维概念主干网络，DLCM将计算聚焦在结构显著的区域。

相对而言，在细粒度文本理解任务上出现了轻微退化。BoolQ下降1.47%，RACE下降0.72%。这些基准严重依赖精细的句子级蕴含、极性分析和微妙的词汇线索。编码-压缩-解码范式不可避免地降低了概念内部的令牌级粒度，这可能模糊此类任务所需的微级别区分。重要的是，这种退化是局限性的而非系统性的：虽然边界令牌建模更准确，但中概念位置可能在细粒度精度上有所妥协以获得改进的全局一致性。

知识和多语言基准显示了混合行为。C-Eval受益于全局解析器启用的自适应分割，提升1.71%，而MMLU和CMMLU分别略微退化0.30%和0.24%。这些数据集奖励跨令牌的相对统一事实回忆，为边界感知计算重新分配留下较少机会。这一结果进一步支持了核心主张：DLCM结构上优化用于非均匀信息密度下的推理，而非统一记忆密集型检索。

八、计算分配的深度机制分析

为了深入理解概念压缩如何影响模型行为，研究团队进行了细致的损失分布分析。他们在相同的1.3B参数骨干架构和100B令牌训练子集上，对比了提出的概念模型和标准变压器基线，确保观察到的差异纯粹归因于压缩机制和架构变化。

通过分析概念内相对位置的损失分布，研究发现了一个独特的"U型"改进模式。在概念的前2个位置和第16+位置，概念模型始终优于基线，这表明模型有效捕获了转换语义。通过显式建模概念边界，模型减少了语义单元开始和结束处的歧义性，优于将这些令牌统一处理的基线。

在概念中部位置(大约第4-15位置)，情况变得更加细致。虽然基线模型在这里往往困难重重(绝对损失更高)，但概念模型的表现是混合的。某些中概念区域出现的红色条表明，压缩机制迫使模型牺牲一些细粒度令牌级精度来维持更高级别的语义一致性。

这种重新分配符合研究假设：概念模型牺牲均匀的令牌级可预测性(导致特定内部位置的轻微退化)来获得语义边界和结构关键令牌的优越性能。这种策略性权衡允许模型将容量"花费"在维持全局一致性上，解释了尽管损失减少不均匀但下游性能改进的原因。

九、边界学习的稳定性探索

研究团队深入研究了两种边界预测机制：具有压缩率正则化的学习神经预测器与基于余弦相似度的基于规则预测器。从长度L=8192的序列开始，他们追踪训练期间的平均压缩长度变化。

学习预测器表现出严重的不稳定性：初始压缩到约2000令牌后，压缩长度稳步增加，最终稳定在约4300令牌(1.9×压缩)。这种"向上蔓延"表明模型随时间逐渐学会减少压缩。相比之下，基于规则的预测器展示出卓越的稳定性，迅速收敛到约2000令牌(4×压缩)并在整个训练过程中保持这一水平。

学习预测器的不稳定性源于冲突的优化目标。尽管有旨在维持目标压缩比R的压缩率正则化项L_aux，主要的交叉熵损失产生了更强的梯度，惩罚信息损失并阻止压缩。由于交叉熵损失的梯度幅度远大于正则化项，它最终占主导地位，迫使预测器减少分割。

基于规则的预测器通过固定决策规则避免了这种冲突：p_t = (1-cos(h_t,h_{t+1}))/2，当p_t > τ时插入边界。虽然表示h_t是学习到的，但分割规则本身不受交叉熵损失优化。这种解耦防止了任务损失破坏压缩机制，通过阈值参数τ确保稳定和可控的压缩比。

十、全局正则化的显著优势

为了进一步稳定学习边界预测器，研究团队调查了替代正则化策略：在累积的训练样本而非单个序列上计算压缩比损失。这种全局正则化方法在K个微批次中计算边界统计F_global和G_global。

在目标压缩比R=2的设置下，他们训练了两个2.3B参数模型1T令牌：一个使用每序列正则化("Normal")，一个使用全局正则化("Global Parser")。全局正则化方法在大多数任务上取得了一致更好的性能，并且实现的压缩比(约3.9)远比普通公式更接近目标(4.0)。

关键洞察是强制每个序列固定压缩比过于严格。真实世界数据表现出变化的信息密度。通过将约束放宽到批次级别操作，全局正则化允许模型学习自适应行为：对重复性代码进行更激进压缩，同时保留密集技术文本，有效在全局预算内分配压缩资源。

内容自适应压缩的分析证实了这种自适应行为。在8×目标下，技术英文保留了显著更多令牌每概念(10.58)，相比技术中文(6.09)或代码(6.14)。虽然跨压缩目标的"最优"长度精确排名有所变化，这种变化的存在是关键发现。它确认全局正则化机制成功将压缩目标与严格的每序列约束解耦。模型不是强制统一分段长度，而是基于内容的固有语义密度自适应调整粒度。

说到底，DLCM代表了AI思考方式的根本性转变。传统模型像一个机械化的工人，对每个任务都投入相同的精力，而DLCM更像一个经验丰富的专家，知道在哪里集中注意力，在哪里可以轻松处理。这种智能化的计算分配不仅提高了效率，更重要的是提升了推理能力。

这项研究的意义远超技术本身。它暗示着AI的发展方向不应该仅仅是盲目增加参数或数据量，而应该更加注重计算的智能分配。就像人类大脑进化出了复杂的层次结构来处理不同类型的信息一样，AI系统也需要这种分层思考能力。

未来，我们可能会看到更多基于概念级潜在推理的AI系统，它们能够在效率和能力之间找到更好的平衡点。这不仅对学术研究具有重要意义，对于实际应用来说同样价值巨大：想象一下手机上运行的AI助手能够更智能地分配计算资源，或者云端的AI服务能够以更低的成本提供更强的推理能力。

这项研究为我们打开了一扇通向更高效、更智能AI系统的大门。虽然当前的实验还主要集中在语言理解任务上，但这种层次化思考的理念完全可以扩展到其他AI领域，如图像理解、决策规划和多模态推理。真正令人兴奋的是，这可能只是AI系统学会像人类一样智能思考的第一步。

Q&A

Q1：动态大概念模型DLCM和传统AI模型有什么本质区别？

A：传统AI模型对每个文字都投入相同的计算资源，就像用同样的力气处理简单和复杂问题。而DLCM会自动识别语言中的概念边界，把主要计算资源投入到重要的语义转折点，就像聪明的厨师会根据食材重要性分配处理时间。

Q2：DLCM的压缩感知缩放定律解决了什么问题？

A：这个定律首次从理论上阐明了在固定计算资源下，如何在基础令牌处理和高层概念推理之间进行最优分配。它让研究人员能够精确计算出最佳的模型架构配置，避免了盲目试错的低效方式。

Q3：DLCM在实际应用中能带来什么好处？

A：DLCM在推理密集型任务中表现出色，平均准确率提升2.69%，且计算成本保持同一水平。这意味着未来的AI助手可能更智能地分配计算资源，以更低成本提供更强的推理能力，特别是在需要复杂思考的场景中。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.