网易首页 > 网易号 > 正文 申请入驻

微信、清华连续自回归模型CALM,新范式实现从「离散词元」到「连续向量」转变

0
分享至

来源:市场资讯

(来源:机器之心)


众所周知,大型语言模型(LLM)的根本运作方式是预测下一个 token(词元),能够保证生成的连贯性和逻辑性,但这既是 LLM 强大能力的「灵魂」所在,也是其枷锁,将导致高昂的计算成本和响应延迟。

可以说,业界「苦」LLM 效率久矣,为了解决这一瓶颈,研究人员进行了多种尝试。

其实从根本上分析,大型语言模型(LLM)的效率是受限于其逐个词元生成的顺序过程。那如果 LLM 预测的不再是「下一个词元」,而是「若干个词元」的话,是不是会带来不一样的效果?

为此,腾讯微信 AI 联合清华大学在新发布论文中提出了一种新方法 —— 连续自回归语言模型(CALM),模型不再预测下一个词元,而是预测下一个连续向量。

具体来看,CALM 使用高保真自编码器将 K 个词元压缩成一个连续向量,并能以超过 99.9% 的准确率从中重构原始词元,将语言建模为一系列连续向量,而非离散词元,从而将生成步骤的数量减少了 K 倍。

从效果上来看,这种方法显著改善性能与计算成本之间的权衡,在更低的计算成本下,性能可以与强大的离散基线模型相媲美。更重要的是,这是一种新的范式,为构建超高效语言模型提供了一种强大且可扩展的途径。


  • 论文链接:https://arxiv.org/pdf/2510.27688

而论文一经发布,就引起了业界热议。

有网友认为,「这可能是人工智能领域的下一个重大范式转变」「如果这种模型能够大规模应用,那么现有的所有语言模型都将过时。」


离散词元:LLM 的效率瓶颈

大语言模型(LLMs)的成功与其高昂的计算成本相伴相生。作者认为,其效率问题的根源,在于当前所有模型都遵循的一个基础范式:在离散的词元(token)序列上进行自回归预测。问题的关键并非自回归机制本身,而在于离散词元的内在局限性。这一局限性体现在两个层面:

  • 首先,离散词元的信息密度极低:以一个 32K 大小的词表为例,每个词元所承载的信息量仅为 15 比特 (log2 词表大小)。即使模型拥有强大的推理和表征能力,它在每一步中也只能产出一个信息量极低的单元,这构成了效率的直接瓶颈。

  • 其次,该信息密度难以扩展:若要让离散词元承载更丰富的语义(如短语),词表规模将指数级增长,使得模型在计算上几乎不可行。离散表示的本质,为单步生成的信息吞吐量设置了上限。

这揭示了一个根本性的矛盾:模型强大的表征能力,与预测任务的过细粒度之间,形成了「强模型、弱任务」的不匹配。我们拥有了参数规模巨大的模型,其能力却被束缚在一个低效、冗余的生成框架之中。

CALM:从离散词元到连续向量

CALM 的核心思想是将语言建模的基础任务从预测离散的词元,转向预测连续的向量。这一范式转移的可行性基于一个高保真度的自编码器(Autoencoder)。它能将一个由 K 个词元组成的文本块压缩为一个稠密的连续向量,并能以超过 99.9% 的准确率从该向量中重建原始词元。

因此,语言模型只需预测代表下一个文本块的连续向量,即可通过自编码器还原回 K 个词元,从而将自回归生成的总步数减少为原来的 1/K。


然而,从离散到连续的转变,也让一些传统方法失效,带来了一系列技术挑战:

  • 向量表示:如何设计自编码器,以产出既能无损重建、又平滑鲁棒的向量表示,以供下游模型学习?

  • 模型训练:向量空间是无限且不可数的,无法直接计算概率分布。如何训练模型来进行向量预测?

  • 性能评估:在无法计算概率的情况下,困惑度不再可用。如何准确地评估模型性能?

  • 可控生成:温度采样等控制生成多样性的技术依赖于对输出概率的显式调整。对黑盒采样的框架,如何实现类似的控制?

围绕这些挑战,作者建立了一套完整的无似然技术体系,使 CALM 这一新范式得以实现。

自编码器

实现 CALM 框架的基础,是构建一个高保真度的自编码器,用以建立离散词元与连续向量之间的双向映射。它由两部分组成:

  • 编码器:将 K 个词元的文本块压缩为一个连续向量。

  • 解码器:将该向量重建为原始的 K 个词元。

这一过程的可行性在于,理论上一个浮点数向量的信息容量远超离散词元。在实践中,作者尝试将 K=4 个词元压缩为向量,仅需 10 个维度便可实现超过 99.9% 的重建准确率。


考虑到,在 CALM 的实际生成流程中,解码器所接收的向量并非来自编码器的「真值」,而是由语言模型预测出的结果。任何生成模型的预测都必然存在误差。如果自编码器只考虑重建,它会学到一个极其「脆弱」的映射,导致微小的预测误差被灾难性地放大,解码出完全无关的文本。

因此,向量表示必须具备鲁棒性(robustness),能够容忍来自预测结果的合理误差。

为实现这一目标,作者的核心策略是将确定性段自编码器升级为变分式的 VAE,使其学习将词元块映射为一个高斯分布,从而平滑向量空间。同时,作者在向量空间上引入 Dropout,迫使自编码器学习一种冗余的、抗干扰的向量表示。

综合这些技术,作者最终构建的自编码器能将 K=4 的词元块映射到一个 128 维的向量中。它能承受标准差约 σ≈0.3 的高斯噪声,同时依然保持超过 99.9% 的重建准确率。

模型训练

通过自编码器,原始的离散词元序列被转换为一个更紧凑的连续向量序列。因此,语言建模的目标也从预测下一个词元,演变为预测这个新序列中的下一个向量:


从离散到连续的转变,带来了一个生成建模上的挑战。标准语言模型依赖 softmax 层计算有限词表上的概率,但这在无限的连续空间中无法实现。

因此,该框架必须转向无似然(likelihood-free)建模。作者的方案是在 Transformer 骨干网络之后,引入一个轻量的生成头(generative head),它的输入是 Transformer 给出的隐状态。

,输出是代表下一个文本块的连续向量

效率是此处的关键。如果取 Diffusion、flow matching 这类模型作为生成头,将需要进行多步迭代生成来预测向量,会抵消 CALM 在减少生成步数上的优势。

因此,生成头最好能具备高质量、单步生成的能力。为此,作者采用了一个基于能量分数(Energy Score)的训练目标。能量分数不依赖于概率密度,而是通过样本间的距离来评估生成分布的质量。对于模型预测的分布 P 和观测到的真值 y,其能量分数为:


该指标巧妙地平衡了两个目标:第一项驱动多样性,鼓励模型生成不同的样本,防止模式坍塌;第二项驱动准确性,使生成结果逼近真实数据。

从统计学角度,能量分数是一种严格准确的评分规则(strictly proper scoring rule),理论上保证了最大化该分数等同于让模型学习真实的数据分布。在实践中,作者通过蒙特卡洛采样来估计能量分数,并将其作为损失函数来训练模型。

在模型结构上,为了使生成头能够产出多样的样本,其预测同时取决于两个输入:来自 Transformer 的确定性隐藏状态(提供上下文),以及一个额外的随机噪声向量(提供随机性)。通过在生成时采样不同的噪声,模型便能从同一个上下文中生成符合条件分布的、多样的输出向量。

在 CALM 架构中,一个关键的设计是:模型预测出下一个向量后,并非直接将其作为下一轮预测的输入。作者发现,模型难以从此类高度压缩的表示中有效提取信息。相反,CALM 框架首先将预测的向量通过解码器还原为离散词元,再将这些词元压缩后作为 Transformer 的输入。这一设计将模型的自回归过程「锚定」在了结构更清晰的离散空间,提供了更稳定的输入信号。


性能评估

由于 CALM 框架无法计算显式概率,传统的困惑度(Perplexity)指标不再适用。因此,我们还需要一个无似然(likelihood-free)的评估方法。

作者引入了经典的 Brier Score 作为解决方案,这一指标最早由气象学家 Glenn W. Brier 在 1950 年提出,用来评估天气预报的准确性,目前已成为评估概率预测校准度(calibration)的标准工具之一。其定义为:


与困惑度类似,Brier 分数的设计使其仅在模型准确拟合数据分布时才能达到最优,这一点可以从其期望值的分解中看出:


尽管 Brier 分数的仍由概率定义,但作者指出,它可以通过蒙特卡洛方法进行无偏估计,且仅需从模型中采样两个样本:


前两项




则通过估计两次采样的「碰撞概率」,来衡量模型预测的多样性(对应项

估计了模型的准确性(对应项 2P (y));而第三项

为了构建一个全面的评估指标,作者将 Brier 分数从单个词元扩展到 n-gram,并最终定义了 BrierLM,即 n=1 至 4 的 Brier-n 分数的几何平均值。BrierLM 是一个通用的评估指标,同样适用于传统语言模型。

通过在标准 Transformer 模型上进行验证,作者发现 BrierLM 与交叉熵损失几乎线性相关(Pearson 相关系数为 - 0.966),表明 BrierLM 可以作为困惑度在无似然场景下的有效替代。


可控生成

最后一个挑战是实现给定温度下的可控生成。传统方法通过调整 logits 来调整输出的概率分布,但对于像 CALM 这样只给出采样器而不提供 logits 的无似然模型,此路不通。

作者通过拒绝采样(rejection sampling)解决了这一难题。以一个简单的例子来说明:当温度 T=1/n 时,目标是使采样概率正比于

,这恰好等同于从模型中连续独立地采样 n 次,且这 n 次结果均为 x 的概率。因此,算法只需从模型中采样 n 次,当且仅当这 n 次采样结果完全相同时才接受该结果,否则便拒绝并重试。

对于更一般的温度 T,作者借鉴伯努利工厂(Bernoulli Factory)理论,将此思想推广为一个通用的拒绝采样算法。

然而,纯粹的拒绝采样算法可能因极高的拒绝率而变得低效。为此,作者进一步提出了一种高效的批处理近似(batch approximation)算法。该算法一次性从模型中采样大量的样本,然后以组合的方式在批内寻找符合条件的重复样本。这种方法极大地提升了样本的利用率。作者证明了该近似算法是渐进无偏的,即随着批处理大小的增加,其输出的样本分布会收敛于精确的目标分布。

实验效果

实验结果显示,CALM 能够建立一个更优的性能 - 计算前沿:例如,一个 371M 参数的 CALM-M 模型,其性能与 281M 的 Transformer 基线相当,但所需的训练 FLOPs 减少了 44%,推理 FLOPs 减少了 34%。这证明 CALM 通过牺牲少量同规模下的性能,换取了显著的计算效率提升,从而能在有限的计算预算下达到更高的性能水平。


实验进一步验证了语义带宽 K 作为一个全新 scale 维度的有效性。作者探究了不同 K 值对模型性能 - 计算权衡的影响。结果显示,随着 K 从 1 增加到 4,模型的计算成本几乎成比例下降,而性能仅有轻微的回落。

这证明了通过提升单步生成的语义密度,是优化语言模型效率的一条高效路径。值得注意的是,当 K=1 时,CALM 的性能落后于其离散基线,这表明 CALM 的架构设计仍有未来优化的空间。


为了验证生成头的设计选择,作者对比了三种连续生成方案:本文使用的能量分数、扩散模型(Diffusion)与流匹配模型(Flow Matching)。实验表明:

  • 扩散模型在该任务上表现不佳。

  • 流匹配模型虽然初期收敛更快,但最终的性能上限低于能量模型。

  • 能量分数方法不仅达到了最高的性能,且能够在单步内完成高质量生成,而另外两者则依赖于迭代采样。


结语

作者也指出了该框架未来的多个关键研究方向:首先,作为框架基石的自编码器可以被设计得更懂「语义」,而不仅是关注重建;核心生成模型也可以探索更强大的端到端架构与训练目标;在采样层面,需要研究更轻量高效的算法以降低推理开销。

更宏观地,一个重要的方向是建立包含语义带宽 K 的全新缩放定律。

最后,从离散到连续的范式转移,也要求学术界重新改造现有的算法生态,例如如何将强化学习、知识蒸馏等技术适配到这个无似然的框架中。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
随着樊振东4-1,林高远4-2,全运会男单8强定4席,王楚钦今晚出战

随着樊振东4-1,林高远4-2,全运会男单8强定4席,王楚钦今晚出战

侃球熊弟
2025-11-12 13:28:50
2-1首胜、2-1大逆转!ATP总决赛一夜乱了:阿卡2连胜或爆冷出局!

2-1首胜、2-1大逆转!ATP总决赛一夜乱了:阿卡2连胜或爆冷出局!

大秦壁虎白话体育
2025-11-12 08:42:15
93岁母亲被亲儿子暴打后续,女儿曝原因,邻居曝经常听到老人哭

93岁母亲被亲儿子暴打后续,女儿曝原因,邻居曝经常听到老人哭

振华观史
2025-11-12 08:31:50
四川马尔康市红旗桥垮塌:系山体变形加剧滑塌造成 无人员伤亡

四川马尔康市红旗桥垮塌:系山体变形加剧滑塌造成 无人员伤亡

新京报
2025-11-11 20:23:08
反中乱港必须严惩!香港中文大学段崇智,他不只要下台,还要问罪

反中乱港必须严惩!香港中文大学段崇智,他不只要下台,还要问罪

文史旺旺旺
2025-11-10 21:16:04
日本投降后,躲进长白山的2万日军和1万妇女,他们最终结局如何?

日本投降后,躲进长白山的2万日军和1万妇女,他们最终结局如何?

兴趣知识
2025-11-12 08:29:13
许金花,死刑!

许金花,死刑!

鲁中晨报
2025-11-12 06:59:01
北京退休老教授在家养病整整10年,民警破门后,直接愣在原地

北京退休老教授在家养病整整10年,民警破门后,直接愣在原地

罪案洞察者
2025-05-09 09:52:30
再破纪录!全运会男子200自:张展硕夺金,潘展乐摘铜,孙杨犯规

再破纪录!全运会男子200自:张展硕夺金,潘展乐摘铜,孙杨犯规

全景体育V
2025-11-12 19:12:16
江苏企退养老金比其他省份低?差距真相被谁揭开?

江苏企退养老金比其他省份低?差距真相被谁揭开?

三农老历
2025-11-12 15:23:08
破产之后,王中磊仍住别墅,搬家后院子冷清,妻子感叹往日不再

破产之后,王中磊仍住别墅,搬家后院子冷清,妻子感叹往日不再

晓楖科普
2025-11-12 16:01:37
记者:米兰将与莱万经纪人会面讨论转会,伊布支持这一交易

记者:米兰将与莱万经纪人会面讨论转会,伊布支持这一交易

懂球帝
2025-11-12 17:41:06
又一则励志新闻翻车了!

又一则励志新闻翻车了!

清书先生
2025-10-21 15:51:40
172cmD杯女孩,撩走肌肉猛男,网友:没X生活的我哭晕了…

172cmD杯女孩,撩走肌肉猛男,网友:没X生活的我哭晕了…

健身迷
2025-10-16 10:10:40
扎心!浙江一女子吐槽老公每月给9000元不够花 每天伙食费都要200

扎心!浙江一女子吐槽老公每月给9000元不够花 每天伙食费都要200

热心市民小黄
2025-11-12 11:58:48
日本叫嚣“武力保台”,中方“斩首警告”,美媒公开中国导弹库存

日本叫嚣“武力保台”,中方“斩首警告”,美媒公开中国导弹库存

纾瑶
2025-11-11 19:02:43
又是4-0,陈梦轻松晋级;丢掉1局,孙颖莎挺进8强,下轮对手定了

又是4-0,陈梦轻松晋级;丢掉1局,孙颖莎挺进8强,下轮对手定了

萌兰聊个球
2025-11-12 13:47:11
男性衰老的标志:1臭、2大、2小,如果你没有,说明还年轻!

男性衰老的标志:1臭、2大、2小,如果你没有,说明还年轻!

荷兰豆爱健康
2025-10-31 14:56:32
你所不知道的,全面抗战时期,国民政府为中共提供超过3000万军费

你所不知道的,全面抗战时期,国民政府为中共提供超过3000万军费

老谢谈史
2025-11-09 04:34:28
“老破小”正在成为租金下跌的“重灾区”

“老破小”正在成为租金下跌的“重灾区”

蓝鲸新闻
2025-11-12 09:48:07
2025-11-12 21:16:49
新浪财经 incentive-icons
新浪财经
新浪财经是一家创建于1999年8月的财经平台
1364465文章数 4457关注度
往期回顾 全部

科技要闻

前阿里人亲述: “经济上行”期双11什么样

头条要闻

1家5口被邻居杀害:3岁孩子都没放过 行凶全程仅2分钟

头条要闻

1家5口被邻居杀害:3岁孩子都没放过 行凶全程仅2分钟

体育要闻

消磨你上千小时的足球游戏,走过第20年

娱乐要闻

再王珞丹和白百何 明白两人"差别"在哪

财经要闻

段永平最新访谈:聊企业经营 投资理念

汽车要闻

7座皆独立座椅/新增5座版 体验第三代吉利豪越L

态度原创

时尚
本地
教育
公开课
军事航空

“廓形穿衣法”太火了!掌握这5个法则让你美一整个冬天

本地新闻

云游安徽 | 凌滩玉魄淬千年,诗意钢城马鞍山

教育要闻

中关村二小西山分校科普作家进校园暨出版集团授牌捐书活动启幕

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

美媒爆出猛料 "北溪"破坏行动由扎卢日内指挥

无障碍浏览 进入关怀版