网易首页 > 网易号 > 正文 申请入驻

无Tokenizer时代真要来了?Mamba作者再发颠覆性论文,挑战Transformer

0
分享至

内容来自:机器之心

Tokenization,一直是实现真正端到端语言模型的最后一个障碍。

我们终于摆脱 tokenization 了吗?

答案是:可能性无限大。

最近,Mamba 作者之一 Albert Gu 又发新研究,他参与的一篇论文《 Dynamic Chunking for End-to-End Hierarchical Sequence Modeling 》提出了一个分层网络 H-Net,其用模型内部的动态分块过程取代 tokenization,从而自动发现和操作有意义的数据单元。

「这一研究预示着 Tokenizers 正在退场,智能字节分块(Smart Byte Chunks)开始登场。或许无需 Tokenizer 训练的时代真的要来了 —— 可能性无限大。」X 知名博主 Rohan Paul 表示道。

现阶段,Tokenization 仍然是语言模型和其他顺序数据不可或缺的组成部分,因为它能够压缩和缩短序列。然而 Tokenization 存在许多缺点,如可解释性差,在处理复杂语言(如中文、代码、DNA 序列)时性能下降等。

迄今为止,尚未有任何端到端的无 tokenizer 模型在计算预算相匹配的情况下超越基于 tokenizer 的语言模型的表现。最近,已经有研究开始致力于在自回归序列模型中突破 Tokenization 限制。

在此背景下,来自 CMU、 Cartesia AI 等机构的研究者提出了一系列新技术,通过动态分块机制实现内容与上下文自适应的分割策略,该机制可与模型其他部分联合学习。将这一机制融入显式分层网络(H-Net)后,原本隐含分层的「tokenization–LM–detokenization」流程可被完全端到端的单一模型取代。

在计算资源和数据量对等的条件下,仅采用单层字节级分层的 H-Net 模型,其表现已优于基于 BPE token 的强 Transformer 语言模型。通过多级分层迭代建模不同抽象层级,模型性能得到进一步提升 —— 这不仅展现出更优的数据规模效应,更能媲美两倍规模的基于 token 的 Transformer 模型

在英语预训练中,H-Net 展现出显著增强的字符级鲁棒性,并能定性学习有意义的、数据依赖的分块策略,全程无需启发式规则或显式监督。

最后,在 tokenization 启发式方法效果较弱的语言和模态(如中文、代码或 DNA 序列)中,H-Net 相比 tokenization 流程的优势进一步扩大(数据效率较基线提升近 4 倍),这证明了真正端到端模型从未经处理数据中实现更优学习和扩展的潜力。

论文地址:https://arxiv.org/pdf/2507.07955v1

没有 Tokenization 的端到端序列建模

本文提出了一种端到端的分层网络(H-Net),通过递归、数据依赖的动态分块(DC,dynamic chunking)过程压缩原始数据(见图 1)。H-Net 在保持与 token 化流程相同效率的同时,通过用从数据中学习的内容感知和上下文依赖的分割替代手工启发式方法,显著提高了建模能力。

分层处理

H-Net 采用了分层架构,其工作流程分为三步:

  • 精细处理:先用小型编码器网络处理原始数据(如逐个字节 / 字符);

  • 压缩抽象:将数据压缩下采样后,交给主网络(可理解为大脑核心)处理;

  • 还原输出:最后上采样并通过解码器还原到原始精度。

这种设计形成了天然的认知分层 —— 外层捕捉细粒度的模式,内层处理抽象概念。

关键是,主网络包含了大部分参数,并且可以适配任何标准架构,例如 Transformer 或状态空间模型(SSM)。

动态分块

H-Net 的核心是动态分块(DC)机制,它位于主网络与编码器 / 解码器网络之间,用于学习如何分割数据,同时使用标准的可微优化方法。DC 由两种互补的新技术组成:

(i) 路由模块,通过相似度评分预测相邻元素之间的边界;

(ii) 平滑模块,使用路由器的输出插值表示,通过减弱不确定边界的影响,显著提高学习能力。

通过将这些技术与一个新的辅助损失函数结合,并利用现代基于梯度的离散选择学习技术,DC 使得 H-Net 能够以完全端到端的方式学习如何压缩数据。

信号传播

本文还引入了几种架构和训练技术,以提高端到端优化过程中的稳定性和可扩展性。这些技术包括:(i) 精心布置的投影层和归一化层,以平衡交互子网络之间的信号传播;(ii) 根据每层的维度和有效批次大小调整其优化参数。

总的来说,H-Net 学习了与主干网络联合优化的分割策略,基于上下文信息动态地将输入向量压缩成有意义的数据块。

H-Net 代表了第一个真正的端到端、无 tokenizer 的语言模型:通过一个动态分块阶段,字节级的 H-Net 在超过 10 亿参数的规模下,达到了与强大的 BPE token 化 Transformer 相当的困惑度和下游性能。

从经验上看,动态分块模块自然地将数据压缩到与 BPE tokenizer 相似的分辨率(每块 4.5-5 字节),并且在没有任何外部监督或启发式方法的情况下,定性地学习到有意义的边界。

实验及结果

实验中,本文采用的主要语言模型架构如下所示,如 MambaByte 是使用纯 Mamba-2 层的各向同性模型。

训练曲线。图 3 显示了 Large 和 XL 规模模型在整个训练过程中的验证 BPB 指标。

在较大规模上,本文注意到:

所有各向同性模型在性能上都远逊色于分层模型。在这些模型中,MambaByte 明显优于 LlamaByte。

SpaceByte 明显逊色于 SpaceByte++,这一结果验证了本文在外部网络中使用 Mamba 的有效性。SpaceByte++ 又比 H-Net(space)差,表明本文提出的改进信号传播技术的有效性。

H-Net(space)是一个非常强大的模型,达到了与 BPE Transformer 相当的性能,验证了数据依赖的分块策略与精心设计的分层架构的效果。

表 2 展示了不同模型在多个下游基准测试上的零样本准确率。

SpaceByte++、H-Net(space)和 H-Net(1-stage)在大规模上与 BPE Transformer 的性能相似,在 XL 规模上稍微超越了 BPE Transformer。

表 3 评估了模型在 HellaSwag 上的鲁棒性。与所有基准模型相比,H-Net(2-stage)显著提高的鲁棒性。

图 4 提供了 H-Net(1-stage)和 H-Net(2-stage)动态绘制的边界的可视化图。这些可视化提供了关于模型如何决定边界的几个重要见解。

即使使用 Llama3 tokenizer,本文发现 H-Net(2-stage)在中文和代码处理上,比 BPE Transformer 和 H-Net(space)具有更好的扩展性(图 5),并且在衰退阶段后实现了更低的压缩率(表 4)。

之前的研究已经证明,SSM 在 DNA 序列建模上比 Transformer 表现更好。实验(表 5)也验证了这一点:即使换成 Mamba-2 作为主网络,SSM 的优势仍然存在。

实际上,通过直接比较训练稳定阶段的困惑度曲线(图 6),本文发现 H-Net 模型在数据量仅为 3.6 倍的情况下,能够达到与各向同性模型相似的性能,这一发现适用于两种主网络架构的选择。

最后,Albert 还撰写了精彩的博客文章,介绍关于 H-Net 的幕后故事和精彩见解。感兴趣的读者可以前去阅读。

博客地址:https://goombalab.github.io/blog/2025/hnet-past/

了解更多内容,请参考原论文。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
浙江18岁小伙爱上40岁女上司,并认作干妈,去其家中借宿酿成惨剧

浙江18岁小伙爱上40岁女上司,并认作干妈,去其家中借宿酿成惨剧

泽泽先生
2025-04-07 17:41:46
董宇辉麻黄鸡风波再起,央媒言辞犀利锐评,句句戳到中年人心坎里

董宇辉麻黄鸡风波再起,央媒言辞犀利锐评,句句戳到中年人心坎里

削桐作琴
2026-01-25 14:16:57
一百年都不允许乌克兰加入欧盟:匈牙利为何总和乌克兰死磕?

一百年都不允许乌克兰加入欧盟:匈牙利为何总和乌克兰死磕?

澎湃新闻
2026-01-26 14:57:15
万万没想到!35岁杨颖兜兜转转干回“老本行”,成了内娱最大笑话

万万没想到!35岁杨颖兜兜转转干回“老本行”,成了内娱最大笑话

番剧分享录
2026-01-26 15:07:07
谷爱凌回应再次代表中国参加冬奥,上届其余30名归化选手全部无缘

谷爱凌回应再次代表中国参加冬奥,上届其余30名归化选手全部无缘

米修体育
2026-01-25 19:09:48
表面谦谦君子,实则流氓头子,这五位男星表里不一

表面谦谦君子,实则流氓头子,这五位男星表里不一

东方不败然多多
2026-01-25 12:23:05
添加剂只是冰山一角!央视曝光!真别再吃了!40批食品抽检不合格

添加剂只是冰山一角!央视曝光!真别再吃了!40批食品抽检不合格

阿莱美食汇
2026-01-26 13:40:22
国台办果然没看错,郑丽文真面目被彻底揭露!小算盘到此为止了

国台办果然没看错,郑丽文真面目被彻底揭露!小算盘到此为止了

比利
2026-01-23 12:41:53
公司一把手裁员能多随便?网友:西安一家电缆公司才是裁员天花板

公司一把手裁员能多随便?网友:西安一家电缆公司才是裁员天花板

带你感受人间冷暖
2026-01-25 00:05:08
闫学晶风波终于收场,6个男人惨遭牵扯,儿媳与继女不好过

闫学晶风波终于收场,6个男人惨遭牵扯,儿媳与继女不好过

乡野小珥
2026-01-26 12:39:45
末节4分苦吞4连败!曝杨鸣已经下课,辽宁球迷评论区炸锅,太讽刺

末节4分苦吞4连败!曝杨鸣已经下课,辽宁球迷评论区炸锅,太讽刺

后仰大风车
2026-01-26 07:10:10
家长的控制欲能有多变态?网友:隔着屏幕都能感觉到这种窒息

家长的控制欲能有多变态?网友:隔着屏幕都能感觉到这种窒息

带你感受人间冷暖
2026-01-23 00:15:05
上海炒股冠军肺腑之言:如果接下来迎来牛市,不妨死啃这两根均线

上海炒股冠军肺腑之言:如果接下来迎来牛市,不妨死啃这两根均线

股经纵横谈
2026-01-24 17:15:39
哈梅内伊:必须不惜一切手段镇压抗议

哈梅内伊:必须不惜一切手段镇压抗议

桂系007
2026-01-25 22:34:05
原子弹炸后百年内寸草不生,今广岛却住满了人,看看专家怎么说?

原子弹炸后百年内寸草不生,今广岛却住满了人,看看专家怎么说?

浩渺青史
2026-01-23 05:38:56
2点原因!杨鸣坚决辞职,签不来胡金秋前队友,赵继伟无心恋战

2点原因!杨鸣坚决辞职,签不来胡金秋前队友,赵继伟无心恋战

体坛大事记
2026-01-26 11:30:06
张艺谋镜头下的美人,杨幂第四,章子怡仅第二,第一化不化妆没差

张艺谋镜头下的美人,杨幂第四,章子怡仅第二,第一化不化妆没差

查尔菲的笔记
2026-01-25 14:43:40
1936 钱壮飞乌江失踪成谜,寻 50 年 1986 金沙县考证结局唏嘘

1936 钱壮飞乌江失踪成谜,寻 50 年 1986 金沙县考证结局唏嘘

磊子讲史
2026-01-08 15:47:38
玩笑开大了?伊朗宣布1万公里洲际导弹试射成功,美国:没探测到

玩笑开大了?伊朗宣布1万公里洲际导弹试射成功,美国:没探测到

科普100克克
2026-01-23 17:58:47
碎三观!刚收未婚夫18万彩礼,武汉25岁姑娘扭头给外国前男友留言

碎三观!刚收未婚夫18万彩礼,武汉25岁姑娘扭头给外国前男友留言

火山诗话
2026-01-26 07:47:27
2026-01-26 15:35:00
学术头条
学术头条
致力于学术传播和科学普及,重点关注AI4Science、大模型等前沿科学进展。
1430文章数 5081关注度
往期回顾 全部

科技要闻

印奇再上牌桌,阶跃融资50亿

头条要闻

伊朗最高领袖哈梅内伊转入地堡 日常事务交由儿子接管

头条要闻

伊朗最高领袖哈梅内伊转入地堡 日常事务交由儿子接管

体育要闻

叛逆的大公子,要砸了贝克汉姆这块招牌

娱乐要闻

张雨绮被实名举报代孕、插足婚姻

财经要闻

从美式斩杀线看中国社会的制度韧性构建

汽车要闻

宾利第四台Batur敞篷版发布 解锁四项定制创新

态度原创

本地
游戏
时尚
家居
公开课

本地新闻

云游中国|格尔木的四季朋友圈,张张值得你点赞

SLG×RTS 《王于兴师》将于2月6日开启Steam Demo测试!同步释出游戏宣传片

伊姐周日热推:电视剧《太平年》;电视剧《暗恋者的救赎》......

家居要闻

流韵雅居,让复杂变纯粹

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版