网易首页 > 网易号 > 正文 申请入驻

艾伦人工智能研究所实现字节级语言模型突破

0
分享至


这项由艾伦人工智能研究所的Benjamin Minixhofer等研究团队领导的突破性研究发表于2025年12月17日,该研究首次成功开发出了能与传统语言模型竞争的字节级语言模型Bolmo,并提出了创新的"字节化"训练方法。有兴趣深入了解的读者可以通过论文编号arXiv:2512.15586查询完整研究论文。

传统的人工智能语言模型就像一个只认识"词汇卡片"的学生,它们把文字切分成固定的词汇片段来理解语言,这种方法被称为"子词标记化"。然而这种方式有个致命缺陷:它无法真正理解每个字母或汉字的含义,就像一个人只能认识整个单词却不懂字母一样。更糟糕的是,由于词汇表是固定的,当遇到新语言或生僻字时,模型就会束手无策。

艾伦研究所的科学家们想出了一个革命性的解决方案:让AI模型直接学习最基本的字节单位,就像教孩子从认识每个字母开始学习阅读一样。他们开发的Bolmo模型能够处理UTF-8字节这种最基础的文字编码单位,彻底绕过了传统方法的局限性。

这项研究的核心创新在于一种名为"字节化"的训练策略。研究团队没有从零开始训练一个全新的字节级模型,而是巧妙地将已经成熟的子词模型转换成字节级模型。这个过程就像把一个习惯看整本书的人训练成能够逐字逐句仔细阅读的高手,既保留了原有的理解能力,又获得了更精细的文字感知能力。

Bolmo的架构设计充满了工程学的智慧。它采用了一种叫做"潜在标记器语言模型"的结构,简单来说就是在模型内部建立了一个动态的"文字组织系统"。这个系统包含一个轻量级的本地编码器来处理字节信息,一个深度的全局模型进行核心计算,以及一个边界预测器来决定如何将字节组合成有意义的文字块。

研究团队在边界预测方面做出了重要突破。传统方法只能根据已经看到的文字来决定在哪里分割,就像一个人只能根据已读内容来猜测下一个词的结束位置。而Bolmo采用了"非因果边界预测"技术,允许模型提前"偷看"一个字节的未来信息来做出更准确的分割决定。这种方法显著提升了模型理解文字结构的能力。

训练过程被精心设计为两个阶段。第一阶段是"子词到字节蒸馏",研究团队让Bolmo学习模仿原始子词模型的行为,这个过程只需要消耗不到1%的传统预训练数据量。就像让一个学生先通过模仿老师的解题方法来掌握基础技能。第二阶段是端到端训练,让模型在保持原有能力的基础上充分发挥字节级处理的优势。

实验结果令人振奋。Bolmo在字符理解任务上的表现远超传统模型,准确率提升幅度达到了惊人的程度。在CUTE字符理解测试中,Bolmo 7B模型达到了78.6%的准确率,而对应的传统模型只有56.9%。在编程任务方面,Bolmo也展现出了独特优势,虽然单次正确率略低,但在生成多个候选答案时的成功率更高,说明它能产生更多样化的解决方案。

更令人惊喜的是,Bolmo还具备了传统模型无法比拟的灵活性。研究团队发现可以通过调整训练策略来提高模型的推理速度,实现性能与效率之间的灵活平衡。这种能力就像拥有了一个可以根据需要调节"阅读速度"的智能系统,在需要精确理解时放慢速度,在需要快速处理时提高效率。

研究团队还发现了一个意外的惊喜:可以通过"任务算术"的方式将现有的指令跟随模型无缝迁移到字节化模型上。这意味着不需要重新训练,就能让字节化模型获得各种专门技能。在IFEval测试中,通过这种方法改进的Bolmo模型性能从31.1%跃升至67.4%,几乎达到了原始指令模型66.9%的水平。

为了验证模型的实际应用潜力,研究团队进行了大量对比实验。他们将Bolmo与其他知名字节级模型如EvaByte、TFree-Hat和BLT进行了全面比较。结果显示,Bolmo在几乎所有测试类别中都取得了最佳成绩,包括数学推理、多选题问答、字符理解等各个方面。特别是在STEM相关任务上,Bolmo 7B比BLT 7B高出了16.5%的绝对分数。

研究还深入探讨了不同架构选择对模型性能的影响。通过详细的消融实验,团队证明了非因果边界预测的关键作用,以及两阶段训练策略的必要性。他们发现,虽然第二阶段训练不是绝对必需的,但它能显著改善模型的最终性能。

从技术实现角度来看,Bolmo在保持与原模型相近参数量的同时实现了功能升级。Bolmo 1B版本比原始OLMo 2 1B少了约1000万参数,而7B版本比Olmo 3 7B多了约3.3亿参数,参数变化幅度都在可接受范围内。

推理效率方面的测试结果同样令人鼓舞。在相同压缩率下,Bolmo的解码吞吐量约为125字节/秒,而对应的子词模型为150字节/秒,差距并不显著。更重要的是,通过提高压缩因子,Bolmo可以在保持合理性能的前提下获得更快的推理速度,这是传统子词模型难以实现的。

研究团队特别强调了字节化方法的广泛适用性。这种技术不仅能应用于英语模型,还能有效处理多语言文本,解决了传统方法在非英语语言上的效率问题。通过在EXECUTE多语言字符理解基准测试中的优异表现,Bolmo证明了字节级处理在跨语言应用中的巨大潜力。

值得注意的是,这项研究还为未来的发展方向指明了道路。研究团队提出了多个有趣的扩展方向,包括探索更大的补丁大小和本地模型容量的组合、多字节预测技术、专门的采样方法等。他们还指出,字节级模型在批量推理优化方面仍有改进空间,这为后续研究提供了明确目标。

从更广阔的视角来看,这项研究代表了人工智能语言模型发展的一个重要里程碑。它不仅解决了传统方法的技术局限,还为构建更加通用、灵活的语言理解系统奠定了基础。随着大语言模型在各行各业的广泛应用,这种能够精确理解文字细节的技术将在文档处理、代码生成、多语言交流等领域发挥重要作用。

说到底,Bolmo的成功证明了一个重要观点:有时候回到最基础的方法反而能取得意想不到的突破。就像学习语言一样,从最基本的字母或字节开始,虽然看起来更复杂,但最终能建立更深入、更灵活的理解能力。这项研究不仅为字节级语言模型的实用化铺平了道路,也为整个人工智能领域探索新的技术路径提供了宝贵经验。随着技术的不断完善,我们有理由相信,这种更精细的文字理解能力将为人工智能带来更多可能性,让机器在理解和生成人类语言方面变得更加智能和可靠。

Q&A

Q1:Bolmo字节级语言模型与传统语言模型有什么区别?

A:传统语言模型使用子词标记化,将文字切分成固定词汇片段处理,就像只认识词汇卡片的学生。而Bolmo直接处理UTF-8字节这种最基础的文字编码单位,能够真正理解每个字母和字符,类似从字母开始学习阅读。这使得Bolmo在字符理解、跨语言处理等方面表现更优异。

Q2:字节化训练方法是如何工作的?

A:字节化是一种两阶段训练策略。第一阶段进行"子词到字节蒸馏",让Bolmo学习模仿原始子词模型的行为,消耗不到1%的传统预训练数据量。第二阶段进行端到端训练,让模型充分发挥字节级处理优势。这种方法避免了从零开始训练,大大提高了效率。

Q3:Bolmo在实际应用中表现如何?

A:Bolmo在多项测试中表现优异。在字符理解任务中,准确率从传统模型的56.9%提升到78.6%。在STEM任务上比其他字节级模型高出16.5%。在编程任务中生成更多样化的解决方案。推理速度与传统模型接近,还可以通过调整策略实现速度与性能的灵活平衡。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
VS Code 重大更新:Agent Skills完美支持!

VS Code 重大更新:Agent Skills完美支持!

冒泡泡的鱼儿
2026-03-25 12:10:03
蔡正元即将入狱,国台办做出回应,内容不寻常,已看透他的真面目

蔡正元即将入狱,国台办做出回应,内容不寻常,已看透他的真面目

坠入二次元的海洋
2026-03-26 16:00:05
善恶到头终有报,如今73岁的唐国强,已经走上了一条不归路!

善恶到头终有报,如今73岁的唐国强,已经走上了一条不归路!

吴蒂旅行ing
2026-03-20 05:20:46
乌克兰通过法律程序,将“俄乌战争”,命名为“乌克兰独立战争”

乌克兰通过法律程序,将“俄乌战争”,命名为“乌克兰独立战争”

我心纵横天地间
2026-01-22 18:41:25
歼-20总师被除名:长期任央企领导,最近照曝出,事发全过程披露

歼-20总师被除名:长期任央企领导,最近照曝出,事发全过程披露

博士观察
2026-03-23 23:03:27
美智库:美若出兵拦中国收台,解放军30分钟内能将美军事基地夷平

美智库:美若出兵拦中国收台,解放军30分钟内能将美军事基地夷平

南权先生
2026-03-25 15:28:41
南京女教师停职风波反转!大批家长发声力挺,恳请恢复岗位与声誉

南京女教师停职风波反转!大批家长发声力挺,恳请恢复岗位与声誉

火山詩话
2026-03-26 06:37:23
“尼帕病毒”来势汹汹,建议:每家备好6样东西,关键时刻能救命

“尼帕病毒”来势汹汹,建议:每家备好6样东西,关键时刻能救命

路医生健康科普
2026-01-28 12:18:49
3轮0球0助攻!U23国足天才新星踢中超状态断崖式下滑,恐沦为鸡肋

3轮0球0助攻!U23国足天才新星踢中超状态断崖式下滑,恐沦为鸡肋

零度眼看球
2026-03-26 07:41:28
日媒:政府出手后,日本汽油价已降至7.71元/升

日媒:政府出手后,日本汽油价已降至7.71元/升

随波荡漾的漂流瓶
2026-03-25 15:39:49
张雪峰灵堂布置疑曝光,一侧挽联有深意,遗照选了大家熟悉的那张

张雪峰灵堂布置疑曝光,一侧挽联有深意,遗照选了大家熟悉的那张

揽星河的笔记
2026-03-26 19:04:02
航天少帅谭瑞松被判死缓 不执行死刑和终身监禁

航天少帅谭瑞松被判死缓 不执行死刑和终身监禁

小鹿姐姐情感说
2026-03-26 02:23:54
喜欢把家里打扫得很干净的人,往往会有这3种命运,很准!

喜欢把家里打扫得很干净的人,往往会有这3种命运,很准!

品读时刻
2026-02-12 00:06:27
伊朗新最高领袖莫贾塔巴哈梅内伊已同意与美国进行谈判并达成协议

伊朗新最高领袖莫贾塔巴哈梅内伊已同意与美国进行谈判并达成协议

深度报
2026-03-25 22:47:08
约基奇背靠背均贡献15+15+15历史首人!穆雷:叹为观止

约基奇背靠背均贡献15+15+15历史首人!穆雷:叹为观止

北青网-北京青年报
2026-03-26 20:51:06
捡漏成功!广州市一栋三层别墅拍卖,被人捡漏170.6万就竞得,还要啥套间

捡漏成功!广州市一栋三层别墅拍卖,被人捡漏170.6万就竞得,还要啥套间

阿离家居
2026-03-26 16:52:37
清末民初:四川总督赵尔丰、冒着热气的小吃摊、末代状元刘春霖

清末民初:四川总督赵尔丰、冒着热气的小吃摊、末代状元刘春霖

历史小破站
2026-03-19 04:05:03
香港同框名场面:林志玲脸肿如发面馒头,56岁陈松伶干瘪却赢麻

香港同框名场面:林志玲脸肿如发面馒头,56岁陈松伶干瘪却赢麻

冷紫葉
2026-03-26 16:33:29
巴基斯坦把稀土卖给美国,以为捏住中国“七寸”,其实在玩火自焚

巴基斯坦把稀土卖给美国,以为捏住中国“七寸”,其实在玩火自焚

通文知史
2026-03-24 08:35:03
开分8.5,国内不火,全球却杀疯了

开分8.5,国内不火,全球却杀疯了

独立鱼
2026-03-25 21:24:07
2026-03-26 22:36:50
科技行者 incentive-icons
科技行者
科技正在如何变革商业世界
7765文章数 556关注度
往期回顾 全部

科技要闻

Meta高管狂分百亿期权,700名员工却下岗

头条要闻

美国总统特朗普公开宣布访华行程 外交部回应

头条要闻

美国总统特朗普公开宣布访华行程 外交部回应

体育要闻

申京努力了,然而杜兰特啊

娱乐要闻

刘晓庆妹妹发声!称姐姐受身边人挑拨

财经要闻

油价"驯服"特朗普?一到100美元就TACO

汽车要闻

一汽奥迪A6L e-tron开启预售 CLTC最大续航815km

态度原创

房产
游戏
亲子
时尚
手机

房产要闻

突发,三亚又有大批征迁补偿方案出炉!

开冲!PS会员4月离库名单公布:独立神作进入倒计时

亲子要闻

你好,我是馒头,快开门!

上新|| 她们说,找到了自己的人生裙子!

手机要闻

15年经典落幕!MIUI正式停更,澎湃OS全面接棒

无障碍浏览 进入关怀版