网易首页 > 网易号 > 正文 申请入驻

艾伦人工智能研究所实现字节级语言模型突破

0
分享至


这项由艾伦人工智能研究所的Benjamin Minixhofer等研究团队领导的突破性研究发表于2025年12月17日,该研究首次成功开发出了能与传统语言模型竞争的字节级语言模型Bolmo,并提出了创新的"字节化"训练方法。有兴趣深入了解的读者可以通过论文编号arXiv:2512.15586查询完整研究论文。

传统的人工智能语言模型就像一个只认识"词汇卡片"的学生,它们把文字切分成固定的词汇片段来理解语言,这种方法被称为"子词标记化"。然而这种方式有个致命缺陷:它无法真正理解每个字母或汉字的含义,就像一个人只能认识整个单词却不懂字母一样。更糟糕的是,由于词汇表是固定的,当遇到新语言或生僻字时,模型就会束手无策。

艾伦研究所的科学家们想出了一个革命性的解决方案:让AI模型直接学习最基本的字节单位,就像教孩子从认识每个字母开始学习阅读一样。他们开发的Bolmo模型能够处理UTF-8字节这种最基础的文字编码单位,彻底绕过了传统方法的局限性。

这项研究的核心创新在于一种名为"字节化"的训练策略。研究团队没有从零开始训练一个全新的字节级模型,而是巧妙地将已经成熟的子词模型转换成字节级模型。这个过程就像把一个习惯看整本书的人训练成能够逐字逐句仔细阅读的高手,既保留了原有的理解能力,又获得了更精细的文字感知能力。

Bolmo的架构设计充满了工程学的智慧。它采用了一种叫做"潜在标记器语言模型"的结构,简单来说就是在模型内部建立了一个动态的"文字组织系统"。这个系统包含一个轻量级的本地编码器来处理字节信息,一个深度的全局模型进行核心计算,以及一个边界预测器来决定如何将字节组合成有意义的文字块。

研究团队在边界预测方面做出了重要突破。传统方法只能根据已经看到的文字来决定在哪里分割,就像一个人只能根据已读内容来猜测下一个词的结束位置。而Bolmo采用了"非因果边界预测"技术,允许模型提前"偷看"一个字节的未来信息来做出更准确的分割决定。这种方法显著提升了模型理解文字结构的能力。

训练过程被精心设计为两个阶段。第一阶段是"子词到字节蒸馏",研究团队让Bolmo学习模仿原始子词模型的行为,这个过程只需要消耗不到1%的传统预训练数据量。就像让一个学生先通过模仿老师的解题方法来掌握基础技能。第二阶段是端到端训练,让模型在保持原有能力的基础上充分发挥字节级处理的优势。

实验结果令人振奋。Bolmo在字符理解任务上的表现远超传统模型,准确率提升幅度达到了惊人的程度。在CUTE字符理解测试中,Bolmo 7B模型达到了78.6%的准确率,而对应的传统模型只有56.9%。在编程任务方面,Bolmo也展现出了独特优势,虽然单次正确率略低,但在生成多个候选答案时的成功率更高,说明它能产生更多样化的解决方案。

更令人惊喜的是,Bolmo还具备了传统模型无法比拟的灵活性。研究团队发现可以通过调整训练策略来提高模型的推理速度,实现性能与效率之间的灵活平衡。这种能力就像拥有了一个可以根据需要调节"阅读速度"的智能系统,在需要精确理解时放慢速度,在需要快速处理时提高效率。

研究团队还发现了一个意外的惊喜:可以通过"任务算术"的方式将现有的指令跟随模型无缝迁移到字节化模型上。这意味着不需要重新训练,就能让字节化模型获得各种专门技能。在IFEval测试中,通过这种方法改进的Bolmo模型性能从31.1%跃升至67.4%,几乎达到了原始指令模型66.9%的水平。

为了验证模型的实际应用潜力,研究团队进行了大量对比实验。他们将Bolmo与其他知名字节级模型如EvaByte、TFree-Hat和BLT进行了全面比较。结果显示,Bolmo在几乎所有测试类别中都取得了最佳成绩,包括数学推理、多选题问答、字符理解等各个方面。特别是在STEM相关任务上,Bolmo 7B比BLT 7B高出了16.5%的绝对分数。

研究还深入探讨了不同架构选择对模型性能的影响。通过详细的消融实验,团队证明了非因果边界预测的关键作用,以及两阶段训练策略的必要性。他们发现,虽然第二阶段训练不是绝对必需的,但它能显著改善模型的最终性能。

从技术实现角度来看,Bolmo在保持与原模型相近参数量的同时实现了功能升级。Bolmo 1B版本比原始OLMo 2 1B少了约1000万参数,而7B版本比Olmo 3 7B多了约3.3亿参数,参数变化幅度都在可接受范围内。

推理效率方面的测试结果同样令人鼓舞。在相同压缩率下,Bolmo的解码吞吐量约为125字节/秒,而对应的子词模型为150字节/秒,差距并不显著。更重要的是,通过提高压缩因子,Bolmo可以在保持合理性能的前提下获得更快的推理速度,这是传统子词模型难以实现的。

研究团队特别强调了字节化方法的广泛适用性。这种技术不仅能应用于英语模型,还能有效处理多语言文本,解决了传统方法在非英语语言上的效率问题。通过在EXECUTE多语言字符理解基准测试中的优异表现,Bolmo证明了字节级处理在跨语言应用中的巨大潜力。

值得注意的是,这项研究还为未来的发展方向指明了道路。研究团队提出了多个有趣的扩展方向,包括探索更大的补丁大小和本地模型容量的组合、多字节预测技术、专门的采样方法等。他们还指出,字节级模型在批量推理优化方面仍有改进空间,这为后续研究提供了明确目标。

从更广阔的视角来看,这项研究代表了人工智能语言模型发展的一个重要里程碑。它不仅解决了传统方法的技术局限,还为构建更加通用、灵活的语言理解系统奠定了基础。随着大语言模型在各行各业的广泛应用,这种能够精确理解文字细节的技术将在文档处理、代码生成、多语言交流等领域发挥重要作用。

说到底,Bolmo的成功证明了一个重要观点:有时候回到最基础的方法反而能取得意想不到的突破。就像学习语言一样,从最基本的字母或字节开始,虽然看起来更复杂,但最终能建立更深入、更灵活的理解能力。这项研究不仅为字节级语言模型的实用化铺平了道路,也为整个人工智能领域探索新的技术路径提供了宝贵经验。随着技术的不断完善,我们有理由相信,这种更精细的文字理解能力将为人工智能带来更多可能性,让机器在理解和生成人类语言方面变得更加智能和可靠。

Q&A

Q1:Bolmo字节级语言模型与传统语言模型有什么区别?

A:传统语言模型使用子词标记化,将文字切分成固定词汇片段处理,就像只认识词汇卡片的学生。而Bolmo直接处理UTF-8字节这种最基础的文字编码单位,能够真正理解每个字母和字符,类似从字母开始学习阅读。这使得Bolmo在字符理解、跨语言处理等方面表现更优异。

Q2:字节化训练方法是如何工作的?

A:字节化是一种两阶段训练策略。第一阶段进行"子词到字节蒸馏",让Bolmo学习模仿原始子词模型的行为,消耗不到1%的传统预训练数据量。第二阶段进行端到端训练,让模型充分发挥字节级处理优势。这种方法避免了从零开始训练,大大提高了效率。

Q3:Bolmo在实际应用中表现如何?

A:Bolmo在多项测试中表现优异。在字符理解任务中,准确率从传统模型的56.9%提升到78.6%。在STEM任务上比其他字节级模型高出16.5%。在编程任务中生成更多样化的解决方案。推理速度与传统模型接近,还可以通过调整策略实现速度与性能的灵活平衡。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
错失塞梅尼奥!利物浦火速敲定替代者:6000万求购多特边锋

错失塞梅尼奥!利物浦火速敲定替代者:6000万求购多特边锋

球事百科吖
2025-12-25 03:36:24
一上午11人,全部确诊癌症晚期!医生提醒,天再冷也不要做这事

一上午11人,全部确诊癌症晚期!医生提醒,天再冷也不要做这事

新时代的两性情感
2025-12-23 04:42:27
女排联赛江苏2-3艰难胜天津,决胜局23-21

女排联赛江苏2-3艰难胜天津,决胜局23-21

阿嚼影视评论
2025-12-24 21:34:43
细节曝光!美媒:造价或高达150亿美元

细节曝光!美媒:造价或高达150亿美元

环球时报国际
2025-12-24 00:13:56
杰伦-布朗谈哈特摸布伦森屁股:敢在台上干,他们肯定不是第一次了

杰伦-布朗谈哈特摸布伦森屁股:敢在台上干,他们肯定不是第一次了

懂球帝
2025-12-24 16:19:19
硬刚中俄,与日本签了稀土协议后,托卡耶夫直接赶往俄罗斯摊牌

硬刚中俄,与日本签了稀土协议后,托卡耶夫直接赶往俄罗斯摊牌

策略述
2025-12-24 14:33:50
樊振东获赞最全面球员,破界成就冠军

樊振东获赞最全面球员,破界成就冠军

大汉体育解说
2025-12-25 02:32:57
安洗莹豪言 “垄断所有可能”!国羽二队调赛暗战!

安洗莹豪言 “垄断所有可能”!国羽二队调赛暗战!

杨晨大神
2025-12-24 12:11:22
勇士内讧原因曝光!追梦不想干累活,被罚100万,名嘴建议他替补

勇士内讧原因曝光!追梦不想干累活,被罚100万,名嘴建议他替补

你的篮球频道
2025-12-24 09:21:29
业内曝纪凌尘经纪人内涵阚清子,称“苍天饶过谁”,网友痛批恶毒

业内曝纪凌尘经纪人内涵阚清子,称“苍天饶过谁”,网友痛批恶毒

萌神木木
2025-12-24 16:13:10
哈文“无脑规则”坑惨央视,留下一堆烂摊子后,转身长期定居美国

哈文“无脑规则”坑惨央视,留下一堆烂摊子后,转身长期定居美国

韩驰
2025-12-24 17:05:07
“阴花不能进阳宅”,这5种花打死都不能养!家里若有?快挪走!

“阴花不能进阳宅”,这5种花打死都不能养!家里若有?快挪走!

三农老历
2025-11-27 12:43:26
心疼阚清子!知情人透露更多,高龄产妇早知道内情,但舍不得打掉

心疼阚清子!知情人透露更多,高龄产妇早知道内情,但舍不得打掉

八斗小先生
2025-12-24 15:39:53
西部第一竟被双杀!马刺主场狂胜雷霆,我从中看到四点新希望

西部第一竟被双杀!马刺主场狂胜雷霆,我从中看到四点新希望

紧跟时代脉搏
2025-12-25 00:24:44
暴跌10.4℃!还有中雨、雨夹雪或雪!气温还要降,这两天最低......

暴跌10.4℃!还有中雨、雨夹雪或雪!气温还要降,这两天最低......

浙江天气
2025-12-24 16:52:19
陕西神木警方发布认领无主物品公告:黄金9块,共计360克,每块均刻有“老凤祥银楼”字样,逾期无人认领将依法拍卖、变卖

陕西神木警方发布认领无主物品公告:黄金9块,共计360克,每块均刻有“老凤祥银楼”字样,逾期无人认领将依法拍卖、变卖

环球网资讯
2025-12-24 17:13:38
向太曝马伊琍已再婚:当年文章过不了心理那关

向太曝马伊琍已再婚:当年文章过不了心理那关

娱乐看阿敞
2025-12-12 15:50:00
天津女排虽败犹荣!青春风暴让人惊艳:路晶李响孙婉鋆都有潜力

天津女排虽败犹荣!青春风暴让人惊艳:路晶李响孙婉鋆都有潜力

金毛爱女排
2025-12-24 22:02:32
溢价34倍!领益智造又要“买买买”,前次并购过会后下调标的估值

溢价34倍!领益智造又要“买买买”,前次并购过会后下调标的估值

金色光
2025-12-24 17:28:48
快手直播事故:画面流出,时间巧合令人愤怒,预告下一个受害者

快手直播事故:画面流出,时间巧合令人愤怒,预告下一个受害者

温柔看世界
2025-12-23 10:59:28
2025-12-25 04:28:49
科技行者 incentive-icons
科技行者
科技正在如何变革商业世界
6645文章数 544关注度
往期回顾 全部

科技要闻

智谱和MiniMax拿出了“血淋淋”的账本

头条要闻

幼儿园8人遇难儿童母亲:女儿4岁 今年9月入读

头条要闻

幼儿园8人遇难儿童母亲:女儿4岁 今年9月入读

体育要闻

26岁广西球王,在质疑声中成为本土得分王

娱乐要闻

怀孕增重30斤!阚清子惊传诞一女夭折?

财经要闻

北京进一步放松限购 沪深是否会跟进?

汽车要闻

“运动版库里南”一月份亮相   或命名极氪9S

态度原创

艺术
手机
家居
游戏
公开课

艺术要闻

巨星刘德华1000万善款建村,为何如今竟成山间“空心村”?

手机要闻

荣耀Magic8 Ultra:双3D生物识别+LOFIC主摄,还有24GB大内存!

家居要闻

法式大平层 智能家居添彩

前《DOTA2》选手起诉LGD 称拖欠近14万赛事奖金

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版