字节跳动Hyper-Bagel：AI图像处理速度提升20倍|模态|保真度|hyper|图像生成基础模型

分享至

在人工智能快速发展的今天，我们见证了一个令人兴奋的突破。ByteDance Seed团队的研究人员陆彦佐、夏鑫、张曼琳、匡华峰、郑坚彬、任雨夕和肖雪峰在2025年9月发表了一项开创性研究，提出了名为Hyper-Bagel的统一加速框架。这篇论文发表在arXiv预印本平台，编号为arXiv:2509.18824v1，感兴趣的读者可以通过这个编号查询完整论文。

这项研究解决了一个困扰AI领域的重要问题：当前的多模态AI模型虽然能够同时理解和生成图像与文字，但运行速度实在太慢，就像一个天才厨师做菜很好吃，但每道菜都要花好几个小时才能做出来。这种缓慢的处理速度严重限制了这些强大AI模型在实际应用中的普及。

研究团队采用了一种"分而治之"的策略，就像把一个复杂的大厨房分成两个专门的工作区域：一个负责"理解"任务（比如看图说话），另一个负责"生成"任务（比如根据文字描述画图片）。通过这种巧妙的分工，他们成功地让AI模型的运行速度大幅提升，同时还保证了输出质量不打折扣。

研究成果令人瞩目：在理解任务上实现了2倍以上的加速，而在生成任务上更是达到了惊人的16.67倍到22倍的速度提升。这就好比原本需要一个小时才能画出的精美图片，现在只需要不到3分钟就能完成，而且质量丝毫不差。更令人惊喜的是，研究团队还开发出了一个超高效的"1-NFE"模型，能够实现近乎实时的交互式图像编辑和生成，为用户带来流畅无缝的创作体验。

一、突破理解速度瓶颈：投机解码技术的巧妙应用

在解决AI理解任务的速度问题时，研究团队采用了一种称为"投机解码"的创新方法。这个方法的核心思想可以用一个生动的比喻来解释：假设有一位经验丰富的老师（目标模型）和一位聪明的学生（草图模型）共同工作。

传统的方法是让老师一个字一个字地慢慢思考和输出答案，这个过程非常耗时。而投机解码的做法是让学生先快速写出一个答案草稿，然后老师批量检查这个草稿，对正确的部分直接采用，对错误的部分进行修正。这样一来，整个过程就快了很多，因为学生虽然不如老师准确，但速度很快，而老师虽然慢但很准确，两者结合就能做到又快又准。

然而，研究团队发现，直接应用现有的投机解码技术到BAGEL这样的多模态模型上效果并不理想。问题出现在多模态序列的复杂性上。在传统的纯文本模型中，所有的信息都是文字，就像所有的积木都是同一种材质和形状。但在多模态模型中，信息包括文字、图像特征、以及经过扩散去噪后的清洁潜在表示等多种类型，就像要同时处理木头积木、塑料积木、金属积木等不同材质的零件。

为了解决这个问题，研究团队设计了一个精巧的"中间层架构"，就像在老师和学生之间建立了一个翻译系统。这个翻译系统能够把来自不同模态的复杂信息整合起来，帮助学生更好地理解老师的思路，从而提高预测的准确性。

具体来说，他们引入了一种叫做"元查询"的机制。可以把元查询想象成几个万能的问题模板，这些模板能够从目标模型的所有层次中提取关键信息。通过注意力机制，这些元查询能够筛选出最重要的特征，然后传递给草图模型。这就像给学生配备了一套高质量的参考资料，让学生的答案更加准确。

在初始化策略方面，研究团队采用了"零初始化"的方法。这个方法的精妙之处在于，它确保在训练开始时，所有新增的连接层都不会对原有的模型产生干扰。就像在一栋已经建好的房子里加装新的电路时，要确保新电路在通电之前不会影响原有的电路系统。通过这种方式，新的组件能够逐渐学会与原有系统协调工作，而不会在一开始就造成混乱。

为了进一步提升性能，研究团队还引入了一个混合损失函数。传统方法只使用软标签（概率分布）来训练草图模型，但这对于容量有限的草图模型来说要求过高，就像要求一个小学生完全理解大学教授的复杂思维过程。新的方法同时使用软标签和硬标签（确定答案），给草图模型提供了更清晰的学习目标。

通过这些改进，研究团队成功地将多模态理解任务的速度从基线的98.3 TPS提升到了212.4 TPS，实现了2.16倍的加速。这意味着原本需要10秒钟完成的理解任务，现在只需要不到5秒钟就能完成，而且准确性完全不受影响。

二、革新生成速度：多阶段扩散蒸馏的精细工程

在解决图像生成任务的速度问题时，研究团队面临着一个更加复杂的挑战。传统的扩散模型生成一张图片需要执行100多步的去噪过程，就像要用100多层的滤纸才能把浑浊的水变得清澈。这个过程虽然能产生高质量的图像，但速度实在太慢了。

研究团队设计了一个巧妙的三阶段蒸馏过程，将图像生成的核心能力分解为三个关键维度：控制能力、结构完整性和图像保真度。这种分解就像把一个复杂的烹饪过程分解为备料、调味和火候控制三个步骤，每个步骤都有其专门的技巧和要求。

第一阶段专注于CFG（无分类器引导）蒸馏。CFG是一种让AI模型能够精确控制生成内容的技术，就像给画家提供了一套精密的调色盘，让画家能够准确调出想要的颜色。在传统方法中，要实现这种控制需要在生成过程中进行复杂的计算，但研究团队通过蒸馏技术，将这种控制能力直接嵌入到模型中，就像把调色的技巧直接教给了画家的手。

具体来说，他们为文本尺度和图像尺度分别设计了专门的时间步编码层。文本尺度控制生成的图像对文字描述的遵循程度，而图像尺度（主要用于图像编辑）控制生成结果与原始图像的相似程度。这些控制参数的注入位置和方式都经过精心设计，确保控制信号能够精确传播到模型的每一层。

第二阶段采用轨迹分段一致性蒸馏（TSCD）来增强结构完整性。这个阶段的目标是确保生成的图像在整体布局和结构上是合理的，就像确保一幅画的构图是平衡和谐的。与之前的Hyper-SD方法不同，研究团队没有采用渐进式蒸馏（从8段到4段再到2段），而是直接实现3段配置，这样做既简化了训练过程，又减少了训练时间。

在这个阶段，研究团队完全摒弃了均方误差（MSE）损失函数，转而使用纯对抗损失。同时，他们采用了多头判别器架构来增强判别能力。这个多头判别器就像有多个不同专长的评委同时评判一幅画：一个专门看整体构图，一个专门看细节处理，一个专门看色彩搭配等等。通过这种多角度的评判，模型能够在多个尺度上关注图像的结构完整性。

第三阶段是创新性的分布匹配蒸馏（DMDO），专门用于提升图像保真度。这是研究团队的一个重要创新。传统的DMD方法使用基于SDE的一致性采样器，但这会导致生成的图像过于平滑，缺乏细节，就像用过于细腻的画笔画画，虽然看起来很光滑，但失去了质感和生动性。

DMDO方法保持了原始采样器不变，通过ODE（常微分方程）采样器来维持学生模型和教师模型之间的ODE轨迹对齐。在具体实现中，他们从纯噪声开始，使用少步生成器获得完整轨迹，然后在轨迹上进行线性插值来获得不同时间步的输入。这种方法确保了虚假模型能够更好地捕捉少步生成器在每个时间步的实际分布，消除了随机噪声添加可能带来的分布偏移。

通过这个三阶段的精心设计，研究团队成功地将文本到图像生成的采样步数从100步减少到6步，实现了16.67倍的速度提升，而在图像编辑任务上更是实现了22倍的加速。这意味着原本需要几分钟才能生成的高质量图像，现在只需要几秒钟就能完成。

三、极限加速挑战：1-NFE模型的突破性实现

为了追求极致的效率和实现近实时的交互体验，研究团队进一步开发了只需一次函数评估（1-NFE）的超高效模型。这个挑战就像要让一个画家在一笔之间就画出一幅完整的作品，难度可想而知。

研究团队采用了两个额外的训练阶段来实现这个目标。第四阶段是对抗扩散预训练（ADP），第五阶段是奖励反馈学习（ReFL）。这种设计遵循了先建立结构完整性，再完善图像保真度的原则。

在ADP阶段，研究团队采用了基于修正流的对抗方法。这种方法利用已经训练好的6-NFE模型来采样ODE轨迹，然后在起点和终点之间进行线性插值得到噪声潜在表示，再输入到1-NFE生成器中进行预测。生成的结果会被两个不同的判别器评估：一个在潜在空间工作，一个在像素空间工作。这种双重评估就像有两个不同角度的质检员同时检查产品质量。

这种方法的巧妙之处在于，它完美契合了研究目标。因为1-NFE模型只需要与6-NFE模型对齐，而6-NFE模型的采样成本相对较低，所以整个训练过程是高效可行的。这就像学习一门技能时，先跟一个比较容易接近的老师学习，而不是直接挑战最难的大师。

在ReFL阶段，研究团队引入了人类反馈学习来进一步提升图像保真度。与之前的方法不同，他们没有采用多个奖励模型的训练范式，而是使用了一个更全面的基于视觉语言模型的奖励模型。这个选择是经过深思熟虑的，因为BAGEL本身就是一个多模态模型，其能力重点在于对提示的语义理解，所以基于VLM的奖励模型更加合适。

具体来说，他们使用了基于Qwen2-VL构建的HPSv3奖励模型，这个模型拥有比基于美学的ImageReward更强大的视觉理解能力。VLM能够扩展到更大的容量，具备更丰富的知识，而且奖励模型的扩展已经在RewardDance等研究中被证明是高度有效的。

通过这两个阶段的精心训练，1-NFE模型不仅实现了超高的推理速度，还保持了令人满意的图像质量。虽然在某些细节表现上可能不如6-NFE模型那么完美，但其在交互式编辑场景中的表现尤其出色。这是因为图像编辑任务能够利用源图像的结构和上下文信息，帮助1-NFE模型保持强大的视觉一致性并成功应用所需的编辑操作。

四、全方位性能验证：理论突破的实际价值

研究团队通过大量实验验证了Hyper-Bagel框架的有效性。在投机解码方面，他们的方法在平均接受长度和接受率两个关键指标上都超越了基线方法。平均接受长度从基线的3.6184提升到3.7709，接受率从0.7327提升到0.7452。这些数字背后反映的是实际应用中的显著性能提升。

消融实验进一步证明了各个组件的重要性。当移除零初始化策略时，性能出现显著下降，平均接受长度降到2.8273，接受率跌到0.6494。这说明零初始化在桥接目标模型和草图模型方面发挥了关键作用。移除交叉熵损失的影响相对较小，但仍然可观测到性能下降。有趣的是，同时移除两个组件的效果比只移除零初始化要好，这暗示严格的交叉熵损失约束在没有零初始化提供基础对齐时可能会产生反作用。

在图像生成任务的评估中，研究团队使用了GenEval基准测试。6-NFE Hyper-BAGEL模型在这个基准上展现出了无损性能，总体得分为0.8647，甚至略微超过了100-NFE BAGEL基线的0.8640分。这个结果证实了蒸馏过程在将采样步数从100步减少到6步的同时，完全保持了生成质量。更令人印象深刻的是，1-NFE模型虽然是为了极致效率而设计的，但其0.7962的总体得分仍然与Janus-Pro-7B和MetaQuery-XL等领先的统一模型相当。

在图像编辑任务上，使用GEdit-Bench评估的结果同样令人鼓舞。6-NFE Hyper-BAGEL在英文和中文数据集上都持续超越了132-NFE基线，总体得分分别达到6.612和6.671。这种一致的性能表现证明了加速模型在大幅降低计算成本的同时，不仅保持了编辑质量，甚至还有所提升。1-NFE模型虽然在绝对分数上有所降低，但其5.975（英文）和5.966（中文）的得分仍然显著超过了OmniGen等已建立的方法。

定性评估进一步验证了量化结果。在文本到图像生成任务中，6-NFE模型生成的图像在视觉上与100-NFE基线几乎无法区分，能够忠实再现复杂的细节，比如猴子衬衫上的数字"619"、黑暗骑士场景中复杂的构图和光照效果，以及动物毛发的质感。1-NFE模型虽然在细节保真度上有所权衡，但仍能快速生成与提示高度相关的图像，核心语义和整体质量保持在高度竞争的水平。

在图像编辑场景中，6-NFE模型表现出了卓越的保真度，能够执行精确的编辑操作，如移除花生、替换文字或消除人物，其结果与高NFE基线几乎无法区分。1-NFE模型在编辑上下文中展现出的优势尤为明显，其利用源图像结构和上下文信息的能力使其能够保持强大的视觉连贯性并成功应用所请求的编辑。

五、技术创新的深层意义和广阔前景

Hyper-Bagel框架的成功不仅仅是一个技术突破，更代表了多模态AI发展的一个重要里程碑。这项研究巧妙地解决了统一多模态模型面临的根本性挑战：如何在保持强大能力的同时实现高效推理。

从技术层面来看，研究团队的分而治之策略体现了深刻的系统性思维。他们没有试图用一种方法解决所有问题，而是针对理解和生成两种不同的任务特点，分别设计了最适合的加速方案。这种方法论的价值远超出了具体的技术实现，为未来的多模态系统优化提供了宝贵的设计范式。

投机解码在多模态场景中的成功应用，特别是通过中间层架构和元查询机制解决了多模态特征融合的难题，这为其他复杂AI系统的加速提供了新的思路。零初始化和混合损失函数等技术细节的精心设计，展现了研究团队对深度学习训练过程的深入理解。

在扩散蒸馏方面，三阶段设计的创新性在于将复杂的图像生成过程分解为可控的子任务。CFG蒸馏确保了控制能力的保持，TSCD强化了结构完整性，而DMDO则在保真度上取得了突破。特别是DMDO方法通过ODE采样器的使用，解决了传统方法中图像过度平滑的问题，这个创新为扩散模型的加速研究开辟了新的方向。

1-NFE模型的实现更是体现了追求极致效率的工程精神。通过ADP和ReFL的组合，研究团队证明了即使在极端的效率要求下，仍然可以通过巧妙的训练策略获得令人满意的结果。这种探索精神对于推动AI技术在实际应用中的普及具有重要意义。

从应用前景来看，Hyper-Bagel框架的影响将是深远的。2倍以上的理解加速意味着多模态AI助手能够更流畅地进行对话和交互。16.67倍到22倍的生成加速则让实时的图像创作和编辑成为可能，这将极大地改变内容创作、教育、娱乐等领域的工作流程。

1-NFE模型的近实时性能特别值得关注。在交互式应用中，响应速度往往比完美的质量更重要。这个模型为开发响应迅速的创意工具、实时视觉编辑系统、即时内容生成平台等应用奠定了技术基础。

这项研究还体现了工业界研究的独特优势。ByteDance作为一家拥有丰富实际应用场景的公司，其研究团队能够准确把握实际应用中的痛点和需求。这种来自实践的驱动使得研究成果更具实用价值，也更容易转化为真正有益于用户的产品和服务。

说到底，Hyper-Bagel框架代表的是AI技术走向成熟的一个重要标志。它不再满足于单纯的能力展示，而是开始认真考虑效率、实用性和用户体验。这种从"能做什么"到"如何更好地做"的转变，正是AI技术从实验室走向千家万户的关键一步。

归根结底，这项研究最大的价值在于它为多模态AI的实际应用扫清了重要的技术障碍。当AI模型不再因为速度慢而被束之高阁，当创作者可以实时地看到自己的想法变成图像，当用户可以流畅地与AI进行多模态交互时，我们就真正迎来了一个新的智能交互时代。

对于关注AI发展的读者来说，这项研究提醒我们：技术进步不仅仅体现在能力的边界拓展上，更体现在让强大的能力变得触手可及。Hyper-Bagel框架正是这种理念的完美体现，它让我们看到了一个既强大又高效的AI未来。感兴趣的读者可以通过arXiv:2509.18824v1查阅完整的技术细节，相信这项研究将为更多的创新应用和技术突破铺平道路。

Q&A

Q1：Hyper-Bagel框架具体能让AI处理图像的速度提升多少倍？

A：Hyper-Bagel框架在不同任务上的加速效果非常显著。在多模态理解任务上实现了2倍以上的加速，在文本生成图像任务上达到16.67倍的速度提升，在图像编辑任务上更是实现了22倍的加速。研究团队还开发了一个1-NFE超高效模型，能够实现近乎实时的图像生成和编辑，大大改善了用户的交互体验。

Q2：这个加速技术会不会影响AI生成图像的质量？

A：不会影响质量，这正是Hyper-Bagel框架的核心优势。研究团队通过精心设计的三阶段蒸馏过程，确保6-NFE模型在大幅提升速度的同时完全保持原有的图像质量。在GenEval和GEdit-Bench等专业评测中，加速后的模型得分甚至略微超过了原始的慢速模型。虽然1-NFE极速模型在某些细节上有所权衡，但整体质量仍然非常出色，特别是在交互式编辑场景中表现优异。

Q3：普通用户什么时候能体验到这种加速技术带来的好处？

A：虽然论文没有明确提及具体的产品发布时间，但考虑到这是ByteDance团队的研究成果，预计这项技术将会逐步整合到ByteDance的相关产品和服务中。对于普通用户来说，最直观的体验将是AI图像生成和编辑工具响应速度的显著提升，以及更流畅的多模态AI交互体验。这项技术的成熟将推动整个行业向更高效的AI应用发展。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.