数据贵如金，生成慢如牛？这位00后为生成式AI性能优化开辟新路径|算法|数据流|客户端节点|dataset

分享至

Next Gen

欢迎来到“Next Gen”。人工智能的边界每日都在被拓展，一群富有远见卓识的青年学者正站在浪潮之巅。我们追踪并报道这些 AI 领域最具潜力的明日之星，展现他们在科研前沿的突破性工作，以及对未来智能时代的独到见解。他们是谁？他们如何思考？他们又将把 AI 带向何方？与我们一同发现那些正在定义未来的 AI 新生代。

在生成式AI 发展进程中，效率瓶颈正逐渐成为技术落地的关键阻碍。以 ChatGPT 为例，当面临复杂对话任务、高并发访问场景时，响应常出现秒级等待；而训练大型 AI 模型的能耗同样惊人，部分规模堪比 GPT- 3 的模型，训练产生的碳排放甚至相当于数百辆汽车的年排放量。这类效率与能耗问题，正从用户体验、成本投入等维度，对生成式 AI 的广泛落地形成现实制约。

孙鹏是西湖大学与浙江大学联合培养博士生，他与所在团队的研究为解决上述问题提供了新的解决方案——其提出的 UCGM（Unified Continuous Generative Models）框架，让 AI 模型生成速度提升数十倍，而 RDED（Realistic and Diverse Dataset Distillation）数据蒸馏技术则实现了“用 1% 数据达到 90% 效果”的突破。

从数据压缩到生成式 AI，他的研究轨迹始终瞄准 AI 产业最迫切的痛点，为 6G 通信、自动驾驶等前沿领域劈开一条“高效 + 低耗”的技术路径。

像“放大器”一样提升模型训练效果

西湖大学与浙江大学团队合作，提出了一个统一的连续空间生成框架 UCGM，实现了模型统一的训练、采样和理解。

孙鹏向 DeepTech 解释道：“UCGM 框架的最大价值在于统一性，它将分散的算法和理论整合到一个完整的体系中，为我们提供了更宏观的研究视角，这不仅有助于系统梳理现有算法，更为更为后续创新奠定了坚实基础。”

在对连续空间生成模型的传统研究模式中，不同生成范式的算法和理论往往相互割裂，甚至不同研究者对于同一个生成范式的理论理解角度不同，进一步导致可能采用个性化的算法框架和代码实现习惯。

这种碎片化状态使得后续研究者需要耗费大量时间来学习各种生成范式和适应不同实现方式，无形中增加了学习成本。而 UCGM 框架通过建立统一的理论，算法和代码范式，显著降低了这一隐性成本。

更重要的是，UCGM 框架的高层次理论视角还催生了创新的增强技术。这些技术如同“放大器”一般，可以无缝集成到统一框架中。

与传统独立框架下的增强技术不同，后者往往局限于特定场景，而 UCGM 的“大一统”特性使得新开发的增强技术能够自然地推广到既有框架中，实现技术成果的快速传播和应用。这种机制不仅提高了技术复用效率，还显著提升了模型的训练效果，为生成式 AI 的性能优化开辟了新路径。

UCGM 框架包含两个关键部分：UCGM-T（统一训练器）和 UCGM-S（统一采样器），它的设计理念体现了双重优化目标：从用户体验维度，它致力于减少生成延迟；从企业运营维度，它着眼于降低计算资源消耗和能源成本。目前研究团队基于 0.675 亿参数的中等规模模型验证了核心思想，研究重点集中在减少生成步骤（如将传统需要的 100 步生成缩减至 1-2 步）的同时，维持或提升生成质量。

以 256×256 分辨率的 ImageNet 数据集为例，研究团队采用一个包含 0.675 亿参数的扩散变换器模型进行验证：UCGM-T 训练的多步模型在 20 个采样步骤下实现了 1.30 的 FID（Frechet Inception Distance）值，而其训练的少步模型仅需 2 个采样步骤就能达到 1.42 的 FID。

更值得注意的是，当将 UCGM-S 应用于既有预训练模型时，该技术在不增加任何计算成本的情况下，将模型的 FID 从原始 250 步采样时的 1.26 显著提升至仅需 40 步采样时的 1.06。这些实验结果表明，UCGM 为高分辨率图像生成这一计算密集型任务提供了高效的技术解决方案。

高分辨率图像生成作为计算机视觉领域的公认挑战，常被用作验证算法性能的基准任务，但 UCGM 的应用潜力远不止于此。从理论层面看，该框架提出的核心思想具有普适性，其设计理念有望拓展到矢量图生成，音频和信号生成，乃至文本生成等多个领域。

该技术展现出直接应用的潜力，以当前工业界常见的文生图模型为例，采用 UCGM 框架可以显著提升图像生成速度。更重要的是，作为基础理论框架，UCGM 具有更广泛的应用前景——通过将支持的数据类型从图像扩展到文本等多个模态的数据，该框架同样可以加速多模态模型的生成效率。

日前，相关论文以《统一连续生成模型》（Unified Continuous Generative Models）为题发表在预印本网站arXiv[1]。孙鹏是第一作者，西湖大学林涛助理教授担任通讯作者。

仅需 7 分钟即可蒸馏出每类 10 张图像的核心子集

在当下“数据为王”的人工智能时代，高质量数据是训练强大模型的基础，然而其收集、整理过程不仅成本高昂，还涉及用户隐私问题，甚至可能需要付费获取，使得数据本身成为一种珍贵资源。

从模型训练的实际需求出发，处理这些珍贵且规模庞大的数据集需要消耗巨大的算力成本。因此，数据集蒸馏（Dataset Distillation）应运而生，其能够有效“轻量化”训练数据及大幅提升训练效率。

当前，整个深度学习领域对数据的依赖日益加深，对高质量、高效率数据的需求空前显著。回顾发展历程，数据蒸馏在四五年前尚属小众研究方向，然而，随着近两年依赖海量数据训练的超大规模模型呈现井喷式发展，其核心价值才被真正广泛认知。当巨量的高质量数据成为各领域 AI 应用的关键驱动力时，高效的数据集蒸馏技术变得越来越重要且极具推广价值。

孙鹏在早期便敏锐地关注到数据集蒸馏的价值，但他同时发现，当时最先进的方法存在一个显著的悖论：压缩数据集的初衷是减轻模型训练的代价（例如将原本需要 1 天的训练缩短至 4 小时），然而压缩过程本身可能耗时冗长（例如长达 2 天），这极大地削弱了其实际应用价值。

为了突破这一瓶颈，他及其所在团队提出了一种名为 RDED 的新型高效数据集蒸馏方法。RDED 的核心优势在于能够在显著提升计算效率的同时，严格保持所蒸馏数据的多样性和真实性。

其性能表现卓越：例如，在 ImageNet-1K 数据集上，RDED 仅需 7 分钟即可蒸馏出每类 10 张图像的核心子集，并在后续模型训练中达到 42% 的 Top-1 准确率。这一结果不仅性能达到当时最优方法的 2 倍，其蒸馏速度更是提升高达的 52 倍。

孙鹏指出，这项研究是领域内首篇真正实现“压缩时间远小于训练时间”突破的论文。具体而言，假设原始数据集训练需要的时间为 a，RDED 完成压缩数据集的时间为 b，随后利用压缩的数据集进行训练时间为 c 就能达到与原始数据集训练相当的性能，我们可以有 b+c 远小于 a，即使得“压缩+训练”的总耗时显著少于原始训练时间，从根本上解决了前述悖论。

尽管 RDED 展现出巨大潜力，其当前的工业应用仍需结合前文所述的 UCGM 框架来发挥最大效能。这主要是因为工业场景所需的数据类型通常极其复杂且具有高度针对性，而传统数据集蒸馏技术主要聚焦于分类等特定任务，这与自动驾驶等实际应用中常见的多任务、场景化需求（如目标识别、场景理解）存在较大差异，导致直接应用面临挑战。

UCGM 框架为解决此问题提供了关键桥梁：例如，在自动驾驶领域，可以首先利用 UCGM 强大的生成能力，高效地合成包含特定障碍物或罕见场景（如手持相机视角下疾驶而来的货车）的高质量目标数据——这类数据在现实中极难获取且收集成本或风险极高；随后，再应用 RDED 技术对这些针对性生成的合成数据集进行高效压缩和蒸馏。这种“生成-压缩”的协同范式，有望为工业界提供持续、高质量且高度定制化的数据流，更具实际应用前景。

孙鹏指出，未来领域或将面临一种新挑战：算力和算法持续进步，速度越来越快，但真实有效的数据供给却可能不足。究其根本，真正高质量的训练数据源于人类活动或真实世界，其产生的速度存在物理上限。自动驾驶等领域难以收集的极端危险场景数据（如高速碰撞前瞬间）正是这种稀缺性的典型例证，这类数据对于安全算法（如紧急避险）又至关重要。

此时，结合 UCGM 框架按需生成高质量、高保真的特定场景数据，再通过 RDED 技术进行高效蒸馏和压缩，形成一套完整的解决方案，或能够为工业界持续输送定制化的高质量数据，有效应对未来可能出现的“数据荒”。

日前，相关论文以《论蒸馏数据集的多样性与真实性：一种高效数据集蒸馏范式》（On the Diversity and Realism of Distilled Dataset:An Efficient Dataset Distillation Paradigm）为题发表在 CVPR 2024 会议 [2]。孙鹏是第一作者，西湖大学林涛助理教授担任通讯作者。

致力于创造真正“有益于未来”的技术

孙鹏的研究方向经历了一个迁移的过程。在研究生涯早期，他聚焦于数据视角下的深度学习。然而，随着研究的持续推进和深入，孙鹏逐渐认识到一个关键瓶颈：仅仅优化数据压缩技术是不够的。

他洞察到，如果高质量数据的产生长期且主要依赖人类活动，其生成速率必然存在根本性限制，未来极有可能遭遇数据供给短缺的挑战。鉴于此，开发更高质量、更高效率的生成模型，尤其是能够产出超越人类数据质量与效率的模型变得至关重要。

这一认识促使他的研究重心开始向深层人工智能，特别是生成式 AI 领域进行战略性迁移。这一转变也自然地塑造了他多元的研究风格，形成了两条并行的主线：一条延续其在高效数据技术（如数据蒸馏）上的深耕；另一条则积极开拓生成式 AI 模型（如 UCGM 框架）的创新疆域。

回溯孙鹏投身科研的初心，其核心驱动力始终围绕着解决实际需求：社会或人类究竟需要何种技术来推动文明进程？哪些技术能切实解决日常挑战，加速文明发展？正是基于这种以实际问题为导向的研究哲学，他最初敏锐地将目光投向了数据效率等关键领域。

谈及研究方向的重要转变，孙鹏坦言：“多数研究者并不轻易改变深耕的领域，例如从数据压缩转向生成式 AI 研究意味着巨大的沉没成本和学习投入，需要深入掌握前沿领域的全新知识体系。”

但于他而言，研究的价值在于创造真正有益于未来、人类和社会的技术，只要方向符合这一目标，他都会坚定地选择尝试。未来，孙鹏的研究视野不会局限于生成式 AI 领域，而是计划探索人工智能的其他分支，甚至包括非深度学习的 AI 范式。但其目标始终如一：探寻更具潜力、能对人类未来生活产生实质性积极影响的技术场景，持续创造价值。

参考资料：

1.https://arxiv.org/abs/2505.07447

2.https://arxiv.org/abs/2312.03526

运营/排版：何晨龙、刘雅坤

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.