网易首页 > 网易号 > 正文 申请入驻

中国团队首次夺魁!无问芯穹FlightVGM获FPGA'25最佳论文

0
分享至

机器之心发布

机器之心编辑部

国际可重构计算领域顶级会议 ——FPGA 2025 在落幕之时传来消息,今年的最佳论文颁发给了无问芯穹和上交、清华共同提出的视频生成大模型推理 IP 工作 FlightVGM,这是 FPGA 会议首次将该奖项授予完全由中国大陆科研团队主导的研究工作,同时也是亚太国家团队首次获此殊荣。

这项工作首次在 FPGA 上实现了视频生成模型(Video Generation Models, VGMs)的高效推理,也是该团队继去年在 FPGA 上加速大语言模型 FlightLLM(FPGA’24)后的最新系列工作。与 NVIDIA 3090 GPU 相比,FlightVGM 在 AMD V80 FPGA 上实现了 1.30 倍的性能提升与 4.49 倍的能效提升(峰值算力差距超过 21 倍)。

论文链接:https://dl.acm.org/doi/10.1145/3706628.3708864

论文第一作者刘军是上海交通大学博士生,共同一作曾书霖是清华大学博士后,通讯作者是汪玉和戴国浩。汪玉是 IEEE Fellow、清华大学电子工程系教授、系主任和无问芯穹发起人,戴国浩是上海交通大学副教授、无问芯穹联合创始人兼首席科学家。

上一轮清华电子系相关工作被 FPGA 国际会议收录应追溯到 2016 年的 Going Deeper with Embedded FPGA Platform for Convolutional Neural Network 与 2017 年 ESE: Efficient Speech Recognition Engine with Sparse LSTM on FPGA。前者催化了深鉴科技的创立,后者被 FPGA 国际会议评为当年唯一的最佳论文,随后深鉴科技于 2018 年被可编程芯片厂商赛灵思以 3 亿美元收购。

在大模型部署成本争议甚嚣尘上的产业背景下,以 FPGA、ASIC 等灵活可编程硬件和专用任务集成电路来提升硬件运行效率,或将成为大模型落地效率提升与成本降低的最关键一环。2024 年,无问芯穹曾以大语言模型定制推理 IP FlightLLM 被 FPGA 高评价录取,今年再次以 VGM 模型定制推理 IP FlightVGM 拿下最佳论文奖,都是在通过创新硬件架构提升效率。据悉,这一系列研究成果现已被集成到无问芯穹自研大模型推理 IP LPU(Large-model Processing Unit)之中,并已与合作伙伴开展合作验证。

下面是论文的核心内容解读。

背景

在视频生成领域,扩散 Transformer(DiT)逐渐成为一种重要的框架。DiT 模型通过一个扩散过程生成视频,它将噪声图像逐步恢复为清晰的视频帧,从而展现了强大的生成能力。最初,DiT 被提出是为了探索在大规模数据处理中的可扩展性,随着技术的不断发展,DiT 的架构也不断被优化,逐步提高了生成视频的质量和分辨率,使得生成的视频更加清晰、精细。尽管如此,这种方法的计算需求非常高,尤其是在生成高分辨率和较长时长的视频时,所需的计算量和内存消耗大幅增加,因此如何提升生成效率并优化计算过程,成为该领域的关键问题之一。

核心见解:从视频压缩到视频生成

视频压缩技术(如 H.264、H.265)通过离散余弦变换(DCT)等技术,识别并消除视频帧间和帧内的冗余信息,从而实现高达 1000 倍的压缩率。这一思想的核心在于,视频数据在时间和空间维度上存在大量重复模式,例如相邻帧之间的背景几乎不变,或同一帧内的纹理具有高度相似性。通过检测并跳过这些冗余信息,压缩算法能够显著减少数据量,同时保持视频质量。

FlightVGM 创新性地将这一思想引入视频生成模型的加速中。视频生成模型(VGMs)在推理过程中同样表现出显著的时空冗余性。例如,相邻帧之间的 Token 在语义上高度相似,而同一帧内的不同区域也可能共享相同的视觉特征。然而,现有 GPU 架构无法充分利用这种冗余性。FPGA 虽然具备稀疏计算的优势,但其峰值算力远低于 GPU,且其计算单元(例如 V80 的 DSP58)的传统设计无法动态适配混合精度需求,限制了其在视频生成加速中的应用。FlightVGM 通过以下三项技术,解决上述挑战:

1.“时间 - 空间” 激活值在线稀疏化方法:基于视频压缩中的相似性检测思想,FlightVGM 设计了帧间和帧内的冗余激活稀疏机制。通过余弦相似度计算,动态跳过相似部分计算,显著降低了计算负载。

2.“浮点 - 定点” 混合精度 DSP58 拓展架构:借鉴视频压缩中的分块处理思想,FlightVGM 对视频生成模型的不同模块进行精度分层处理。关键模块(如注意力机制)保留 FP16 精度,非关键模块(如线性层)量化至 INT8,最大化硬件利用率。

3.“动态 - 静态” 自适应调度策略:针对激活值在线稀疏化导致的负载不均衡问题,FlightVGM 针对实际工作负载自适应调整不同操作负载的执行顺序,从而提高计算利用率。

技术要点

“时间 - 空间” 激活值在线稀疏方法

激活稀疏化包含两个步骤:帧间稀疏化和帧内稀疏化。

1. 帧间稀疏化:我们将输入激活分为 G 个连续的组,并选择中间帧作为参考帧。剩余帧的 token 与参考帧的 token 逐一计算相似度,若超过阈值,则使用参考帧的 token 计算结果替代当前 token。

2. 帧内稀疏化:我们将每帧的 token 分为 K 个块,选择中间 token 作为参考 token,计算其他 token 与参考 token 的相似度,若超过阈值则用参考 token 替代计算。如果某 token 已在帧间稀疏化中被裁剪,其相似度为 0。

“浮点 - 定点” 混合精度 DSP58 拓展架构

AMD V80 FPGA 配备了硬件 IP DSP58,支持多种计算模式,如标量、向量和浮点配置。然而,由于这些配置之间无法在运行时进行动态切换,这与视频生成模型对数据的混合精度的需求存在冲突,导致我们无法充分利用 DSP58 的计算潜力。

为了解决这一问题,我们提出了基于 DSP58 的创新性 FP16-INT8 混合精度硬件架构 ——DSP-Expansion (DSP-E)。该架构允许在运行时配置,支持两个 FP16 乘加单元(MAC)或四个 INT8 乘加单元。我们的核心思路是通过引入额外的乘法器来解决当一个 DSP58 执行两个 FP16 分数乘法时的数据混淆问题,这些乘法器在 INT8 模式下也可以复用。在 FP16 模式下,DSP58 执行两个 MAC 的分数乘法,并通过减去 INT8 乘法器的结果来获得正确的中间计算结果。中间结果的指数部分通过 INT 加法器计算,并通过指数对齐和调整单元对齐小数点位置,最终通过加法、归一化和四舍五入得到最终结果。在 INT8 模式下,DSP-E 通过复用 DSP58、两个 INT8 乘法器和两个 INT 加法器,最大化计算性能。通过将相关数据输入到不同的端口,额外的逻辑单元可以复用硬件资源,从而有效地提高了计算吞吐量。

为了在计算精度和硬件资源的约束下实现最大吞吐量,我们提出了一个异构的 DSP58 阵列设计,以适应不同的计算需求。我们根据不同设计的资源消耗(包括 DSP、LUT、REG、RAM 等)进行评估,并通过资源约束来确保最优计算性能。此外,我们还考虑了 INT8 与 FP16 计算性能的比值,以衡量计算能力的提升。

实验结果

算法评估

与基准模型相比,FlightVGM 对于模型精度的影响几乎可以忽略(仅平均损失为 0.008),而使用全 INT8 量化时,平均损失为 0.042。同时,在实际视频生成效果上,FlightVGM 生成的视频与原始模型仍有较好的保持。

性能评估

对于 NVIDIA 3090 GPU,在 FP16 精度下,AMD V80 FPGA 的峰值算力差距超过了 21 倍。然而,基于 V80 FPGA 实现的 FlightVGM 仍在性能和能效上超过了 GPU。这是因为 FlightVGM 充分利用了 VGM 固有的稀疏相似性和混合精度数据分布特性,并通过软硬件协同开辟了 “算法 - 软件 - 硬件” 的全新优化空间并成功在其中找到了一个足够好的解。而 GPU 由于硬件架构的限制,难以达到相同的加速效果,且缺乏稀疏化和定制化计算数据流优化的支持。

展望和未来工作

随着 VGM 计算需求的增长,FlightVGM 展示了如何通过 FPGA 的软硬件协同创新,实现更高能效的文生视频大模型推理。未来,通过探索 AIE(AI Engine)+ HBM(High Bandwidth Memory)的全新 FPGA 架构,FPGA 有望为视频生成任务提供更高效的计算支持,成为未来计算平台的重要选择。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
泰国总理换新车支持国产!从劳斯莱斯到比亚迪,还向民众极力推荐

泰国总理换新车支持国产!从劳斯莱斯到比亚迪,还向民众极力推荐

削桐作琴
2026-03-26 18:14:58
网传苏州女司机撞到老人后被家属打死?记者核实:女司机耳部缝针治疗后已出院,后续仍需观察

网传苏州女司机撞到老人后被家属打死?记者核实:女司机耳部缝针治疗后已出院,后续仍需观察

扬子晚报
2026-03-25 20:25:53
76人最多领先47分大胜公牛 恩比德复出35+6+7乔治解禁28分

76人最多领先47分大胜公牛 恩比德复出35+6+7乔治解禁28分

醉卧浮生
2026-03-26 09:25:57
旅游+演艺,激活消费新空间(大数据观察)

旅游+演艺,激活消费新空间(大数据观察)

人民网
2026-03-26 06:17:20
心梗去世的人越来越多?医生再次强调:宁可打打牌,也别做这6事

心梗去世的人越来越多?医生再次强调:宁可打打牌,也别做这6事

健康之光
2026-03-26 16:00:06
伊朗切断自己的退路,停战三条件震动全球,47年恩怨要做了断

伊朗切断自己的退路,停战三条件震动全球,47年恩怨要做了断

近史谈
2026-03-26 06:17:39
最自私的人是什么样的?网友:我爸58岁得癌,拆迁180万全部花光

最自私的人是什么样的?网友:我爸58岁得癌,拆迁180万全部花光

火山詩话
2026-03-24 17:32:57
特朗普帮了中国大忙,中国首次成为全球第一,日本完全被踩在脚下

特朗普帮了中国大忙,中国首次成为全球第一,日本完全被踩在脚下

时尚的弄潮
2026-03-26 14:02:47
国安部紧急提醒:手机这3类功能绝不常开!现在改还来得及

国安部紧急提醒:手机这3类功能绝不常开!现在改还来得及

西莫的艺术宫殿
2026-03-26 15:20:40
广东一体长超2米、重达40多斤大蟒蛇河边晒太阳被抓捕,将择机放生;街坊称年前也曾抓走一条类似大小的蟒蛇,猜测是一公一母在此藏身安家

广东一体长超2米、重达40多斤大蟒蛇河边晒太阳被抓捕,将择机放生;街坊称年前也曾抓走一条类似大小的蟒蛇,猜测是一公一母在此藏身安家

潇湘晨报
2026-03-26 11:59:13
中央定调,养老金调整方向明确,2026年若上涨,企退能多涨3%吗?

中央定调,养老金调整方向明确,2026年若上涨,企退能多涨3%吗?

有范又有料
2026-03-26 14:35:52
伊朗警告地面战“更加危险且代价更大”

伊朗警告地面战“更加危险且代价更大”

界面新闻
2026-03-26 18:27:25
加沙的沉默:当“抵抗之弧”烽火连天,哈马斯为何失声

加沙的沉默:当“抵抗之弧”烽火连天,哈马斯为何失声

民间铁血柔情
2026-03-09 06:03:33
50℃高温锁住国运!电不够水没有,印度的未来,彻底没希望了?

50℃高温锁住国运!电不够水没有,印度的未来,彻底没希望了?

Hi科普啦
2026-03-25 14:57:31
近期,一名中国男子去泰国玩,花6000泰铢找21岁女孩,悲剧发生了

近期,一名中国男子去泰国玩,花6000泰铢找21岁女孩,悲剧发生了

鲸探所长
2026-03-01 14:38:25
罕见一幕,中俄战机升空后,特朗普急喊话,就怕再晚一步就镇不住

罕见一幕,中俄战机升空后,特朗普急喊话,就怕再晚一步就镇不住

夏目历史君
2026-03-26 17:23:42
近90%都是“小蓝灯”!高架和高速越来越多了!网友:你不要过来啊!

近90%都是“小蓝灯”!高架和高速越来越多了!网友:你不要过来啊!

钱塘地产
2026-03-26 11:27:56
歼-16D携载LD-8A,开启反辐射作战新篇!

歼-16D携载LD-8A,开启反辐射作战新篇!

杨风
2026-03-25 20:50:09
穆雷轰53+6+4无缘今日最佳!对不起,东契奇暴走创神级纪录

穆雷轰53+6+4无缘今日最佳!对不起,东契奇暴走创神级纪录

世界体育圈
2026-03-26 13:01:23
800架战机掩护 3000辆坦克突击 40万大军两个月就位 这仗非打不可

800架战机掩护 3000辆坦克突击 40万大军两个月就位 这仗非打不可

聚峰军评
2026-03-24 15:08:30
2026-03-26 18:51:00
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12606文章数 142593关注度
往期回顾 全部

科技要闻

Meta高管狂分百亿期权,700名员工却下岗

头条要闻

原正部级刘慧被开除党籍:结交政治骗子 匿名诬告他人

头条要闻

原正部级刘慧被开除党籍:结交政治骗子 匿名诬告他人

体育要闻

申京努力了,然而杜兰特啊

娱乐要闻

张雪峰家人首发声 不设追思会丧事从简

财经要闻

油价"驯服"特朗普?一到100美元就TACO

汽车要闻

一汽奥迪A6L e-tron开启预售 CLTC最大续航815km

态度原创

数码
游戏
本地
公开课
军事航空

数码要闻

苹果MacBook Neo将重塑整个笔电行业!分析师纷纷强调:打不过

《刺客信条》又一新作野心炸裂!三张地图横跨半个地球

本地新闻

救命,这只酱板鸭已经在我手机复仇了一万遍

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

担心特朗普突然停战 以总理下令48小时尽力摧毁伊设施

无障碍浏览 进入关怀版