网易首页 > 网易号 > 正文 申请入驻

韩国延世大学AI新突破:让视频生成快65%的"拼配"技术

0
分享至


这项由韩国延世大学的宋智彬、权敏基、郑在锡和禹荣正领导的研究发表于2024年12月的计算机视觉领域顶级会议,论文编号为arXiv:2512.24724v1。有兴趣深入了解的读者可以通过该编号查询完整论文。

制作一部高质量的AI视频,就像烹饪一道精美大餐。传统方法要求每个步骤都使用最昂贵的食材和最复杂的工艺,结果虽然精美,但成本高昂,制作缓慢。然而,延世大学的研究团队发现了一个令人惊喜的现象:在这道"烹饪"过程中,并非每个步骤都需要顶级"厨师"亲自操刀。

当前的AI视频生成就像请了一位米其林三星大厨从头到尾制作整顿饭菜。这位大厨技艺精湛,能做出完美的视频,但速度慢、成本高。同时市面上还有一些"快餐厨师",虽然速度快、成本低,但做出的菜品质量明显不如大厨。研究人员开始思考:能否让大厨只负责最关键的环节,而让快餐厨师处理相对简单的部分,既保持菜品质量又提高效率?

经过深入研究,团队发现视频生成过程可以分为三个阶段,就像做菜的三个关键步骤。第一个阶段类似于"打基础"——确定菜品的整体风格和主要结构,这个阶段至关重要,决定了最终成品的基本样貌。第二个阶段像"填充内容"——在已有框架基础上添加具体细节,这个阶段相对机械化。第三个阶段如同"精装修"——对细节进行精雕细琢,去除瑕疵,让成品更加精美。

研究团队通过大量实验发现了一个颠覆性规律:在第一和第三阶段,大厨的专业技能不可替代,但在第二阶段,快餐厨师完全可以胜任,而且做出来的效果与大厨几乎没有差别。基于这一发现,他们开发了名为"FlowBlending"的新技术,中文可以理解为"流程拼配术"。

一、大厨与快餐师的智慧分工

为了验证这个大胆的想法,研究团队设计了一系列对比实验。他们使用了两个目前最先进的视频生成模型:LTX-Video和WAN 2.1。每个模型都有大小两个版本,大版本就像经验丰富的大厨,小版本则像速度更快的快餐师。

实验过程就像安排不同厨师按照不同顺序制作同一道菜。研究人员尝试了四种"排班"方式:第一种是全程大厨(LLL),第二种是大厨开头、快餐师收尾(LSS),第三种是快餐师开头、大厨收尾(SLL),第四种是全程快餐师(SSS)。

结果令人震惊。全程大厨的方案确实能产出最高质量的"菜品",画面清晰、动作流畅、细节丰富。全程快餐师的方案虽然速度最快,但经常出现"翻车"现象——物体变形、动作不连贯、甚至完全偏离预期效果。

真正的发现出现在混合方案上。大厨开头、快餐师收尾的方案(LSS)在整体结构和运动表现上几乎与全程大厨方案无差别,但在细节处理上略有不足,偶尔出现轻微的画面闪烁或纹理粗糙。而快餐师开头、大厨收尾的方案(SLL)则表现糟糕,即使后期有大厨加持,也无法挽救前期奠定的错误基础。

这个实验清楚地证明了"打基础"阶段的重要性。就像盖房子,如果地基歪了,后面再怎么精装修也救不回来。但如果地基打得牢固,中间的砌墙环节即使用普通工人也能达到良好效果。

二、精雕细琢的最后一击

接下来,研究团队又发现了另一个关键点:最后的"收尾"工作同样需要大厨亲自操刀。他们在LSS(大厨开头、快餐师收尾)的基础上,又让大厨在最后阶段重新登场,形成了LSL(大厨开头、快餐师中间、大厨收尾)的新模式。

这种模式的效果堪称完美。最终生成的视频在质量上与全程大厨方案几乎没有区别,甚至在某些方面还略有优势。为什么会这样呢?研究人员发现,快餐师在中间阶段虽然技术一般,但会在画面中引入一些轻微的"随机性",这种随机性反而让最终的画面看起来更自然、更真实,避免了过度平滑的"塑料感"。

当然,这个随机性必须控制在合理范围内。如果快餐师工作的时间过长,引入的随机性就会变成明显的瑕疵。因此,找到合适的"交班时机"成为关键。研究团队开发了巧妙的评估方法来确定最佳边界点。

对于"大厨何时下班"的问题,他们使用了一种叫做DINO相似度的指标。简单来说,就是比较混合方案产生的中间结果与全程大厂方案的相似程度。当相似度保持在96%以上时,说明基础结构已经稳固,可以放心让快餐师接手。

对于"大厨何时回归"的问题,他们使用FID指标来衡量最终画面质量。通过不断调整大厨回归的时间点,他们发现存在一个最佳平衡点,既能保证画面质量,又能最大化效率提升。

三、神奇的"速度差异曲线"

在研究过程中,团队还发现了一个非常有趣的现象。他们测量了大厨和快餐师在每个时间点上"工作方式"的差异程度,结果得到了一条优美的U型曲线。

这条曲线告诉我们一个重要信息:在视频生成的开始和结束阶段,大厨和快餐师的工作方式差异很大,这时必须使用大厨;而在中间阶段,两者的工作方式惊人地相似,这时用快餐师完全没问题。

这个发现不仅验证了团队的直觉,还为自动确定最佳切换时机提供了科学依据。研究人员可以根据这个U型曲线,自动识别出哪些时间段适合切换到快餐师模式。

更令人惊喜的是,这个规律在不同的视频生成模型上都成立,具有很强的普适性。无论是处理文字到视频的转换,还是图片到视频的转换,这个U型曲线都会出现,说明这是视频生成过程的内在规律,而不是某个特定模型的偶然现象。

四、实际效果让人惊叹

FlowBlending技术的实际表现令人印象深刻。在LTX-Video模型上,这项技术将生成速度提升了1.65倍,同时将计算量减少了57.35%,但生成的视频质量与原来几乎完全相同。在各项专业评估指标上,FlowBlending的表现都与全程使用大模型的结果不相上下。

更重要的是,这项技术可以与其他加速方法完美结合。研究团队测试了与DPM++求解器的组合,发现可以进一步将计算量减少50%。他们还测试了与蒸馏模型的结合,同样取得了良好效果。这意味着FlowBlending不是一个孤立的技术,而是可以融入现有技术生态的通用解决方案。

在实际应用中,这项技术展现出了强大的实用价值。无论是生成"梵高自拍风格"的艺术视频,还是制作"泰迪熊洗碗"的生活场景,亦或是创作"北极熊弹吉他"的有趣画面,FlowBlending都能在保持原有质量的同时显著提升生成速度。

研究团队还进行了大规模的对比测试,尝试了几乎所有可能的大小模型组合方案。结果显示,FlowBlending选择的LSL模式始终位于效率与质量的最佳平衡点,证明了这种"三阶段分工"策略的优越性。

五、技术细节的巧思

FlowBlending的成功不仅在于发现了视频生成过程的内在规律,还在于设计了精巧的实现方案。整个系统就像一个智能的"厨师调度系统",能够在最恰当的时机完成大厨和快餐师之间的无缝切换。

在早期阶段,系统使用大模型建立视频的全局结构和运动轮廓,这个过程通常占据总时长的20-30%,但消耗了大量计算资源。一旦基础结构确立,系统就切换到小模型,利用其高效的处理能力快速填充中间帧的具体内容,这个阶段占据总时长的40-60%。

在最后阶段,系统重新启用大模型进行精细化处理,消除小模型可能引入的细微瑕疵,提升画面的整体质感。这个阶段虽然时间不长,但对最终质量起到了关键作用。

整个切换过程对用户完全透明,不需要任何额外的训练或参数调整。用户只需要像平常一样输入文本描述或参考图片,系统会自动在后台完成所有的模型调度工作。

六、广泛的兼容性和未来展望

FlowBlending的另一个突出优点是其出色的兼容性。这项技术不需要修改现有的模型架构,不需要重新训练,也不需要额外的数据准备。它就像一个"外挂式"的加速器,可以轻松集成到现有的视频生成系统中。

研究团队在两个主流的开源视频生成模型上验证了技术效果,证明了其广泛的适用性。他们还测试了与多种现有加速技术的兼容性,包括采样步数削减算法和蒸馏技术,结果都表明FlowBlending可以与这些技术协同工作,实现"1+1>2"的加速效果。

这种兼容性意味着技术的推广和应用门槛很低。现有的视频生成服务商可以相对容易地集成这项技术,为用户提供更快的生成速度而不牺牲质量。对于个人用户来说,也意味着能够在相同的硬件条件下享受到更好的视频生成体验。

当然,这项技术也有一定的局限性。最主要的限制是需要针对不同的模型手动调整切换边界。虽然研究团队提供了基于U型曲线的自动识别方法,但在实际应用中可能还需要一些微调。此外,技术的效果在某种程度上依赖于大小模型之间的性能差异,如果两个模型能力过于接近,效果可能不够明显。

展望未来,这项技术有望推动整个AI视频生成行业的发展。随着模型规模不断增大,计算成本问题将变得更加突出,而FlowBlending提供的"智能分工"思路可能成为解决这一问题的重要途径。研究团队也在探索自动边界检测和模型无关的通用切换策略,力图让这项技术变得更加智能和易用。

说到底,FlowBlending的价值不仅在于提升了视频生成的效率,更在于揭示了AI系统优化的新思路。它告诉我们,有时候"全力以赴"并不是最好的策略,"适度分工"反而能实现更好的整体效果。这种思想不仅适用于视频生成,也可能启发其他AI应用领域的优化工作。归根结底,这项研究为我们展示了AI技术发展的一个重要方向:不是简单地追求模型规模的无限扩大,而是通过更智能的资源配置和任务分工来实现效率与质量的完美平衡。

对于普通用户而言,FlowBlending意味着能够以更低的成本和更快的速度获得高质量的AI生成视频,这将大大降低视频创作的门槛,让更多人能够享受到AI技术带来的创作乐趣。有兴趣深入了解这项技术详细原理和实验数据的读者,可以通过arXiv:2512.24724v1查询完整的研究论文。

Q&A

Q1:FlowBlending技术是什么原理?

A:FlowBlending是一种视频生成加速技术,核心原理是将视频生成过程分为三个阶段,在关键的开头和结尾阶段使用大模型确保质量,在中间阶段使用小模型提升效率,就像让大厨负责关键工序、快餐师处理简单环节,既保证了菜品质量又提高了制作速度。

Q2:这项技术能让视频生成快多少?

A:根据延世大学的实验结果,FlowBlending技术可以将视频生成速度提升1.65倍,同时减少57.35%的计算量,而且生成的视频质量与使用全程大模型几乎没有差别。如果结合其他加速技术,还能实现更大幅度的提升。

Q3:普通用户什么时候能用上FlowBlending技术?

A:FlowBlending技术的最大优点是不需要重新训练模型或修改架构,可以直接集成到现有的视频生成系统中。由于技术门槛相对较低,预计各大AI视频服务商很快就能将其整合到产品中,让普通用户享受到更快的视频生成速度。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
最高院:因配偶债务本人名下存款或其他资产被冻结的,如何救济?

最高院:因配偶债务本人名下存款或其他资产被冻结的,如何救济?

周军律师聊案子
2026-03-02 10:10:05
交了物业费还收车位管理费?2026年这4种情况,你可以直接拒交

交了物业费还收车位管理费?2026年这4种情况,你可以直接拒交

阿离家居
2026-03-01 16:53:47
赢球仅1天,中国男篮坏消息传来:将失去1个主场,冲4连胜难了

赢球仅1天,中国男篮坏消息传来:将失去1个主场,冲4连胜难了

墨印斋
2026-03-02 19:24:09
官宣!17岁新星前锋,获中国足球金童奖,U17亚预赛狂轰5场9球

官宣!17岁新星前锋,获中国足球金童奖,U17亚预赛狂轰5场9球

小金体坛大视野
2026-03-02 17:08:27
曾是央视知名主持,如今桂林街头买菜!她的选择为何让人深思?

曾是央视知名主持,如今桂林街头买菜!她的选择为何让人深思?

全球风情大揭秘
2026-01-11 23:10:48
俄铁公司将于3月开通前往中国的客运列车

俄铁公司将于3月开通前往中国的客运列车

俄罗斯卫星通讯社
2026-03-01 16:07:36
你们都是什么时候对男女之事开窍的?网友:果然还是拦不住有心人

你们都是什么时候对男女之事开窍的?网友:果然还是拦不住有心人

夜深爱杂谈
2026-02-21 21:37:02
男人寿命短,根源不在烟酒,而在你每晚的睡觉里

男人寿命短,根源不在烟酒,而在你每晚的睡觉里

青苹果sht
2026-02-26 07:24:18
2026年养老金或再涨,低于3000元涨10%,高于6000元停涨可行吗?

2026年养老金或再涨,低于3000元涨10%,高于6000元停涨可行吗?

另子维爱读史
2026-03-02 19:31:35
居心叵测!国际篮联道歉后又搞事情,主动提及惨案,男篮强势打脸

居心叵测!国际篮联道歉后又搞事情,主动提及惨案,男篮强势打脸

去山野间追风
2026-03-03 01:36:49
终于不用打码了!汪小菲高调晒三胎儿子,马筱梅让俩孩子彻底归心

终于不用打码了!汪小菲高调晒三胎儿子,马筱梅让俩孩子彻底归心

未曾青梅
2026-03-01 20:05:13
“一家子碳水脸!”3个男生寒假伙食遭2.6w围观:你家人真好养活

“一家子碳水脸!”3个男生寒假伙食遭2.6w围观:你家人真好养活

墨印斋
2026-03-01 22:08:59
开拓者用双向合同签下前雷霆后场新星,他在发展联盟表现出色?

开拓者用双向合同签下前雷霆后场新星,他在发展联盟表现出色?

稻谷与小麦
2026-03-03 00:51:37
一场34分惨败,让开拓者看清杨瀚森,中国球迷开始理解斯普利特

一场34分惨败,让开拓者看清杨瀚森,中国球迷开始理解斯普利特

天光破云来
2026-03-02 20:48:11
扫地出门!曝曼联决定出售两大主力!1.45亿强援强势“空降”

扫地出门!曝曼联决定出售两大主力!1.45亿强援强势“空降”

头狼追球
2026-03-02 09:34:35
美国军力全球第一,敢打任何国家?俄泼冷水:这4国你敢打谁?

美国军力全球第一,敢打任何国家?俄泼冷水:这4国你敢打谁?

近史谈
2026-01-19 10:09:51
中美日首次世界500强排名断崖差距:美151家,日149家,中国呢?

中美日首次世界500强排名断崖差距:美151家,日149家,中国呢?

阿柒的讯
2025-12-04 19:39:35
笑不活了,看来傍大款这碗饭不是谁都能吃的!网友:我可下不了嘴

笑不活了,看来傍大款这碗饭不是谁都能吃的!网友:我可下不了嘴

另子维爱读史
2026-03-01 23:17:53
48岁男子阴茎癌晚期,私生活干净,妻子痛心:1件事,他改不了

48岁男子阴茎癌晚期,私生活干净,妻子痛心:1件事,他改不了

全球军事记
2026-03-02 10:15:12
又有2名间谍被抓!潜藏17年,泄露大量国家机密,身份曝光不简单

又有2名间谍被抓!潜藏17年,泄露大量国家机密,身份曝光不简单

boss外传
2026-03-01 12:00:03
2026-03-03 03:08:49
科技行者 incentive-icons
科技行者
科技正在如何变革商业世界
7408文章数 553关注度
往期回顾 全部

科技要闻

苹果中国官网上线iPhone 17e,4499元起

头条要闻

中国留学生:很多人得知哈梅内伊身亡后 决定尽快撤离

头条要闻

中国留学生:很多人得知哈梅内伊身亡后 决定尽快撤离

体育要闻

“想要我签名吗” 梅西逆转后嘲讽对手主帅

娱乐要闻

李亚鹏与哥哥和解 只有一条真心话短信

财经要闻

油价飙升 美伊冲突将如何搅动全球经济

汽车要闻

国民SUV再添一员 瑞虎7L静态体验

态度原创

健康
时尚
本地
数码
亲子

转头就晕的耳石症,能开车上班吗?

今年春天一定要拥有的4件衣服,太好看了!

本地新闻

津南好·四时总相宜

数码要闻

高通MWC 2026发布多项通信技术,定档2029年开启6G商用

亲子要闻

45岁这年,我这个二胎妈妈决定做一件“疯狂”的事

无障碍浏览 进入关怀版