网易首页 > 网易号 > 正文 申请入驻

韩国延世大学AI新突破:让视频生成快65%的"拼配"技术

0
分享至


这项由韩国延世大学的宋智彬、权敏基、郑在锡和禹荣正领导的研究发表于2024年12月的计算机视觉领域顶级会议,论文编号为arXiv:2512.24724v1。有兴趣深入了解的读者可以通过该编号查询完整论文。

制作一部高质量的AI视频,就像烹饪一道精美大餐。传统方法要求每个步骤都使用最昂贵的食材和最复杂的工艺,结果虽然精美,但成本高昂,制作缓慢。然而,延世大学的研究团队发现了一个令人惊喜的现象:在这道"烹饪"过程中,并非每个步骤都需要顶级"厨师"亲自操刀。

当前的AI视频生成就像请了一位米其林三星大厨从头到尾制作整顿饭菜。这位大厨技艺精湛,能做出完美的视频,但速度慢、成本高。同时市面上还有一些"快餐厨师",虽然速度快、成本低,但做出的菜品质量明显不如大厨。研究人员开始思考:能否让大厨只负责最关键的环节,而让快餐厨师处理相对简单的部分,既保持菜品质量又提高效率?

经过深入研究,团队发现视频生成过程可以分为三个阶段,就像做菜的三个关键步骤。第一个阶段类似于"打基础"——确定菜品的整体风格和主要结构,这个阶段至关重要,决定了最终成品的基本样貌。第二个阶段像"填充内容"——在已有框架基础上添加具体细节,这个阶段相对机械化。第三个阶段如同"精装修"——对细节进行精雕细琢,去除瑕疵,让成品更加精美。

研究团队通过大量实验发现了一个颠覆性规律:在第一和第三阶段,大厨的专业技能不可替代,但在第二阶段,快餐厨师完全可以胜任,而且做出来的效果与大厨几乎没有差别。基于这一发现,他们开发了名为"FlowBlending"的新技术,中文可以理解为"流程拼配术"。

一、大厨与快餐师的智慧分工

为了验证这个大胆的想法,研究团队设计了一系列对比实验。他们使用了两个目前最先进的视频生成模型:LTX-Video和WAN 2.1。每个模型都有大小两个版本,大版本就像经验丰富的大厨,小版本则像速度更快的快餐师。

实验过程就像安排不同厨师按照不同顺序制作同一道菜。研究人员尝试了四种"排班"方式:第一种是全程大厨(LLL),第二种是大厨开头、快餐师收尾(LSS),第三种是快餐师开头、大厨收尾(SLL),第四种是全程快餐师(SSS)。

结果令人震惊。全程大厨的方案确实能产出最高质量的"菜品",画面清晰、动作流畅、细节丰富。全程快餐师的方案虽然速度最快,但经常出现"翻车"现象——物体变形、动作不连贯、甚至完全偏离预期效果。

真正的发现出现在混合方案上。大厨开头、快餐师收尾的方案(LSS)在整体结构和运动表现上几乎与全程大厨方案无差别,但在细节处理上略有不足,偶尔出现轻微的画面闪烁或纹理粗糙。而快餐师开头、大厨收尾的方案(SLL)则表现糟糕,即使后期有大厨加持,也无法挽救前期奠定的错误基础。

这个实验清楚地证明了"打基础"阶段的重要性。就像盖房子,如果地基歪了,后面再怎么精装修也救不回来。但如果地基打得牢固,中间的砌墙环节即使用普通工人也能达到良好效果。

二、精雕细琢的最后一击

接下来,研究团队又发现了另一个关键点:最后的"收尾"工作同样需要大厨亲自操刀。他们在LSS(大厨开头、快餐师收尾)的基础上,又让大厨在最后阶段重新登场,形成了LSL(大厨开头、快餐师中间、大厨收尾)的新模式。

这种模式的效果堪称完美。最终生成的视频在质量上与全程大厨方案几乎没有区别,甚至在某些方面还略有优势。为什么会这样呢?研究人员发现,快餐师在中间阶段虽然技术一般,但会在画面中引入一些轻微的"随机性",这种随机性反而让最终的画面看起来更自然、更真实,避免了过度平滑的"塑料感"。

当然,这个随机性必须控制在合理范围内。如果快餐师工作的时间过长,引入的随机性就会变成明显的瑕疵。因此,找到合适的"交班时机"成为关键。研究团队开发了巧妙的评估方法来确定最佳边界点。

对于"大厨何时下班"的问题,他们使用了一种叫做DINO相似度的指标。简单来说,就是比较混合方案产生的中间结果与全程大厂方案的相似程度。当相似度保持在96%以上时,说明基础结构已经稳固,可以放心让快餐师接手。

对于"大厨何时回归"的问题,他们使用FID指标来衡量最终画面质量。通过不断调整大厨回归的时间点,他们发现存在一个最佳平衡点,既能保证画面质量,又能最大化效率提升。

三、神奇的"速度差异曲线"

在研究过程中,团队还发现了一个非常有趣的现象。他们测量了大厨和快餐师在每个时间点上"工作方式"的差异程度,结果得到了一条优美的U型曲线。

这条曲线告诉我们一个重要信息:在视频生成的开始和结束阶段,大厨和快餐师的工作方式差异很大,这时必须使用大厨;而在中间阶段,两者的工作方式惊人地相似,这时用快餐师完全没问题。

这个发现不仅验证了团队的直觉,还为自动确定最佳切换时机提供了科学依据。研究人员可以根据这个U型曲线,自动识别出哪些时间段适合切换到快餐师模式。

更令人惊喜的是,这个规律在不同的视频生成模型上都成立,具有很强的普适性。无论是处理文字到视频的转换,还是图片到视频的转换,这个U型曲线都会出现,说明这是视频生成过程的内在规律,而不是某个特定模型的偶然现象。

四、实际效果让人惊叹

FlowBlending技术的实际表现令人印象深刻。在LTX-Video模型上,这项技术将生成速度提升了1.65倍,同时将计算量减少了57.35%,但生成的视频质量与原来几乎完全相同。在各项专业评估指标上,FlowBlending的表现都与全程使用大模型的结果不相上下。

更重要的是,这项技术可以与其他加速方法完美结合。研究团队测试了与DPM++求解器的组合,发现可以进一步将计算量减少50%。他们还测试了与蒸馏模型的结合,同样取得了良好效果。这意味着FlowBlending不是一个孤立的技术,而是可以融入现有技术生态的通用解决方案。

在实际应用中,这项技术展现出了强大的实用价值。无论是生成"梵高自拍风格"的艺术视频,还是制作"泰迪熊洗碗"的生活场景,亦或是创作"北极熊弹吉他"的有趣画面,FlowBlending都能在保持原有质量的同时显著提升生成速度。

研究团队还进行了大规模的对比测试,尝试了几乎所有可能的大小模型组合方案。结果显示,FlowBlending选择的LSL模式始终位于效率与质量的最佳平衡点,证明了这种"三阶段分工"策略的优越性。

五、技术细节的巧思

FlowBlending的成功不仅在于发现了视频生成过程的内在规律,还在于设计了精巧的实现方案。整个系统就像一个智能的"厨师调度系统",能够在最恰当的时机完成大厨和快餐师之间的无缝切换。

在早期阶段,系统使用大模型建立视频的全局结构和运动轮廓,这个过程通常占据总时长的20-30%,但消耗了大量计算资源。一旦基础结构确立,系统就切换到小模型,利用其高效的处理能力快速填充中间帧的具体内容,这个阶段占据总时长的40-60%。

在最后阶段,系统重新启用大模型进行精细化处理,消除小模型可能引入的细微瑕疵,提升画面的整体质感。这个阶段虽然时间不长,但对最终质量起到了关键作用。

整个切换过程对用户完全透明,不需要任何额外的训练或参数调整。用户只需要像平常一样输入文本描述或参考图片,系统会自动在后台完成所有的模型调度工作。

六、广泛的兼容性和未来展望

FlowBlending的另一个突出优点是其出色的兼容性。这项技术不需要修改现有的模型架构,不需要重新训练,也不需要额外的数据准备。它就像一个"外挂式"的加速器,可以轻松集成到现有的视频生成系统中。

研究团队在两个主流的开源视频生成模型上验证了技术效果,证明了其广泛的适用性。他们还测试了与多种现有加速技术的兼容性,包括采样步数削减算法和蒸馏技术,结果都表明FlowBlending可以与这些技术协同工作,实现"1+1>2"的加速效果。

这种兼容性意味着技术的推广和应用门槛很低。现有的视频生成服务商可以相对容易地集成这项技术,为用户提供更快的生成速度而不牺牲质量。对于个人用户来说,也意味着能够在相同的硬件条件下享受到更好的视频生成体验。

当然,这项技术也有一定的局限性。最主要的限制是需要针对不同的模型手动调整切换边界。虽然研究团队提供了基于U型曲线的自动识别方法,但在实际应用中可能还需要一些微调。此外,技术的效果在某种程度上依赖于大小模型之间的性能差异,如果两个模型能力过于接近,效果可能不够明显。

展望未来,这项技术有望推动整个AI视频生成行业的发展。随着模型规模不断增大,计算成本问题将变得更加突出,而FlowBlending提供的"智能分工"思路可能成为解决这一问题的重要途径。研究团队也在探索自动边界检测和模型无关的通用切换策略,力图让这项技术变得更加智能和易用。

说到底,FlowBlending的价值不仅在于提升了视频生成的效率,更在于揭示了AI系统优化的新思路。它告诉我们,有时候"全力以赴"并不是最好的策略,"适度分工"反而能实现更好的整体效果。这种思想不仅适用于视频生成,也可能启发其他AI应用领域的优化工作。归根结底,这项研究为我们展示了AI技术发展的一个重要方向:不是简单地追求模型规模的无限扩大,而是通过更智能的资源配置和任务分工来实现效率与质量的完美平衡。

对于普通用户而言,FlowBlending意味着能够以更低的成本和更快的速度获得高质量的AI生成视频,这将大大降低视频创作的门槛,让更多人能够享受到AI技术带来的创作乐趣。有兴趣深入了解这项技术详细原理和实验数据的读者,可以通过arXiv:2512.24724v1查询完整的研究论文。

Q&A

Q1:FlowBlending技术是什么原理?

A:FlowBlending是一种视频生成加速技术,核心原理是将视频生成过程分为三个阶段,在关键的开头和结尾阶段使用大模型确保质量,在中间阶段使用小模型提升效率,就像让大厨负责关键工序、快餐师处理简单环节,既保证了菜品质量又提高了制作速度。

Q2:这项技术能让视频生成快多少?

A:根据延世大学的实验结果,FlowBlending技术可以将视频生成速度提升1.65倍,同时减少57.35%的计算量,而且生成的视频质量与使用全程大模型几乎没有差别。如果结合其他加速技术,还能实现更大幅度的提升。

Q3:普通用户什么时候能用上FlowBlending技术?

A:FlowBlending技术的最大优点是不需要重新训练模型或修改架构,可以直接集成到现有的视频生成系统中。由于技术门槛相对较低,预计各大AI视频服务商很快就能将其整合到产品中,让普通用户享受到更快的视频生成速度。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
立陶宛请求访华,要当面向中方认错?中方开出条件,做不到就免谈

立陶宛请求访华,要当面向中方认错?中方开出条件,做不到就免谈

掉了颗大白兔糖
2026-03-26 07:31:17
扫地僧不去干预,乔峰父子打得过慕容博、慕容复、鸠摩智三人吗?

扫地僧不去干预,乔峰父子打得过慕容博、慕容复、鸠摩智三人吗?

武侠百晓生
2026-03-26 10:50:32
中东战场外的大赢家:俄罗斯拿下越南核电和液化天然气大单

中东战场外的大赢家:俄罗斯拿下越南核电和液化天然气大单

澎湃新闻
2026-03-25 19:52:29
1 胜 180 负! 加时领先 13 分 被逆转,火箭耻辱创史!

1 胜 180 负! 加时领先 13 分 被逆转,火箭耻辱创史!

贵圈真乱
2026-03-26 17:33:49
岳云鹏现身上海,气场跟以前完全不一样了,助理当街抽烟也不避讳

岳云鹏现身上海,气场跟以前完全不一样了,助理当街抽烟也不避讳

仙味少女心
2026-03-24 16:47:29
服务犬第一次坐飞机,不忘叼着自己的阿布布,全程乖巧像小玩偶

服务犬第一次坐飞机,不忘叼着自己的阿布布,全程乖巧像小玩偶

Magic宠物社
2026-03-25 19:11:59
特变电工:公司输变电产线基本处于满负荷生产状态,公司变压器、电线电缆、电抗器等输变电产品在手订单饱满

特变电工:公司输变电产线基本处于满负荷生产状态,公司变压器、电线电缆、电抗器等输变电产品在手订单饱满

每日经济新闻
2026-03-26 19:25:48
金刻羽给特朗普献计:现有政策全部反过来,就能锁住中国发展

金刻羽给特朗普献计:现有政策全部反过来,就能锁住中国发展

福建平子
2026-03-21 09:14:00
第一名帅!执教18年获40冠,瓜迪奥拉甩开穆里尼奥,有望超弗格森

第一名帅!执教18年获40冠,瓜迪奥拉甩开穆里尼奥,有望超弗格森

夏侯看英超
2026-03-24 00:07:54
“尼帕病毒”来势汹汹,建议:每家备好6样东西,关键时刻能救命

“尼帕病毒”来势汹汹,建议:每家备好6样东西,关键时刻能救命

路医生健康科普
2026-01-28 12:18:49
U23国足2-2逼平泰国,名宿范志毅赛后点评言辞犀利,句句在理!

U23国足2-2逼平泰国,名宿范志毅赛后点评言辞犀利,句句在理!

田先生篮球
2026-03-25 22:37:26
A股:两个信息落地,明天,周五或会这样走了!

A股:两个信息落地,明天,周五或会这样走了!

明心
2026-03-26 16:35:30
微软前CTO长文控诉:Windows被搞成一锅粥!14年14次转变、17种GUI共存

微软前CTO长文控诉:Windows被搞成一锅粥!14年14次转变、17种GUI共存

快科技
2026-03-25 15:13:32
伊朗导弹砸向美国航母:伊朗打出了开战以来最强一拳

伊朗导弹砸向美国航母:伊朗打出了开战以来最强一拳

起喜电影
2026-03-26 14:20:32
法媒:“伊朗战争的首个受害者是真相”

法媒:“伊朗战争的首个受害者是真相”

参考消息
2026-03-26 13:30:07
“以前每桶省20美元,现在一分折扣没有” 油价“破百”下的山东地炼产业现状深度调查

“以前每桶省20美元,现在一分折扣没有” 油价“破百”下的山东地炼产业现状深度调查

每日经济新闻
2026-03-26 13:14:14
苹果把降噪塞了1.5倍,价格却忘了改

苹果把降噪塞了1.5倍,价格却忘了改

硬核玩家2哈
2026-03-25 22:01:40
再也不愁充电难了!成都将充电桩装在路灯上:600多个点位4月底投用

再也不愁充电难了!成都将充电桩装在路灯上:600多个点位4月底投用

快科技
2026-03-26 16:20:10
腿部是心梗的提示器?提醒:若腿部出现这4种表现,尽快就医

腿部是心梗的提示器?提醒:若腿部出现这4种表现,尽快就医

路医生健康科普
2026-03-16 22:10:03
特朗普战争致共和党优势尽失,民主党胜率达85%

特朗普战争致共和党优势尽失,民主党胜率达85%

揽星辰入梦
2026-03-26 18:51:00
2026-03-26 20:04:49
科技行者 incentive-icons
科技行者
科技正在如何变革商业世界
7746文章数 556关注度
往期回顾 全部

科技要闻

Meta高管狂分百亿期权,700名员工却下岗

头条要闻

张雪峰留巨额遗产:二婚妻子或拿50% 剩下的女儿占1/3

头条要闻

张雪峰留巨额遗产:二婚妻子或拿50% 剩下的女儿占1/3

体育要闻

申京努力了,然而杜兰特啊

娱乐要闻

刘晓庆妹妹发声!称姐姐受身边人挑拨

财经要闻

油价"驯服"特朗普?一到100美元就TACO

汽车要闻

一汽奥迪A6L e-tron开启预售 CLTC最大续航815km

态度原创

游戏
本地
房产
公开课
军事航空

《迷你金属2》4月开启开发版测试 军事题材战略模拟

本地新闻

救命,这只酱板鸭已经在我手机复仇了一万遍

房产要闻

突发,三亚又有大批征迁补偿方案出炉!

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

担心特朗普突然停战 以总理下令48小时尽力摧毁伊设施

无障碍浏览 进入关怀版