哈喽,大家好,杆哥这篇文章,主要来分析重磅突破!字节+港中文搞定AI难题,100种语义零样本复刻
想让AI复刻Labubu特效、还原吉卜力画风,或是跳出爆款舞蹈、模仿希区柯克运镜?
以前做这些事,普通人想都不敢想,就算是专业创作者,也得跟复杂的模型参数死磕。
![]()
但现在不一样了,香港中文大学和字节跳动联合搞出了个大动作,推出了一款叫Video-As-Prompt的AI生成框架。
![]()
它把复杂的语义控制变得像抄作业一样简单,还把所有核心资源全开源了,直接给AI创作行业来了次大升级。
AI生成火了这么久,抽象语义控制一直是个老大难问题。
不是技术不行,而是之前的思路走进了死胡同。
之前想让AI实现这些抽象效果,思路特别直接但笨得很。要么针对每种语义单独训练LoRA,一个效果一个模型,用的时候还得来回切换。
![]()
语义这东西无穷无尽,新出个风格、新舞蹈,就得重新训练,不仅麻烦,还特别吃电脑性能,普通人根本扛不住。
还有些方法是针对某类语义专门设计模型,比如专门管相机运镜的、专门做风格迁移的。
这种模型在自己的小领域里好用,但跨领域就歇菜了,想同时控风格和动作,还得切换不同模型,效率低得离谱。
![]()
更关键的是,这些方法面对没训练过的新语义,直接就“罢工”,泛化能力差到让人头疼,根本没法规模化使用。
![]()
Video-As-Prompt最牛的地方,就是跳出了之前的思维定式,换了个简单又高效的思路。
它不再纠结于给每种语义单独建模,而是提出了“参考”的新范式。
用户不用懂任何技术,只要给一段参考,再配上简单的文字描述,模型就能自动“克隆”里的语义,然后应用到新内容上。
![]()
不管是艺术风格、复杂动作,还是相机运镜、抽象概念,全都能用这一套方法搞定。
这个思路看似简单,却从根本上解决了统一语义表征的难题。
不用再给不同语义分类,也不用设计一堆针对性模型,一个框架就能通吃所有需求,不仅降低了使用难度,还大大提升了模型的通用性。
![]()
而且这种“+文字”的提示方式,特别符合普通人的创作习惯,就像跟AI说“照着这个样子做”,门槛低到几乎没有。
![]()
一款好用的AI工具,背后离不开强大的技术和数据支撑。
为了让这个框架能稳定运行,团队专门构建了一个叫VAP-Data的数据集,规模直接拉满。
这个数据集包含100K条精选,覆盖了100多个高质量语义条件,是目前开源领域里最大的语义可控生成数据集。
![]()
有了这么丰富的数据,模型才能学到足够多的语义特征,不管是常见需求还是小众风格,都能应对自如。
在架构设计上,团队也花了不少心思。
直接训练生成基模很容易出现“越训练越忘事”的灾难性遗忘问题,为了解决这个痛点,他们采用了Mixture-of-Transformers(MoTs)架构。
简单说就是一个冻结的扩散Transformer(DiT),加上一个可训练的并行专家Transformer,两者各司其职又相互配合。
![]()
专家Transformer专门处理参考的语义信息,冻结的DiT负责生成内容,两层结构通过全注意力机制融合,既能保证生成质量,又能实现精准的语义控制。
这种即插即用的设计,让模型在训练时更稳定,推理时也更高效,为后续的规模化应用打下了坚实基础。
光有好思路和硬架构还不够,实际表现才是检验工具的唯一标准。
团队把Video-As-Prompt和两类主流方法做了对比,一类是统一的结构化控制生成模型,另一类是离散的语义控制方法。
测试结果让人惊喜,它在质量、文本一致性、语义一致性上,都跟Kling/Vidu这类闭源商业API不相上下,还远远超过了其他开源基线模型。
![]()
更厉害的是它的零样本泛化能力。
面对训练数据里完全没见过的新语义,只要给一段参考,模型就能快速学习并生成符合要求的内容,这是之前所有方法都做不到的。
现在,这个框架的训练、推理代码,还有刚才提到的VAP-Data数据集,已经全部开源了。
不管是普通创作者、技术开发者,还是科研人员,都能免费使用这些资源。
![]()
对创作者来说,以后不用再为复杂的语义控制发愁,参考+简单描述就能实现创意;对开发者来说,可以直接把这个框架集成到创作工具里,丰富产品功能;对科研人员来说,大规模的数据集和统一框架,能让相关研究少走很多弯路。
这款工具的出现,不仅打破了语义控制的技术壁垒,还降低了AI创作的门槛。
随着越来越多人参与到这个生态里,后续大概率会衍生出更多实用的应用场景,AIGC创作也会朝着更可控、更丰富、更普惠的方向发展,普通人的创作想象力,终于不用再被技术限制了。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.