网易首页 > 网易号 > 正文 申请入驻

每一幕皆可控!字节发布多主体视频生成神器,人人皆主角

0
分享至

字节 投稿
量子位 | 公众号 QbitAI

仅基于一张参考图像,生成主体保持高度一致的视频,多人同台也不串脸

字节发布多主体视频生成神器——MAGREF(Masked Guidance for Any‑Reference Video Generation)

比如,爱因斯坦版风驰电掣**摩托,效果be like:



牛顿纵情挥笔绘制大作:



提供一张图灵的参考图,也能生成动起来的全身视频,人物面貌服饰在每一帧中保持高一致性,不会逐渐跑偏:



根据多样文本提示,MAGREF可实现“一图千面”:



无论输入是谁、来自哪个时代、风格是否抽象,它都能精准复刻其身份特征,同时根据文本指令渲染出多变的动作、环境和光影氛围。



重要的是,不仅是单一主体生成



MAGREF在不增加模型复杂度的前提下,通过引入掩码引导与通道拼接机制,实现了对多样参考图像的统一处理能力。

无论是单人演绎、多人物互动,还是人物与物体、背景共同出现在画面中,MAGREF都能生成身份稳定、结构一致、语义协调的视频序列。

多人同台不串脸,人物+物体+场景全控

在传统视频生成任务中,一旦涉及多个人物共同出现在镜头中,模型就容易出现身份混淆、面部融合、动作不协调等问题。MAGREF则打破了这一技术瓶颈。

下面多个示例中,两人自拍、三位女孩喝饮料等复杂场景,全部是由MAGREF通过多张参考图生成的完整视频序列。



每一位角色的面貌、发型、神态与参考图一致,表情自然,互动合理。



不论是两人同框还是群体联动,或是人物置于复杂背景中,MAGREF都能以统一结构精确建模,生成真实可信的多主体视频。

另外,在图像生成迈向视频时代的过程中,想要同时控制人物身份、出现物体、背景语境三要素,是一项极具挑战的任务。

而MAGREF展示了这一领域的崭新能力边界。

MAGREF只需输入:一张人像图、一张物体图、一张环境参考图和一段prompt,就能生成包含三类要素的完整视频序列,人物与物体有真实交互,场景融入毫无违和感。



可以看到多种组合场景:

  • 人与宠物共处草地、与猫嬉戏;
  • 人物形象与服饰属性一体生成,如黑色T恤、泳装;
  • 背景从绿地到写字楼,从乡村街景到东方园林,语义清晰且风格协调。



那MAGREF是如何做到的?

基于掩码指导的的DiT视频生成方案

首先,MAGREF采用了一个三阶段数据处理流程,以构建高质量、结构清晰的视频训练样本:

  • 通用筛选与字幕生成:从原始视频中切分出语义一致的片段,过滤低质量样本,并为每段生成结构化文本。
  • 主体提取与掩码标注:通过标签提取与语义分割识别出视频中的关键物体(如动物、服饰、道具等),并进行后处理以获得精准遮罩。
  • 人脸识别与身份建模:检测并分配视频中人物身份,筛选高质量面部图像用于参考图构建,确保训练过程中的身份一致性。



另外,MAGREF构建在DiT(Diffusion Transformer)架构之上,通过引入两项关键机制——区域感知动态遮罩与像素级通道拼接,成功实现了一个统一模型适配单人、多人、人物与物体+背景混合 等复杂视频生成任务的能力。



具体来说,MAGREF首先在生成空间中构建一块空白画布,将输入的参考图(可以是人脸、宠物、服饰、背景等)随机排列其中。

随后,模型为每张参考图生成一张空间区域掩码,指示该图像在画布中的语义位置。

这个区域感知动态遮罩机制可自动引导模型理解“谁控制哪一块画面”,使得在视频生成中,即使参考图数量和顺序不同,系统也能保持结构一致、身份不串、关系明确。

为了进一步提升外观细节保真度,MAGREF还采用了像素级通道拼接策略

将所有参考图在特征维度上逐像素对齐拼接,避免传统 token 拼接可能引发的图像模糊或信息混叠问题。

该机制不仅增强了视觉一致性,也保持了生成结果对姿态、服饰、背景等细节的精准还原。

无需为不同任务单独设计模型,MAGREF通过最小的架构改动和统一的训练流程,全面支持多种参考图配置,实现了强泛化性与高可控性的平衡。

总结来说,MAGREF作为一个统一的参考图驱动视频生成框架,具备高度的通用性和灵活性,适用于从个人内容创作到企业级生产的多种场景。

无论是通过一张自拍生成日常短片,还是合成多人互动的广告脚本,又或是构建虚拟人与真实场景融合的数字影像,MAGREF都展现出极强的生成一致性与可控性。

展望未来,团队计划引入更先进的模型架构,进一步提升视频的清晰度、运动连贯性与长时一致性。

同时,MAGREF将朝着统一多模态生成系统方向演进,结合多模态大语言模型(MLLM)在理解与视觉定位上的强大能力,实现视频、音频与文本的联动生成。

这一扩展将使系统不仅能“看懂”图文指令,还能“听懂”“说出”场景语义,从而实现真正意义上的跨模态、协同一致的智能内容创作框架。

注:文中示例仅为展示模型效果。如有侵权或冒犯,请联系论文作者,将及时删除。

project: https://magref-video.github.io/magref.github.io/
code: https://github.com/MAGREF-Video/MAGREF
arXiv: https://arxiv.org/pdf/2505.23742

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
以色列前情报局长承认,全球的设备都在被操控,包括美国的也一样

以色列前情报局长承认,全球的设备都在被操控,包括美国的也一样

普览
2025-11-18 20:27:55
山东人的体质!1米95张展硕的家庭:父亲1米85,母亲1米75

山东人的体质!1米95张展硕的家庭:父亲1米85,母亲1米75

史行途
2025-11-19 18:22:55
上位靠睡、赶走原配!刚拿金鸡奖影后的宋佳,私生活传闻有多离谱

上位靠睡、赶走原配!刚拿金鸡奖影后的宋佳,私生活传闻有多离谱

萧鑟科普解说
2025-11-18 10:02:39
日本媒体哀叹:中日磋商后,高市早苗政府激烈争执,试图冷处理

日本媒体哀叹:中日磋商后,高市早苗政府激烈争执,试图冷处理

章民解说体育
2025-11-18 19:35:20
苹果官网国补页面更新,iPhone 17 大降价!

苹果官网国补页面更新,iPhone 17 大降价!

花果科技
2025-11-19 13:32:36
比王宝强还惨?喻恩泰老婆林子约 p 成瘾,不让见孩子,涉嫌吸D

比王宝强还惨?喻恩泰老婆林子约 p 成瘾,不让见孩子,涉嫌吸D

第一娱记
2025-11-19 09:04:43
美预言家朱迪再爆猛料:美日中命运已定,此岛将首遭灾

美预言家朱迪再爆猛料:美日中命运已定,此岛将首遭灾

心灵短笛
2025-11-14 09:28:10
亡国146年:琉球人忘了汉语,却把 “我是中国人” 刻进骨子里

亡国146年:琉球人忘了汉语,却把 “我是中国人” 刻进骨子里

通文知史
2025-11-18 21:15:03
体面投降了?马杜罗同意求和,中方接到通知,特朗普亮明最新态度

体面投降了?马杜罗同意求和,中方接到通知,特朗普亮明最新态度

影孖看世界
2025-11-19 18:21:01
大批日本科学家奔赴中国!表面上是为钱弃日,实则背后是何目的?

大批日本科学家奔赴中国!表面上是为钱弃日,实则背后是何目的?

元爸体育
2025-11-20 05:09:34
刘劲松微笑会见各国使节 为啥只对你没好脸色?

刘劲松微笑会见各国使节 为啥只对你没好脸色?

看看新闻Knews
2025-11-19 21:00:01
41分+20板+18助!联盟第1!字母哥伤停,总冠军和MVP都没戏了

41分+20板+18助!联盟第1!字母哥伤停,总冠军和MVP都没戏了

世界体育圈
2025-11-19 10:25:11
全运会乒乓女团落幕!诞生3个赢家、2个输家,孙颖莎、陈梦在列

全运会乒乓女团落幕!诞生3个赢家、2个输家,孙颖莎、陈梦在列

知轩体育
2025-11-19 23:51:51
47岁海清近况让人心酸,脸垮嘴斜、又普又显老,昔日女神也落寞了

47岁海清近况让人心酸,脸垮嘴斜、又普又显老,昔日女神也落寞了

心静物娱
2025-11-18 09:20:16
中国邮政集团有限公司湖北省分公司总经理姚杰接受审查调查

中国邮政集团有限公司湖北省分公司总经理姚杰接受审查调查

界面新闻
2025-11-19 15:03:51
23秒02!“小孩姐”陈妤颉拿下全运会女子200米冠军,赛后表示:这是人生的开始,回去想吃喝玩乐

23秒02!“小孩姐”陈妤颉拿下全运会女子200米冠军,赛后表示:这是人生的开始,回去想吃喝玩乐

极目新闻
2025-11-19 22:30:04
杨瀚森闪耀NBA!单场9分5板3助,连创5大纪录,赛后还有1个好消息

杨瀚森闪耀NBA!单场9分5板3助,连创5大纪录,赛后还有1个好消息

球场没跑道
2025-11-19 14:37:17
包河区委书记调整

包河区委书记调整

网易安徽
2025-11-19 20:28:19
高建民同志逝世

高建民同志逝世

新京报
2025-11-19 18:35:08
罗志祥采访疑似内涵周扬青,只说被黑不提错,网友怒怼太双标

罗志祥采访疑似内涵周扬青,只说被黑不提错,网友怒怼太双标

一娱三分地
2025-11-19 19:12:34
2025-11-20 06:20:49
量子位 incentive-icons
量子位
追踪人工智能动态
11708文章数 176335关注度
往期回顾 全部

科技要闻

一夜封神,Gemini 3让谷歌找回“碾压感”

头条要闻

日方要求解释为何未告知磋商后会有媒体拍摄 中方回应

头条要闻

日方要求解释为何未告知磋商后会有媒体拍摄 中方回应

体育要闻

世界杯最小参赛国诞生!15万人岛国的奇迹

娱乐要闻

史林子出轨对方前妻放锤!

财经要闻

重磅!中金公司拟收购东兴与信达证券

汽车要闻

此刻价格不重要 第5代帝豪本身就是价值

态度原创

健康
旅游
房产
教育
家居

警惕超声报告这六大"坑"

旅游要闻

金槐染晋南!六百年移民史诗,洪洞大槐树藏着亿万人的根!

房产要闻

29.4亿!海南“地王”片区,要卖超级宅地!

教育要闻

目前去日本留学安全吗

家居要闻

水岸美学 书香人文生活

无障碍浏览 进入关怀版