网易首页 > 网易号 > 正文 申请入驻

每一幕皆可控!字节发布多主体视频生成神器,人人皆主角

0
分享至

字节 投稿
量子位 | 公众号 QbitAI

仅基于一张参考图像,生成主体保持高度一致的视频,多人同台也不串脸

字节发布多主体视频生成神器——MAGREF(Masked Guidance for Any‑Reference Video Generation)

比如,爱因斯坦版风驰电掣**摩托,效果be like:



牛顿纵情挥笔绘制大作:



提供一张图灵的参考图,也能生成动起来的全身视频,人物面貌服饰在每一帧中保持高一致性,不会逐渐跑偏:



根据多样文本提示,MAGREF可实现“一图千面”:



无论输入是谁、来自哪个时代、风格是否抽象,它都能精准复刻其身份特征,同时根据文本指令渲染出多变的动作、环境和光影氛围。



重要的是,不仅是单一主体生成



MAGREF在不增加模型复杂度的前提下,通过引入掩码引导与通道拼接机制,实现了对多样参考图像的统一处理能力。

无论是单人演绎、多人物互动,还是人物与物体、背景共同出现在画面中,MAGREF都能生成身份稳定、结构一致、语义协调的视频序列。

多人同台不串脸,人物+物体+场景全控

在传统视频生成任务中,一旦涉及多个人物共同出现在镜头中,模型就容易出现身份混淆、面部融合、动作不协调等问题。MAGREF则打破了这一技术瓶颈。

下面多个示例中,两人自拍、三位女孩喝饮料等复杂场景,全部是由MAGREF通过多张参考图生成的完整视频序列。



每一位角色的面貌、发型、神态与参考图一致,表情自然,互动合理。



不论是两人同框还是群体联动,或是人物置于复杂背景中,MAGREF都能以统一结构精确建模,生成真实可信的多主体视频。

另外,在图像生成迈向视频时代的过程中,想要同时控制人物身份、出现物体、背景语境三要素,是一项极具挑战的任务。

而MAGREF展示了这一领域的崭新能力边界。

MAGREF只需输入:一张人像图、一张物体图、一张环境参考图和一段prompt,就能生成包含三类要素的完整视频序列,人物与物体有真实交互,场景融入毫无违和感。



可以看到多种组合场景:

  • 人与宠物共处草地、与猫嬉戏;
  • 人物形象与服饰属性一体生成,如黑色T恤、泳装;
  • 背景从绿地到写字楼,从乡村街景到东方园林,语义清晰且风格协调。



那MAGREF是如何做到的?

基于掩码指导的的DiT视频生成方案

首先,MAGREF采用了一个三阶段数据处理流程,以构建高质量、结构清晰的视频训练样本:

  • 通用筛选与字幕生成:从原始视频中切分出语义一致的片段,过滤低质量样本,并为每段生成结构化文本。
  • 主体提取与掩码标注:通过标签提取与语义分割识别出视频中的关键物体(如动物、服饰、道具等),并进行后处理以获得精准遮罩。
  • 人脸识别与身份建模:检测并分配视频中人物身份,筛选高质量面部图像用于参考图构建,确保训练过程中的身份一致性。



另外,MAGREF构建在DiT(Diffusion Transformer)架构之上,通过引入两项关键机制——区域感知动态遮罩与像素级通道拼接,成功实现了一个统一模型适配单人、多人、人物与物体+背景混合 等复杂视频生成任务的能力。



具体来说,MAGREF首先在生成空间中构建一块空白画布,将输入的参考图(可以是人脸、宠物、服饰、背景等)随机排列其中。

随后,模型为每张参考图生成一张空间区域掩码,指示该图像在画布中的语义位置。

这个区域感知动态遮罩机制可自动引导模型理解“谁控制哪一块画面”,使得在视频生成中,即使参考图数量和顺序不同,系统也能保持结构一致、身份不串、关系明确。

为了进一步提升外观细节保真度,MAGREF还采用了像素级通道拼接策略

将所有参考图在特征维度上逐像素对齐拼接,避免传统 token 拼接可能引发的图像模糊或信息混叠问题。

该机制不仅增强了视觉一致性,也保持了生成结果对姿态、服饰、背景等细节的精准还原。

无需为不同任务单独设计模型,MAGREF通过最小的架构改动和统一的训练流程,全面支持多种参考图配置,实现了强泛化性与高可控性的平衡。

总结来说,MAGREF作为一个统一的参考图驱动视频生成框架,具备高度的通用性和灵活性,适用于从个人内容创作到企业级生产的多种场景。

无论是通过一张自拍生成日常短片,还是合成多人互动的广告脚本,又或是构建虚拟人与真实场景融合的数字影像,MAGREF都展现出极强的生成一致性与可控性。

展望未来,团队计划引入更先进的模型架构,进一步提升视频的清晰度、运动连贯性与长时一致性。

同时,MAGREF将朝着统一多模态生成系统方向演进,结合多模态大语言模型(MLLM)在理解与视觉定位上的强大能力,实现视频、音频与文本的联动生成。

这一扩展将使系统不仅能“看懂”图文指令,还能“听懂”“说出”场景语义,从而实现真正意义上的跨模态、协同一致的智能内容创作框架。

注:文中示例仅为展示模型效果。如有侵权或冒犯,请联系论文作者,将及时删除。

project: https://magref-video.github.io/magref.github.io/
code: https://github.com/MAGREF-Video/MAGREF
arXiv: https://arxiv.org/pdf/2505.23742

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
骗婚女子请演员扮父母、买假金条假存款单,受审仍不悔罪:不退赃不要谅解

骗婚女子请演员扮父母、买假金条假存款单,受审仍不悔罪:不退赃不要谅解

上游新闻
2025-11-18 21:13:06
20岁四川音乐学院王璇媛确诊癌症,长得漂亮成绩好,因起红疹确诊

20岁四川音乐学院王璇媛确诊癌症,长得漂亮成绩好,因起红疹确诊

180视角
2025-11-18 15:01:57
中组部:公职人员退休后未经批准经商(包括当律师)的,不再保留党政机关退休金等待遇

中组部:公职人员退休后未经批准经商(包括当律师)的,不再保留党政机关退休金等待遇

新浪财经
2025-11-18 12:46:38
重大风险警告!日本全境或变战场,中方14艘巨舰下水,反制将开始

重大风险警告!日本全境或变战场,中方14艘巨舰下水,反制将开始

云鹏叙事
2025-11-16 15:18:51
证监会出手!300730,被立案!

证监会出手!300730,被立案!

每日经济新闻
2025-11-17 20:35:09
广东模特冠军诞生!你还敢嘲笑辽宁吗?

广东模特冠军诞生!你还敢嘲笑辽宁吗?

麦杰逊
2025-11-18 11:33:20
54岁杨钰莹近况曝光:定居深圳,每天打理菜园子,生活平淡

54岁杨钰莹近况曝光:定居深圳,每天打理菜园子,生活平淡

小徐讲八卦
2025-11-17 07:29:28
Anthropic CEO:最快明年,一半初级白领下岗!失业率将达10%-20%

Anthropic CEO:最快明年,一半初级白领下岗!失业率将达10%-20%

新智元
2025-11-18 20:18:54
上海赴日男子在日媒前声称,不在乎政府的呼吁,花钱是自己的自由

上海赴日男子在日媒前声称,不在乎政府的呼吁,花钱是自己的自由

我心纵横天地间
2025-11-18 19:01:13
东部战区重磅发布!

东部战区重磅发布!

新京报
2025-11-18 16:23:55
这菜再贵也要吃,现正大量上市,通便排毒、杀菌消炎,别不懂吃!

这菜再贵也要吃,现正大量上市,通便排毒、杀菌消炎,别不懂吃!

阿龙美食记
2025-11-17 13:59:43
“内部信”风波后,俞敏洪连发10条南极旅游视频,旅行社:该行程20天人均花费30万元

“内部信”风波后,俞敏洪连发10条南极旅游视频,旅行社:该行程20天人均花费30万元

极目新闻
2025-11-18 14:06:30
解放军说出日本最悲惨的下场,中国不介意把日本变成主战场

解放军说出日本最悲惨的下场,中国不介意把日本变成主战场

孔孔说体育
2025-11-17 10:39:24
美媒公开中国轰炸计划:日本若敢走错半步,将被万枚导弹轰炸成渣

美媒公开中国轰炸计划:日本若敢走错半步,将被万枚导弹轰炸成渣

标体
2025-11-14 19:47:19
苏宁系38家公司重整表决再延期:超两千亿债务待解,草案称张近东夫妇需承诺个人资产全部注入信托

苏宁系38家公司重整表决再延期:超两千亿债务待解,草案称张近东夫妇需承诺个人资产全部注入信托

澎湃新闻
2025-11-18 21:14:35
九地政府主要领导调整

九地政府主要领导调整

上观新闻
2025-11-18 18:08:07
速报 |高市早苗正考虑12 月 26 日参拜靖国神社

速报 |高市早苗正考虑12 月 26 日参拜靖国神社

日本评论
2025-11-18 08:49:50
外卖为什么突然没单了

外卖为什么突然没单了

大嘴説
2025-11-17 11:29:20
300个娃,“中国首父”的瓜彻底藏不住了!

300个娃,“中国首父”的瓜彻底藏不住了!

深蓝财经
2025-11-17 19:18:30
牛!28岁樊振东把中国前3赢了个遍 挺进男团决赛+2天后再战王楚钦

牛!28岁樊振东把中国前3赢了个遍 挺进男团决赛+2天后再战王楚钦

风过乡
2025-11-18 21:05:04
2025-11-18 22:04:49
量子位 incentive-icons
量子位
追踪人工智能动态
11701文章数 176333关注度
往期回顾 全部

科技要闻

谷歌CEO警告:若AI泡沫破裂,没公司能幸免

头条要闻

被问对中日外交官员磋商是否满意 刘劲松:当然不满意

头条要闻

被问对中日外交官员磋商是否满意 刘劲松:当然不满意

体育要闻

结束最后一次对决,陈梦和朱雨玲笑着相拥

娱乐要闻

宋佳夺影后动了谁的奶酪

财经要闻

中美机器人爆发了一场论战

汽车要闻

硬核配置旗舰气场 岚图泰山售37.99万起

态度原创

手机
教育
本地
公开课
军事航空

手机要闻

高通骁龙8 Gen5首个跑分出炉:单核接近、多核超骁龙8至尊版

教育要闻

12年义务教育能治标治本吗?

本地新闻

这档古早综艺,怎么就成了年轻人的哆啦A梦?

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

日媒扬言要"击沉福建舰" 专家:玩火自焚

无障碍浏览 进入关怀版