网易首页 > 网易号 > 正文 申请入驻

画到哪,动到哪!字节跳动发布视频生成「神笔马良」ATI,已开源

0
分享至

Angtian Wang 是字节跳动的研究员,研究方向包括视频生成、3D 视觉、differentiable rendering。博士毕业于约翰霍普金斯(Johns Hopkins University)大学。师从 Dr. Alan Yuille。

近年来,随着扩散模型(Diffusion Models)、Transformer 架构与高性能视觉理解模型的蓬勃发展,视频生成任务取得了令人瞩目的进展。从静态图像生成视频的任务(Image-to-Video generation)尤其受到关注,其关键优势在于:能够以最小的信息输入生成具有丰富时间连续性与空间一致性的动态内容。

然而,尽管生成质量不断提升,当前主流方法普遍面临一个关键瓶颈:缺乏有效、直观、用户友好的运动控制方式。

用户在创作动态视频时,往往具有明确的运动意图,例如人物要往哪个方向奔跑、镜头如何推进拉远、动物的跳跃轨迹等。但现有方法普遍依赖于预设模板、动作标签或风格提示,缺少一种既自由又精准的方式来指定对象与摄像机的运动路径。尤其是在存在多个主体或复杂场景交互的情况下,这种控制能力的缺失,极大限制了生成系统的创意表达能力与实际应用价值。

为了解决这一问题,字节跳动提出了ATI——一种全新的、以「轨迹为指令」的可控视频生成框架。ATI 的核心理念是:将用户在输入图像上手绘的任意轨迹,转化为驱动物体与摄像机运动的显式控制信号,并以统一的潜在空间建模方式注入视频生成过程。这使得视频创作从「参数调控」转变为「可视化创意」,让用户「画到哪,动到哪」,以直观方式实现帧级精准控制。

  • Title:ATI: Any Trajectory Instruction for Controllable Video Generation
  • Paper:https://arxiv.org/pdf/2505.22944
  • Project page:https://anytraj.github.io/
  • Github:https://github.com/bytedance/ATI
  • Hugging Face:https://huggingface.co/bytedance-research/ATI
  • ComfyUI:https://github.com/kijai/ComfyUI-WanVideoWrapper

方法

ATI 接受两个基本输入:一张静态图像和一组用户手绘轨迹。这些轨迹可以在图像上自由绘制,支持任意形状,包括直线、曲线、折线、回环乃至抽象形状。ATI 通过高斯运动注入器(Gaussian Motion Injector)将这些轨迹编码为潜在空间中的运动向量,再注入至扩散生成流程中,进而引导生成过程逐帧呈现对应的物体运动与视角变换。

如上图所示,我们希望让视频生成模型「理解」用户画出的运动轨迹,并在后续帧里按照这条轨迹产生动作。为此,我们在模型的输入特征空间上,对每一个轨迹点都注入一个「高斯权重」。使得模型就能在特征图上「看到」一颗颗从时刻 0 到 t 按轨迹移动的小「亮点」,并在训练中逐步理解输入轨迹在输入特征上和 denoise 生成视频的关联。

编码图像:先用一个「编码器」把原始图片转换成一张低分辨率的特征图。

采样特征:对于轨迹的起始点,从特征图上精确地(通过双线性差值,保持小数位置精度)取出一个特征向量。

生成高斯权重:在每一帧,对应轨迹点的位置,都用一个小圆形「高斯」亮点去覆盖周围的像素,越靠近圆心的像素,权重越高。

注入特征:把起始点的特征向量,按照这些高斯权重「软」地分配到特征图上的邻近区域,并在模型在生成视频时输入给模型。

这样一来,当我们给生成器喂入图像和这组「高斯掩码+特征」,模型就能直观地「看懂」在每一帧里,哪儿应该动、怎样动,从而生成符合用户手绘轨迹的连贯动画效果。借助高斯运动注入器(Gaussian Motion Injector)与像素级通道拼接策略(Pixel-wise Channel Fusion),ATI 能够统一控制对象级动作、局部身体部位运动与摄像机视角变化,无需切换模型或模块结构,即可高效支持多目标、多风格、多任务的视频生成需求。同时 ATI 支持多个视频生成模型,可以在 Seaweed-7B 以及 Wan2.1-I2V-14B 等不同结构以及大小的模型上均有稳定的表现。

结果展示

用户仅需在原图上以手指或鼠标拖拽绘制任意轨迹,ATI 即可实时捕捉该轨迹路径并将其注入扩散模型。借助高斯运动注入器,无论直线、曲线还是复杂回环,均能被转化为连贯自然的动态视频——画到哪儿,动到哪儿。

在人物或动物肖像场景中,用户可以指定奔跑、跳跃、挥臂等关键动作的轨迹。ATI 对每一帧中的关键点进行细粒度采样与编码,准确还原关节弧度与质心移动,生成符合生物力学规律的自然运动序列。

当场景包含多个目标时,ATI 最多可并行处理 8 条独立轨迹。系统通过空间掩码和通道分离策略,保证各对象身份信息互不干扰,从而呈现复杂群体互动时的连贯动态。

ATI 不仅支持对象级运动控制,还能同步驱动摄像机视角。用户可在原图上绘制推拉、平移、旋转等镜头轨迹,将其与对象轨迹共同注入潜在空间,生成包含摇镜、跟随和俯仰等电影级镜头语言的视频。

在同一推理过程中,物体与摄像机轨迹可同时注入,借助像素级通道拼接策略实现多条运动指令的无缝融合。系统无需模块化切换,即可在潜在特征中并行呈现角色动作、群体互动与镜头切换,输出丰富而连贯的动态叙事。

ATI 展示出良好的跨领域泛化能力,覆盖写实电影、卡通插画、油画质感、水彩渲染、游戏美术等多种艺术风格。通过更换参考图与输入轨迹,系统能够在保留原始风格特征的基础上生成对应的运动视频,满足多元化的应用需求。

用户可在潜在空间中绘制超越物理边界的轨迹,以生成飞天、伸缩、扭曲等非现实动作效果,为科幻或魔幻场景提供无限创意空间。

基于 Wan2.1-I2V-14B 的高精度模型,ATI 可生成与实拍媲美的视频短片,精准还原面部表情、服饰材质与光影细节;同时提供轻量级 Seaweed-7B 版本,以满足资源受限环境中的实时交互需求。

模型开源

目前,ATI 的 Wan2.1-I2V-14B 模型版本已在 Hugging Face 社区正式开源,为研究人员与开发者提供了高质量、可控的视频生成能力。围绕该模型的社区生态也在快速完善:Kijai开发的 ComfyUI-WanVideoWrapper 插件支持 FP8 量化模型(如 Wan2_1-I2V-ATI-14B_fp8_e4m3fn.safetensors),显著降低显存需求,方便在消费级 GPU 上进行推理部署。同时,Benji在 YouTube 发布的教学视频《ComfyUI Wan 2.1 任意轨迹指令运动控制教程》为创作者提供了详尽的实操指南。完整代码与模型请参阅 GitHub(bytedance/ATI)及 Hugging Face 模型库。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
60度电池、油箱50L,“哪哪都大”的新能源车,是不是工业鸡肋?

60度电池、油箱50L,“哪哪都大”的新能源车,是不是工业鸡肋?

少数派报告Report
2026-02-25 07:49:41
别再同情她了!被教练性侵27次,却在奥运赛场上把队友撞出赛道

别再同情她了!被教练性侵27次,却在奥运赛场上把队友撞出赛道

徐醇老表哥
2026-02-24 15:53:18
轻伤二级有多严重?平顶山打人夫妻或将面临3-7年刑期

轻伤二级有多严重?平顶山打人夫妻或将面临3-7年刑期

民言民语
2026-02-25 09:07:07
科技尽头是放贷,哈啰“无证狂奔”400亿的尽头是什么?

科技尽头是放贷,哈啰“无证狂奔”400亿的尽头是什么?

侃故事的阿庆
2026-02-24 11:47:01
沙超最新积分:再爆大冷1-1!本泽马带队从第1跌第3,C罗坐收渔利

沙超最新积分:再爆大冷1-1!本泽马带队从第1跌第3,C罗坐收渔利

球场没跑道
2026-02-25 10:11:56
现货黄金日内涨幅扩大至1%,报5192.64美元/盎司

现货黄金日内涨幅扩大至1%,报5192.64美元/盎司

每日经济新闻
2026-02-25 10:22:14
航天科研人员赵学军留学被策反,回国后大量搜集核心要害情报提供给境外间谍,央视披露细节:才到国外就被盯上,请吃烧烤增进感情

航天科研人员赵学军留学被策反,回国后大量搜集核心要害情报提供给境外间谍,央视披露细节:才到国外就被盯上,请吃烧烤增进感情

极目新闻
2026-02-23 15:04:52
平顶山夫妻打女孩新通报:先打错3人,再打小女孩的,还有个喜讯

平顶山夫妻打女孩新通报:先打错3人,再打小女孩的,还有个喜讯

江山挥笔
2026-02-25 10:20:53
开学通知!2026中小学生开学时间确定了,家长却表示难以接受!

开学通知!2026中小学生开学时间确定了,家长却表示难以接受!

凯旋学长
2026-02-24 22:41:06
拒绝百万年薪,入职25万事业编,效力辽篮18年的韩德君赚到多少钱

拒绝百万年薪,入职25万事业编,效力辽篮18年的韩德君赚到多少钱

揽星河的笔记
2026-01-25 20:19:21
巨亏233亿背后!美团已显力不从心,京东还未全力以赴

巨亏233亿背后!美团已显力不从心,京东还未全力以赴

一地基毛
2026-02-22 23:30:02
不可错过!2月25日早上09:00比赛!中央5套CCTV5、CCTV5+直播表

不可错过!2月25日早上09:00比赛!中央5套CCTV5、CCTV5+直播表

皮皮观天下
2026-02-25 08:49:22
女特工卧底京都顶级夜场,致总设计师沦陷,东风导弹机密技术外泄

女特工卧底京都顶级夜场,致总设计师沦陷,东风导弹机密技术外泄

干史人
2026-02-24 09:48:19
许仰天罕见亮相,宣布在广东追加投资超100亿元

许仰天罕见亮相,宣布在广东追加投资超100亿元

每日经济新闻
2026-02-25 00:41:04
节后首日机票价格回落,多条航线单程票价低至200元

节后首日机票价格回落,多条航线单程票价低至200元

界面新闻
2026-02-25 07:10:02
1950年滇军起义将领杨朝纶叛变,被捕后陈赓急问潘朔端:该怎么办

1950年滇军起义将领杨朝纶叛变,被捕后陈赓急问潘朔端:该怎么办

谈古论今历史有道
2026-02-25 08:15:03
被我国设为机密的小药丸,传承300年无人问,日本却靠他年入上亿

被我国设为机密的小药丸,传承300年无人问,日本却靠他年入上亿

现代小青青慕慕
2026-01-24 19:26:16
1985年,19岁的苏菲·玛索在东京街头,英气十足

1985年,19岁的苏菲·玛索在东京街头,英气十足

娱你同欢
2026-02-15 10:12:04
巴拿马政府强行接管李嘉诚旗下港口,香港特区政府严正抗议:罔顾事实、背信弃义!相关公司多年来在当地投入巨额投资和创造大量职位

巴拿马政府强行接管李嘉诚旗下港口,香港特区政府严正抗议:罔顾事实、背信弃义!相关公司多年来在当地投入巨额投资和创造大量职位

每日经济新闻
2026-02-24 14:53:04
三星Galaxy S26 Ultra真机已流出,这五大升级让整个手机圈炸了!

三星Galaxy S26 Ultra真机已流出,这五大升级让整个手机圈炸了!

明美无限
2026-02-24 23:33:19
2026-02-25 11:08:49
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12344文章数 142569关注度
往期回顾 全部

科技要闻

苹果MacBook Pro要加触摸屏了,还带灵动岛

头条要闻

媒体:中国开年对日本出"重拳" 反制手段根本性质变

头条要闻

媒体:中国开年对日本出"重拳" 反制手段根本性质变

体育要闻

曝雄鹿计划今夏追小卡 字母哥渴望与其并肩作战

娱乐要闻

撒贝宁到沈阳跑亲戚 老婆李白模特身材

财经要闻

春节档"开门黑" 电影票少卖了7000万张

汽车要闻

方程豹首款轿车实车图曝光 就等价格了?

态度原创

数码
手机
旅游
艺术
公开课

数码要闻

松下证实将电视业务转给创维:日系电视落幕!索尼/夏普/东芝电视业务早已转手

手机要闻

三星阔折叠Galaxy Z Fold Wide手机外观图曝光

旅游要闻

有限空间释放无限价值

艺术要闻

如果吴清源重生,他会如何与柯洁较量?

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版