网易首页 > 网易号 > 正文 申请入驻

AI 版《猫和老鼠》刷爆外网!零剪辑自动生成,60 秒神作刷新 AI 视频天花板

0
分享至

如果在短视频或者社交媒体上,刷到这条视频,我大概会津津有味看完,然后回想这是《猫和老鼠》哪一集。

哪一集都不是,这不仅完全是 AI 生成的,而且是一次性完成。

视频生成一直以来都有一道「天堑」:时长。市面上主流的生成式视频产品,都是以秒为单位,能超过 10 秒就相当不错了,还暂且不谈这十秒里画面崩不崩。

这使得在实际使用中,还是需要剪辑、拼接那些几秒几秒的短镜头。这是目前的技术上限所致,没办法。

伯克利、斯坦福联合英伟达的最新研究,惊人地把一次性生成时长推到了 1 分钟,无剪辑,却仍然保持逆天的一致性。



通过引入测试时训练(Test-Time Training, TTT)层,显著提升了扩散 Transformer 模型生成长视频的能力,使其能够生成长达一分钟、具有复杂多场景故事的连贯视频。


传统 RNN 层(如 Mamba、DeltaNet)的隐藏状态为固定大小的矩阵(例如线性投影),rank 限制了压缩长序列信息的能力。当处理包含数十万视频令牌的上下文时,矩阵的线性表达能力不足以捕捉复杂的时空依赖关系。

聚焦在 TTT 层的创新之处有于,以隐藏状态作为神经网络。在传统的 RNN 中,隐藏状态是用来存储过去信息的,比如之前的输入如何影响当前输出。


通常,这个记忆是一个固定大小的表格(比如数字矩阵),只能简单记录过去的信息,可能不够灵活。但在这项研究中,作者将隐藏状态设计成了一个神经网络,这意味着这个「存储空间」本身具有学习能力。

每当处理新的视频片段时,这个程序会通过练习来调整自己。比如,它会尝试修复模糊的画面(自监督任务),根据修复的效果修改自己的内部参数(用梯度下降法)。

同时,处理每一段视频时,神经网络都会根据当前内容调整参数。就像人在做数学题时,每做一题都会总结方法,下一题用改进后的方法一样。

这样,模型就能记住更复杂的场景变化(比如猫追老鼠的连贯动作),生成长达一分钟的流畅视频。


为了检验成果,研究人员用了《猫和老鼠》作为材料。他们收集了 1940-1948 年间,发布的 81 集原版动画,总共超过 400 分钟。扫描原胶片,保留手绘动画的线条和抖动特征。

人工标注团队依据镜头连续性,将平均每 5 分钟的剧集,分割为 8-12 个场景。并且在这个环节,通过切割和标注的方式,模拟人类编剧从分镜到剧本的创作过程,使模型学习叙事层次结构。


效果有多好呢?

整整一分钟的视频,基本完成了剧本中所要求的情节,除了一些转折处有不自然,整个故事的完整性没有问题。



场景一致性、运动自然性都有惊人的表现。如追逐的场景,各个物体的属性、颜色、形状,以及和空间布局一致性都没有崩坏,证明了模型长期记忆的能力。



想象一下动画片里汤姆追逐杰瑞的经典场面:汤姆可不是简单地直线跑,他会急刹车、猛转弯、跳起来躲避障碍,甚至被砸扁后像弹簧一样恢复。

这些看似夸张混乱的动作,其实也包含物理逻辑。但要让 AI 理解这种复杂的动态场景并不容易。


过去 AI 模型(比如用到MLP技术的)需要学会描绘这种「不走直线」的运动轨迹。

现在 AI 有了一支灵活的「画笔」(MLP的隐藏状态),让它能捕捉汤姆突然加速、变向、摔倒滚成球等各种非线性的、但又符合物理规律的运动变化,而不是只能画直线。

前面提到的 TTT 层,核心创新就像给汤姆加了一个「外挂」,让他 拥有超强的「 临场反应 」 能力, 能根据实时路况(新数据)微调自己的动作。

比如 汤姆能看到香蕉皮的那个瞬间(测试时),立刻调整自己的脚步和姿势(动态调整神经网络参数),试图躲开或者以一种夸张的方式滑倒(上下文自适应)。


他不再靠以前摔倒的经验(静态训练好的模型),而是当场学习和反应(测试时自监督学习)

不过,基础模型,本身对复杂动作的学习不够完美,即使加了 TTT 层,有些错误还是会出现。

对于模型能力而言,如何提高视觉处理能力,始终是一个「长期主义」任务。

Kimi 新开源的 Kimi-VL,就是在模型的视觉能力上继续钻研提高。在这次开源的论文中可以看到,Kimi 用原生高分辨率视觉编码器 MoonViT,来突破传统视觉编码的限制。


传统方法(如 LLaVA-OneVision)需将高分辨率图像分割为子图再拼接,导致信息丢失和计算冗余。

MoonViT 基于 NaViT 的打包策略,将不同分辨率的图像拆分为块并展平为序列,结合 2D 旋转位置编码(RoPE),直接处理原生分辨率图像,保留细粒度视觉信息。


用人话来说, 汤姆过去想抓住杰瑞,只能通过好几个小窗户去看一个大房间( LLa VA-OneVision)。

MoonViT 就像给汤姆换上了一副超高清、广角、还能自动变焦的「超级眼镜」。

他可以直接看到整个房间(处理原生高分辨率图像),无论是墙上的小洞还是桌上的面包屑都一清二楚(保留细粒度信息),而且看得又快又好。


同时,Kimi 首次将 MoE 深度整合到视觉语言模型,跨模态的专家协作,能让语言模型在保留纯文本能力(如代码生成)的同时,激活视觉专家处理图像、视频等多模态输入。


对于视觉-语言的多模态任务而言,模型架构层的研究至关重要,因为多模态数据的异质性、交互复杂性以及任务多样性对模型的表示能力、计算效率和泛化性提出了独特挑战。

想让 AI 能看、能听、能跑、能思考 ,它的内部 模型架构 就至关重要。

你不能简单地把眼睛(视觉模块)和耳朵(音频模块)、大脑(语言处理)零件堆在一起。

必须精心设计它们如何连接、如何协同工作(融合异构数据、跨模态关联),才能让 AI 流畅地根据看到的画面和听到的声音做出反应,甚至理解一个包含画面和对话的故事。

更复杂的是,当我们要让 AI 生成长视频时,它不仅要保证画面好看,还得让整个故事情节前后连贯,讲一个完整的故事而不是随意堆砌场景,一分钟的 AI版《猫和老鼠》还是一个雏形。

未来,随着 3D 视觉、音频等多模态扩展,架构研究需进一步探索,跨模态动态路由,结合 TTT 思想设计跨模态交互层,或进一步优化隐藏状态的表达能力(如引入 Transformer 作为隐藏网络),或许是多模态模型架构研究的重要方向。

当大模型拥有了这全套「感官」,那些能帮我们干活但稍显愚蠢的通用 AI Agent ,可用性也将大大提升。

我们正在招募伙伴

简历投递邮箱hr@ifanr.com

✉️ 邮件标题「姓名+岗位名称」(请随简历附上项目/作品或相关链接)


特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
是不是觉得很奇怪:日本打遍了大半个中国,为何没有染指陕西?

是不是觉得很奇怪:日本打遍了大半个中国,为何没有染指陕西?

老澽爆笑大聪明
2026-01-08 17:26:27
带孙子和不带孙子的老人,晚年会有什么区别?一对比区别就大了

带孙子和不带孙子的老人,晚年会有什么区别?一对比区别就大了

人间百态大全
2025-12-29 06:50:03
又老又丑,连普通话都说不好,为何能让千亿富豪对她情有独钟?

又老又丑,连普通话都说不好,为何能让千亿富豪对她情有独钟?

素衣读史
2025-12-20 16:26:36
“最快女护士”张水华辞职后直播秀恩爱,称白岩松是自己恩人

“最快女护士”张水华辞职后直播秀恩爱,称白岩松是自己恩人

大象新闻
2026-01-09 10:06:05
3场三分7中0!火箭射手全面退化?23岁控卫归队助战,或取而代之

3场三分7中0!火箭射手全面退化?23岁控卫归队助战,或取而代之

熊哥爱篮球
2026-01-09 20:59:08
一夜间,特朗普连发五道金牌,把“中美博弈”的遮羞布撕得粉碎!

一夜间,特朗普连发五道金牌,把“中美博弈”的遮羞布撕得粉碎!

百态人间
2026-01-09 17:11:06
比芹菜菠菜管用10倍的“推粪大将”,3天宿便全清,肚腩没了

比芹菜菠菜管用10倍的“推粪大将”,3天宿便全清,肚腩没了

椰青美食分享
2026-01-08 08:11:02
AI应用端持续走强 引力传媒等涨停

AI应用端持续走强 引力传媒等涨停

证券时报
2026-01-09 11:23:03
特朗普表态台湾属于中国后,谷立言急见韩国瑜,郑丽文要宣布大事

特朗普表态台湾属于中国后,谷立言急见韩国瑜,郑丽文要宣布大事

今墨缘
2026-01-09 18:38:41
王石田朴珺婚变风波升级,女方整容前旧照被扒,曾为王石跪式服务

王石田朴珺婚变风波升级,女方整容前旧照被扒,曾为王石跪式服务

瓜汁橘长Dr
2026-01-05 16:48:07
原来很多父亲根本不爱自己孩子!网友:爱其母则抱其子!

原来很多父亲根本不爱自己孩子!网友:爱其母则抱其子!

夜深爱杂谈
2026-01-08 21:50:39
今天实施!茅台,新动作!

今天实施!茅台,新动作!

中国商界杂志社
2026-01-09 16:31:00
随着AC米兰爆大冷门1-1,卡利亚里2-2,意甲最新积分榜出炉

随着AC米兰爆大冷门1-1,卡利亚里2-2,意甲最新积分榜出炉

侧身凌空斩
2026-01-09 06:08:30
马来西亚公开赛4强产生,国羽拿到6席男双覆没,预计2冠

马来西亚公开赛4强产生,国羽拿到6席男双覆没,预计2冠

真理是我亲戚
2026-01-09 20:04:45
比商业航天还猛?核聚变密度极限被突破   10大隐形冠军深度卡位

比商业航天还猛?核聚变密度极限被突破 10大隐形冠军深度卡位

元芳说投资
2026-01-08 06:00:12
疯传!王石的瓜,好狗血!

疯传!王石的瓜,好狗血!

财经要参
2026-01-05 22:13:08
早就想打!日媒首次爆料:中国双航母出动时日军战机已做战斗准备

早就想打!日媒首次爆料:中国双航母出动时日军战机已做战斗准备

诗意世界
2025-08-21 13:13:50
郑州9岁女孩课堂上写试卷时昏倒去世,家属不忍尸检“她怕疼”,当地成立专班调查

郑州9岁女孩课堂上写试卷时昏倒去世,家属不忍尸检“她怕疼”,当地成立专班调查

大风新闻
2026-01-08 14:41:04
官媒发文,曝光王思聪与秦岚真实关系,原来黄圣依一个字都没说错

官媒发文,曝光王思聪与秦岚真实关系,原来黄圣依一个字都没说错

看尽落尘花q
2026-01-08 02:22:16
靠,北向资金杀疯了!298%暴力加仓商业航天唯一隐形王者

靠,北向资金杀疯了!298%暴力加仓商业航天唯一隐形王者

财报翻译官
2026-01-09 15:56:15
2026-01-09 21:12:49
AppSo incentive-icons
AppSo
让智能手机更好用的秘密
6001文章数 26741关注度
往期回顾 全部

科技要闻

市场偏爱MiniMax:开盘涨42%,市值超700亿

头条要闻

女子"出轨"已婚985高校博士后 看到其聊天记录吓傻了

头条要闻

女子"出轨"已婚985高校博士后 看到其聊天记录吓傻了

体育要闻

金元时代最后的外援,来中国8年了

娱乐要闻

关晓彤鹿晗风波后露面 不受影响状态佳

财经要闻

投资必看!瑞银李萌给出3大核心配置建议

汽车要闻

助跑三年的奇瑞 接下来是加速还是起跳?

态度原创

健康
教育
亲子
艺术
旅游

这些新疗法,让化疗不再那么痛苦

教育要闻

直播预告!中小学英语数字化教学与实践成果展评 | AI+教师发展公益行·惠州站

亲子要闻

已召回71个批次的婴儿配方奶粉,速查家里的奶粉,教你正确选

艺术要闻

Sean Yoro:街头艺术界的“冲浪高手”

旅游要闻

云南沙溪古镇的风景不错,但更吸引我的,还是这里的纯色山鹪莺

无障碍浏览 进入关怀版