![]()
全球观察者深度出品
纵横寰宇,洞察时代风云
你刷到的AI生成视频里,有没有见过这种情况:前一秒还是短发女生,下一秒突然变成卷发?或者明明已经出场的角色,过会儿又被AI“重新介绍”一遍?这可不是个别问题,现在AI做长视频,就像得了“瞬间失忆症”,剧情越往后越乱。
这事儿不怪AI“不用心”,主要是现在生成长视频的方法太原始。
![]()
现在AI做长视频,基本都是“一段一段生成”。
先把视频拆成好几段,一段段做好再拼起来。
就像让几个人各写一段故事,写完直接粘一起,前后不搭调太正常了。
更麻烦的是,AI记东西的方式也有问题。
![]()
有些模型特实在,就死死盯着开头那一段当“模板”。
后面不管剧情咋发展,新角色、新场景进来,它还是按开头的样子生,结果就是视觉和剧情完全脱节。
比如开头是办公室场景,后面切到公园,AI可能还按办公室的光线去生成,看着就别扭。
就像有人记单词只记第一个意思,不管语境硬套,能不出错吗?
还有些模型想“聪明点”,把前面的画面压缩成一个“记忆包”,结果更糟。
![]()
这“记忆包”就像把一整本书缩成几行字,关键细节全没了。
要回忆角色穿啥衣服时,它可能只记得“穿衣服”,具体啥颜色、款式全忘光。
这就像你想记住一整部《红楼梦》,结果只记了“有很多人”,下次让你复述,能不跑偏吗?同一个角色前后出场能差出“双胞胎”的效果,不奇怪。
流程上也有毛病,先写脚本再生成视频,两段根本不沟通。
脚本里写“小明走进教室”,生成视频时AI可能把“小明”生成戴眼镜的,下一段脚本写“小明坐下”,AI又生成不戴眼镜的。
![]()
两段各干各的,全局一致性?不存在的。
就像两个厨师各做一道菜,一个按川菜做,一个按粤菜做,凑成一桌能好吃吗?
人多、时长一长,这些问题更明显。
视频里要是有两个以上角色,AI就容易“脸盲”。
明明是小李和小王在说话,过会儿可能把小李当成新角色再介绍一遍。
![]()
视频超过60秒,后半段基本放飞自我,剧情跑偏、角色变样是常态。
你让一个记不住人脸的人讲多人物故事,不乱才怪。
那有没有办法让AI“长记性”?还真有,香港大学和快手可灵团队搞出个叫MemFlow的技术,据说能让AI“长记性”,60秒的视频角色、场景都不乱。
MemFlow不搞“一段段生成”那套,它让AI边生成边“记笔记”。
![]()
不是死记硬背画面,而是理解剧情逻辑,知道哪些角色、场景是关键,得重点记。
具体咋实现的?靠两个“小聪明”NAM和SMA。
NAM叫“叙事自适应记忆”,就像AI的“智能笔记”。
生成新片段时,它会先翻前面的“笔记”,挑关键信息记下来,不是一股脑全塞进去。
![]()
比如当前要生成“小红喝茶”,它就重点记“小红穿红裙子、拿玻璃杯”,其他无关的背景信息暂时不管。
这样记东西,又准又不占地方。
SMA是“稀疏记忆激活”,相当于给AI装了“聚光灯”。
AI生成视频时,SMA会把“聚光灯”打在当前最需要记的内容上,比如正在说话的角色、关键道具,其他信息先“拉黑”。
这样AI就不会被乱七八糟的细节干扰,记东西又准又快。
![]()
就像考试时只重点复习考点,不浪费时间在偏题上,效率自然高。
这俩“小聪明”一结合,AI的“记忆力”直接上了个台阶。
以前AI是“工具人”,只会按指令画画面;现在有了MemFlow,它能理解剧情了,算得上半个“创意伙伴”。
你说要讲个完整故事,它能帮你把角色、场景串起来,不跑偏。
就像以前是让机器人搬砖,现在它能帮你设计房子结构了。
![]()
光说不练假把式,实测效果咋样?
香港大学和快手团队做了测试,60秒的长视频,MemFlow在质量、美学评分上都是第一。
特别是后半段(40-60秒),其他模型早就“失忆”了,剧情开始乱套,角色不是变样就是重复出场,MemFlow还能稳稳跟着前面的剧情走,角色也没变样。
这就像长跑比赛,别人跑到后半程都掉队了,它还能匀速前进。
视觉对比更明显,同样的测试场景,差距一下就看出来了。
![]()
比如让AI生成“穿休闲毛衣的女士”多镜头视频,其他模型生成到后面,女士不是换了发型就是变了衣服,有的甚至连性别都能变。
MemFlow从头到尾一个样,连毛衣上的条纹纹路都没乱。
沙滩上孩子和小狗玩的场景,其他AI可能突然加个路人进来抢镜,MemFlow就只盯着孩子和狗,不乱加戏,专注得很。
这技术要是普及开,以后做长视频可就省事多了。
![]()
广告片、短视频剧情、虚拟偶像直播,这些需要多角色、复杂剧情的内容,以前得人工一帧帧调,累死个人。
现在AI就能搞定,生成效率提上去了,成本也降了。
普通人想做个小电影,不用学复杂剪辑,靠AI就能实现,门槛低了不少。
以后说不定还能玩出更多花样。
![]()
比如你看视频时,突然想让剧情拐个弯,从“主角去学校”改成“主角去公园”,AI也能接着往下讲,不会因为你改了剧情就“失忆”。
这种“交互式叙事”,想想就挺有意思,就像你能随时给故事“换轨道”,AI还能稳稳接住。
![]()
总的来说,MemFlow算是给AI视频生成开了个新思路别只顾着画得好看,先把“记性”搞好。
以后咱们刷到的AI长视频,可能就再也见不到“角色秒变”“剧情断片”的尴尬了。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.