网易首页 > 网易号 > 正文 申请入驻

哈工大发布动画多智能体,文本一键生成连贯动画

0
分享至

随着大规模多模态模型的兴起,如何利用AI技术生成叙事性视频成为研究热点。现有的方法,如MINT Video和TTT-Video,尝试一次性生成完整视频,但在处理长视频时,尤其是在维持视觉连贯性和叙事一致性方面,仍然面临诸多挑战。

此外,单个视频片段的生成虽然在质量上有所提升,但在多片段组合时,常常出现过渡生硬、内容重复等问题。这些问题不仅影响了观众的观看体验,也限制了AI在动画制作领域的应用范围。

为了解决这些难题,哈尔滨工业大学发布了创新框架AniMaker,通过多个智能体的协同工作,实现从文本故事到动画视频的自动化转换。

AniMake框架主要由4个主要智能体组成:导演智能体、摄影智能体、评审智能体和后期制作智能体,这些智能体各司其职,相互协作共同完成动画的创作过程。

导演智能体是整个动画创作流程的起点,其任务是从文本故事中生成详细的脚本和故事板。导演智能体首先利用Gemini 2.0 Flash模型根据输入的文本故事生成包含镜头描述的原始脚本。然后,通过验证脚本的一致性和叙事流畅性,确保故事的连贯性。

接下来,在故事板实现阶段,导演智能体构建一个视觉库,包括角色库和背景库。角色库利用Hunyuan3D模型生成角色的参考图像,背景库则通过FLUX1-dev模型生成背景的参考图像。再通过GPT-4o模型根据验证后的镜头描述和视觉库中的图像生成关键帧,这些关键帧将作为后续视频生成的基础。

摄影智能体负责将故事板转化为具体的视频剪辑。这一过程面临的挑战包括角色外观的扭曲、动作的不一致性以及物体的不一致性。为了解决这些问题,AniMaker引入了MCTS-Gen策略。MCTS-Gen的核心思想是通过生成多个候选剪辑,并从中选择最优的剪辑,以确保每个剪辑不仅自身质量高,而且与前后剪辑保持一致性和连贯性。

MCTS-Gen的运行过程包括四个主要步骤:扩展、模拟、回溯和选择。在扩展阶段,摄影智能体从当前路径的终端节点生成多个初始候选剪辑,并利用AniEval框架对这些剪辑进行评分和排序。在模拟阶段,根据UCT得分进一步扩展树结构,选择得分最高的节点生成新的候选剪辑。回溯阶段将新生成剪辑的评分向上传播,更新父节点的评分。

最后,在选择阶段,选择评分最高的剪辑加入到当前路径中,并继续生成新的候选剪辑,直到达到预设的候选数量。

评审智能体的任务是对生成的视频剪辑进行评估,以确保其质量和连贯性。现有的评估指标,如CLIP Score和Inception Score,虽然能够在一定程度上评估视频生成模型的性能,但在区分同一模型生成的不同候选剪辑时往往表现不佳。此外,广泛使用的VBench评估框架也存在诸多局限性,例如其“动态度”指标过于简单,仅测量像素变化,而不能准确反映角色动作;“一致性”指标则基于单剪辑分割,不适合多镜头动画的评估。

为此,AniMaker提出了AniEval评估框架。AniEval在EvalCrafter框架的基础上进行了改进和扩展,涵盖了整体视频质量、文本-视频对齐、视频一致性、运动质量等多个维度的14个细粒度指标。例如,DreamSim指标用于评估帧间的一致性;

CountScore指标用于检测对象在镜头间出现或消失的问题;面部一致性指标则通过在Anime Face Dataset数据集上训练的InceptionNext模型来评估动画角色面部的一致性。AniEval还支持基于上下文的评分,即在评估每个剪辑时,会考虑其前后的剪辑内容,从而为多镜头动画生成提供更准确的评估。

后期制作智能体负责将视频剪辑序列转化为最终的动画影片。这一过程包括三个阶段。首先,利用Gemini 2.0 Flash生成详细的旁白脚本,指定旁白内容、对话、情感语调以及期望的声音音色。

然后,根据角色属性选择合适的声音档案,并根据文本长度进行音视频同步的评估。通过CosyVoice2模型生成音频轨道,并验证其持续时间和内容的准确性。最后,利用MoviePy库进行影片的组装,整合经过验证的字幕,并进行全面的编辑,以确保视觉、旁白和字幕之间的精确同步。

本文素材来源哈工大论文,如有侵权请联系删除

报告下载

大 佬观点分享

关于RPA、AI、企业数字化转型

(点击文字即可阅读)

| |

| | |


| | |

| | |

| |

行业知识交流分享,结识扩展人脉圈层

公众号后台回复【RPA】或者【流程挖掘】

可受邀加入相关的交流群

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
16岁女孩景区玩悬崖秋千,疑因工作人员操作不当,撞击山体身亡!

16岁女孩景区玩悬崖秋千,疑因工作人员操作不当,撞击山体身亡!

葱哥说
2026-05-06 13:33:10
中纪委划红线:严查公务员出现这5种行为,触碰将一律严肃处理

中纪委划红线:严查公务员出现这5种行为,触碰将一律严肃处理

细说职场
2026-05-06 14:21:03
绥化两名十一二岁女孩失联多日遭遇不测,警方:正全力办案

绥化两名十一二岁女孩失联多日遭遇不测,警方:正全力办案

极目新闻
2026-05-06 11:44:25
5种废品价格暴涨,家里有这5样东西的,提醒身边人别乱扔了

5种废品价格暴涨,家里有这5样东西的,提醒身边人别乱扔了

小谈食刻美食
2026-05-06 07:39:22
四川华蓥女游客玩秋千身亡,景区清空账号!曾承诺“包活”

四川华蓥女游客玩秋千身亡,景区清空账号!曾承诺“包活”

南方都市报
2026-05-06 15:34:08
16岁女孩景区内坠亡,目击者发声,赔偿金额曝光,景区运营仅49天

16岁女孩景区内坠亡,目击者发声,赔偿金额曝光,景区运营仅49天

温柔看世界
2026-05-06 11:48:44
连线四川华蓥女游客玩秋千身亡目击者:其撞到瀑布凸出处大石

连线四川华蓥女游客玩秋千身亡目击者:其撞到瀑布凸出处大石

南方都市报
2026-05-06 12:38:05
被活埋夫妻遗体找到!家境惨到让人落泪,当地人曝料:出事有预兆

被活埋夫妻遗体找到!家境惨到让人落泪,当地人曝料:出事有预兆

一盅情怀
2026-05-06 11:48:41
墨菲输球后说出大实话:决胜局那杆中袋红球,全场只有3个人敢打

墨菲输球后说出大实话:决胜局那杆中袋红球,全场只有3个人敢打

观察鉴娱
2026-05-06 10:02:30
女子体验瀑布秋千坠亡,“已达成赔偿协议”

女子体验瀑布秋千坠亡,“已达成赔偿协议”

中国新闻周刊
2026-05-06 14:42:07
外交部:中方一贯反对没有国际法依据的单边制裁,已向英方提出严正交涉

外交部:中方一贯反对没有国际法依据的单边制裁,已向英方提出严正交涉

界面新闻
2026-05-06 15:53:01
肖磊:刚刚,穆斯林世界第一大“叛徒”诞生了

肖磊:刚刚,穆斯林世界第一大“叛徒”诞生了

肖磊看世界
2026-05-05 16:21:09
海参崴军装闹剧再评:谁在借“红军符号”操弄历史?幕后黑手必须现形!

海参崴军装闹剧再评:谁在借“红军符号”操弄历史?幕后黑手必须现形!

土家铁拳
2026-05-06 12:19:38
今日最惨股!已连续下跌四个月,今又20cm跌停,而且还是一字跌停

今日最惨股!已连续下跌四个月,今又20cm跌停,而且还是一字跌停

丁丁鲤史纪
2026-05-06 10:51:55
金建希案法官死亡细节披露!疑似坠亡,贴身衣物里有遗书:对不起,我先离开了

金建希案法官死亡细节披露!疑似坠亡,贴身衣物里有遗书:对不起,我先离开了

红星新闻
2026-05-06 09:14:45
快讯!伊朗变天了!

快讯!伊朗变天了!

达文西看世界
2026-05-06 09:44:12
世乒赛!爆大冷,世界冠军被绝杀,国乒劲敌1-3出局,王楚钦大胜

世乒赛!爆大冷,世界冠军被绝杀,国乒劲敌1-3出局,王楚钦大胜

帛河体育
2026-05-06 11:25:54
打虎!合肥市委书记费高云被查

打虎!合肥市委书记费高云被查

新京报
2026-05-06 16:11:05
龙虾爆发那几天,79%的用户去了同一个地方

龙虾爆发那几天,79%的用户去了同一个地方

脑极体
2026-05-01 13:13:25
丢了7年的手机突然发回定位 还自动拍下了使用者的照片 失主:已经成功要回了手机

丢了7年的手机突然发回定位 还自动拍下了使用者的照片 失主:已经成功要回了手机

闪电新闻
2026-05-06 12:58:59
2026-05-06 17:12:49
RPA中国 incentive-icons
RPA中国
RPA行业生态平台
2801文章数 1268关注度
往期回顾 全部

科技要闻

“马斯克不懂AI”:OpenAI当庭戳老底

头条要闻

陕西男子到湖北卖苹果突发脑梗 4吨苹果19小时被买空

头条要闻

陕西男子到湖北卖苹果突发脑梗 4吨苹果19小时被买空

体育要闻

活塞1比0骑士:坎宁安不再是一个人了

娱乐要闻

神仙友谊!杨紫连续10年为张一山庆生

财经要闻

最新GDP!全国30强城市,又变了

汽车要闻

领克10/领克10+ 无论能源形式 领克都要快乐

态度原创

数码
本地
艺术
手机
公开课

数码要闻

Mionix发布AVIOR AIR CARBON FIBER鼠标:手工打造,限量出售

本地新闻

用青花瓷的方式,打开西溪湿地

艺术要闻

震撼!康斯坦丁摄影作品里的性感曲线让人惊艳!

手机要闻

iPhone Ultra 折叠机模型再曝光 上手视频展示接近定型外观

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版