网易首页 > 网易号 > 正文 申请入驻

哈工大发布动画多智能体,文本一键生成连贯动画

0
分享至

随着大规模多模态模型的兴起,如何利用AI技术生成叙事性视频成为研究热点。现有的方法,如MINT Video和TTT-Video,尝试一次性生成完整视频,但在处理长视频时,尤其是在维持视觉连贯性和叙事一致性方面,仍然面临诸多挑战。

此外,单个视频片段的生成虽然在质量上有所提升,但在多片段组合时,常常出现过渡生硬、内容重复等问题。这些问题不仅影响了观众的观看体验,也限制了AI在动画制作领域的应用范围。

为了解决这些难题,哈尔滨工业大学发布了创新框架AniMaker,通过多个智能体的协同工作,实现从文本故事到动画视频的自动化转换。

AniMake框架主要由4个主要智能体组成:导演智能体、摄影智能体、评审智能体和后期制作智能体,这些智能体各司其职,相互协作共同完成动画的创作过程。

导演智能体是整个动画创作流程的起点,其任务是从文本故事中生成详细的脚本和故事板。导演智能体首先利用Gemini 2.0 Flash模型根据输入的文本故事生成包含镜头描述的原始脚本。然后,通过验证脚本的一致性和叙事流畅性,确保故事的连贯性。

接下来,在故事板实现阶段,导演智能体构建一个视觉库,包括角色库和背景库。角色库利用Hunyuan3D模型生成角色的参考图像,背景库则通过FLUX1-dev模型生成背景的参考图像。再通过GPT-4o模型根据验证后的镜头描述和视觉库中的图像生成关键帧,这些关键帧将作为后续视频生成的基础。

摄影智能体负责将故事板转化为具体的视频剪辑。这一过程面临的挑战包括角色外观的扭曲、动作的不一致性以及物体的不一致性。为了解决这些问题,AniMaker引入了MCTS-Gen策略。MCTS-Gen的核心思想是通过生成多个候选剪辑,并从中选择最优的剪辑,以确保每个剪辑不仅自身质量高,而且与前后剪辑保持一致性和连贯性。

MCTS-Gen的运行过程包括四个主要步骤:扩展、模拟、回溯和选择。在扩展阶段,摄影智能体从当前路径的终端节点生成多个初始候选剪辑,并利用AniEval框架对这些剪辑进行评分和排序。在模拟阶段,根据UCT得分进一步扩展树结构,选择得分最高的节点生成新的候选剪辑。回溯阶段将新生成剪辑的评分向上传播,更新父节点的评分。

最后,在选择阶段,选择评分最高的剪辑加入到当前路径中,并继续生成新的候选剪辑,直到达到预设的候选数量。

评审智能体的任务是对生成的视频剪辑进行评估,以确保其质量和连贯性。现有的评估指标,如CLIP Score和Inception Score,虽然能够在一定程度上评估视频生成模型的性能,但在区分同一模型生成的不同候选剪辑时往往表现不佳。此外,广泛使用的VBench评估框架也存在诸多局限性,例如其“动态度”指标过于简单,仅测量像素变化,而不能准确反映角色动作;“一致性”指标则基于单剪辑分割,不适合多镜头动画的评估。

为此,AniMaker提出了AniEval评估框架。AniEval在EvalCrafter框架的基础上进行了改进和扩展,涵盖了整体视频质量、文本-视频对齐、视频一致性、运动质量等多个维度的14个细粒度指标。例如,DreamSim指标用于评估帧间的一致性;

CountScore指标用于检测对象在镜头间出现或消失的问题;面部一致性指标则通过在Anime Face Dataset数据集上训练的InceptionNext模型来评估动画角色面部的一致性。AniEval还支持基于上下文的评分,即在评估每个剪辑时,会考虑其前后的剪辑内容,从而为多镜头动画生成提供更准确的评估。

后期制作智能体负责将视频剪辑序列转化为最终的动画影片。这一过程包括三个阶段。首先,利用Gemini 2.0 Flash生成详细的旁白脚本,指定旁白内容、对话、情感语调以及期望的声音音色。

然后,根据角色属性选择合适的声音档案,并根据文本长度进行音视频同步的评估。通过CosyVoice2模型生成音频轨道,并验证其持续时间和内容的准确性。最后,利用MoviePy库进行影片的组装,整合经过验证的字幕,并进行全面的编辑,以确保视觉、旁白和字幕之间的精确同步。

本文素材来源哈工大论文,如有侵权请联系删除

报告下载

大 佬观点分享

关于RPA、AI、企业数字化转型

(点击文字即可阅读)

| |

| | |


| | |

| | |

| |

行业知识交流分享,结识扩展人脉圈层

公众号后台回复【RPA】或者【流程挖掘】

可受邀加入相关的交流群

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
“驾驭工程”已过时? JiuwenClaw AgentTeam开启“协同工程”全新范式

“驾驭工程”已过时? JiuwenClaw AgentTeam开启“协同工程”全新范式

懂懂笔记
2026-04-23 14:13:48
龙虾爆发那几天,79%的用户去了同一个地方

龙虾爆发那几天,79%的用户去了同一个地方

脑极体
2026-05-01 13:13:25
把身价打没了!里夫斯16中3复出最差表现 湖媒批恐损失几千万

把身价打没了!里夫斯16中3复出最差表现 湖媒批恐损失几千万

醉卧浮生
2026-05-06 11:17:50
48小时连收两大利好,日本举国狂欢,中国联合国当众炸锅

48小时连收两大利好,日本举国狂欢,中国联合国当众炸锅

近史博览
2026-05-06 14:42:13
其实从某个角度来说,李自成才是真正挽救了华夏民族的人

其实从某个角度来说,李自成才是真正挽救了华夏民族的人

掠影后有感
2026-05-06 09:58:38
16岁女子玩悬崖秋千坠亡:生前17秒视频曝光,旁人哄笑,错失救援

16岁女子玩悬崖秋千坠亡:生前17秒视频曝光,旁人哄笑,错失救援

李晚书
2026-05-06 10:46:28
花几百万换“17岁男孩”的血就可以年轻,这是把邪恶公开化了

花几百万换“17岁男孩”的血就可以年轻,这是把邪恶公开化了

林中木白
2026-05-06 10:42:09
一只青蛙如何被井外势力蛊惑

一只青蛙如何被井外势力蛊惑

黔有虎
2026-05-05 22:54:29
460万元奖金实际到手仅245万元,吴宜泽透露拿到奖金后准备在英国买房:父亲卖房打零工多年供其训练

460万元奖金实际到手仅245万元,吴宜泽透露拿到奖金后准备在英国买房:父亲卖房打零工多年供其训练

大象新闻
2026-05-06 18:46:32
两大利好!存储、cpu涨疯了,海光信息一度涨停,AI泡沫已经出现?

两大利好!存储、cpu涨疯了,海光信息一度涨停,AI泡沫已经出现?

看财经show
2026-05-06 17:01:06
妈妈带3岁儿子送外卖不幸遭遇车祸,孩子满脸伤痕不哭不闹一直守在身旁,网友:这一刻他就是妈妈的“守护天使”

妈妈带3岁儿子送外卖不幸遭遇车祸,孩子满脸伤痕不哭不闹一直守在身旁,网友:这一刻他就是妈妈的“守护天使”

洪观新闻
2026-05-06 11:24:50
赵心童未被体育总局认定为世界冠军,丁俊晖梁文博15年前获认定

赵心童未被体育总局认定为世界冠军,丁俊晖梁文博15年前获认定

米修体育
2026-05-06 00:41:18
央视世界杯天价转播后续!国际足联做出回应,中国球迷有话要说

央视世界杯天价转播后续!国际足联做出回应,中国球迷有话要说

以茶带书
2026-05-06 14:51:22
美媒:五角大楼确定14种“关键”武器生产

美媒:五角大楼确定14种“关键”武器生产

参考消息
2026-05-06 17:14:57
特朗普提议中国改买美国石油,外交部:能源政策建议向有关方面了解

特朗普提议中国改买美国石油,外交部:能源政策建议向有关方面了解

澎湃新闻
2026-05-06 17:06:27
比亚迪取消员工园区免费充电

比亚迪取消员工园区免费充电

鞭牛士
2026-05-06 13:44:04
华蓥瀑布秋千坠亡事故!女孩16岁,有网友称我的朋友该项目建设者

华蓥瀑布秋千坠亡事故!女孩16岁,有网友称我的朋友该项目建设者

火山詩话
2026-05-06 13:42:02
大快人心!白洋淀五一彻底凉凉,靠宰客敛财的景区终于迎来了报应

大快人心!白洋淀五一彻底凉凉,靠宰客敛财的景区终于迎来了报应

社会日日鲜
2026-05-05 20:11:56
王心凌在深圳演出中遇意外:舞台镭射激光设备失控,强光直射王心凌腿部;网友反映激光长时间大面积扫射观众席,致手机相机镜头等设备损坏

王心凌在深圳演出中遇意外:舞台镭射激光设备失控,强光直射王心凌腿部;网友反映激光长时间大面积扫射观众席,致手机相机镜头等设备损坏

洪观新闻
2026-05-06 12:06:56
1200万预赔款已到账!浏阳烟花厂爆炸遇难者,人均或赔120万以上

1200万预赔款已到账!浏阳烟花厂爆炸遇难者,人均或赔120万以上

火山詩话
2026-05-06 17:05:43
2026-05-06 19:03:00
RPA中国 incentive-icons
RPA中国
RPA行业生态平台
2801文章数 1268关注度
往期回顾 全部

科技要闻

“马斯克不懂AI”:OpenAI当庭戳老底

头条要闻

合肥市委书记费高云任上被查 曾任江苏省委政法委书记

头条要闻

合肥市委书记费高云任上被查 曾任江苏省委政法委书记

体育要闻

活塞1比0骑士:坎宁安不再是一个人了

娱乐要闻

神仙友谊!杨紫连续10年为张一山庆生

财经要闻

最新GDP!全国30强城市,又变了

汽车要闻

领克10/领克10+ 无论能源形式 领克都要快乐

态度原创

艺术
数码
健康
家居
公开课

艺术要闻

震撼!康斯坦丁摄影作品里的性感曲线让人惊艳!

数码要闻

券后639元!长城SPARK S8 PRO 850W氮化镓版电源正式开售

干细胞治烧烫伤面临这些“瓶颈”

家居要闻

大胆前卫 时尚大宅

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版