网易首页 > 网易号 > 正文 申请入驻

给文字动画注入语义灵魂!港科大开源「文字跳动」技术,每个单词都浪漫

0
分享至


新智元报道

编辑:LRT

【新智元导读】香港科技大学和特拉维夫大学的团队开源了基于视频大模型的「文字跳动」(Dynamic Typography)技术,仅需选择一个字母,并给出一段简单的文字描述,就可以生成SVG动画让这个字母「跃然纸上」.

ROMANTIC(浪漫的)中的「M」,变成了一对情侣手拉手,前后走。


Father(父亲)中的「h」,被演绎为一个父亲耐心地牵着他的小孩一起散步。


PASSION(激情)中的「N」,可以化为一对情侣拥吻在一起。


SWAN(天鹅)中的「S」,竟变成一只天鹅优雅地伸展着她的脖颈。


TELESCOPE(望远镜)中的「P」,成为了一个真的望远镜!缓缓地转向镜头。


这就是来自港科大和特拉维夫大学的研究团队为我们带来的最新作品:Dynamic Typography。


论文链接: https://arxiv.org/abs/2404.11614

项目主页: https://animate-your-word.github.io/demo/

下面为视频demo,强烈推荐大家打开声音看一下哦!

让文字动起来

文本动画是一种表达性的媒介,它将静态沟通转变为动态体验,从而唤起情感,强调文本的意义,并构建引人入胜的叙事,从而被广泛应用于梗图,视频,及广告制作中。然而,想要制作这样符合语义的动画需要在图形设计和动画制作方面的专业知识。

因此,研究人员提出了一种全新自动化文本动画方案「文字跳动」,实现了文本与动画的完美融合。

该方案可以拆解为两个步骤:

1. 根据用户的描述,字母将被变形从而传达文本语义。

2. 变形的字母将被赋予用户描述的生动动态效果,从而达成文字动画。

在文字丝滑运动的同时保持其可读性极具挑战性。当下的文生视频模型均难以保证生成可读的文字,更无法将文字根据其语义信息「变形」从而更好的传达运动信息。而重新训练这样的模型需要大量难以获取的风格化文字视频作为数据集。

研究人员使用了Score Distillation Sampling(SDS)技术,通过蒸馏大参数量文生视频基础模型中的先验知识,预测文字的矢量图中的控制点在每一帧的位移,并通过额外的可读性约束以及结构保持技术实现了文字运动过程中可读性和外观的保持。

研究人员展示了他们提出的框架在各种文生视频模型上的通用性,并强调了该方法相比基线方法的优越性。实验结果表明了他们的技术可以成功生成与用户描述相符且连贯的文本动画,同时保持了原文字可读性。

方法

1. 数据表征

在这项工作中,字母的轮廓被表征为若干条相连的三次贝塞尔曲线,由贝塞尔曲线控制点决定其形状。作者提出的方法为每一帧预测每个控制点的位移。这些位移将字母「变形」从而传达语义信息,并通过每一帧不同的位移加入运动。


字母的轮廓被提取为相连接的三次贝塞尔曲线

2. 模型框架

给定一个表征为贝塞尔曲线的字母,研究人员首先使用一个基于坐标的MLP(称为Base Field,基础场)将字母变形可以表征其语义信息的base shape,如图中的「CAMEL」的「M」被变形为骆驼的样子。

Base shape紧接着被复制到每一帧,并通过另外一个基于坐标的MLP(称为Displacement Field,位移场)预测每个控制点在每一帧的位移,从而为base shape加入运动。

每一帧接着通过一个可微渲染器渲染为像素图片,并 拼接为输出视频。基础场和位移场通过文生视频的先验知识以及其他的约束项完成端到端的共同优化。


3. 优化

当下基于扩散的文生图模型如Stable Diffusion通过大规模的二维像素图片进行训练,包含了丰富的先验知识。Score Distillation Sampling(SDS)旨在蒸馏扩散模型中的先验知识,用于训练其他模型生成其他模态的内容,如训练NeRF中MLP的参数从而生成3D模型。

在该工作中,研究人员通过SDS蒸馏一个基于扩散的文生视频模型,基于得到的先验知识训练基础场以及位移场中的参数。

此外,为了保证生成视频的每一帧仍然保持字母本身的可读性,(如单词「CAMEL」中的字母「M」在外观近似于骆驼的同时也需要保持单词M的形状,使用户可以辨认出其是字母M),该工作通过加入基于Learned Perceptual Image Patch Similarity(LPIPS)的约束项,约束base shape与原字母的感知相似度。

为了缓解观察到的贝赛尔曲线频繁交叉导致严重闪烁的问题,该工作加入了基于三角化的结构保持约束项,在变形以及运动的过程中维持稳定的骨架结构。


贝塞尔曲线的频繁交叉造成了严重的闪烁


基于三角化的structure-preservation loss

实验

实验方面,研究人员从文字的可读性(legibility)以及用户提供的文本描述与视频的一致性两方面进行评估。

该工作与两类不同的方法进行了比较:一类是针对像素图的文生视频模型,另一类是针对矢量图的通用动画化方案。

在针对像素图的文生视频模型中,该工作与当下领先的文生视频模型Gen-2以及图生视频模型DynamiCrafter进行了比较。

通过定性以及定量的对比结果可以看出,其他的方法大多很难在生成视频时保持字母的可读性,亦或难以生成符合语义的运动。而该论文提出的方法在生成符合 用户给定的文本描述的运动的同时,有效的保持了字母在运动过程中的可读性。


与其他方法的定性对比


与其他方法的定量对比

为了进一步证明该工作中每一个模块的作用,研究人员进行了充分的消融实验。实验结果表明,base shape的设计以及基于三角化的结构保持技术有效的提升了视频质量,而基于感官相似度的可读性约束有效的保持了字母在运动过程中的可读性。


消融实验定性结果


消融实验定量结果

研究人员进一步说明了他们提出的框架在各种文生视频模型上的通用性,这意味着该框架可以兼容于未来视频生成模型的进一步发展,并随着视频生成模型效果的提升生成更具吸引力的文字动画。


蒸馏不同视频生成模型的结果对比

参考资料:

https://arxiv.org/abs/2404.11614


特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
马苏被传“吸毒、卖淫”案,二审宣判!

马苏被传“吸毒、卖淫”案,二审宣判!

圈里的甜橙子
2024-05-23 18:01:57
六年整形医生曝森林北整容,晒海量对比照,汪峰这次真看走眼了!

六年整形医生曝森林北整容,晒海量对比照,汪峰这次真看走眼了!

古希腊掌管月桂的神
2024-05-21 22:22:15
亏体坛沈天浩:苏宁投资国米亏了超7亿欧,只能拿到3.25亿欧

亏体坛沈天浩:苏宁投资国米亏了超7亿欧,只能拿到3.25亿欧

直播吧
2024-05-23 09:40:27
2024年养老金调整,企退人员的上调金额,都是如何计算的?

2024年养老金调整,企退人员的上调金额,都是如何计算的?

碎月导师
2024-05-17 07:00:02
台海战役一触即发,中国却紧急宣布撤军

台海战役一触即发,中国却紧急宣布撤军

郁郁乎文
2023-10-15 20:19:03
李健机场偶遇森林北李巧,脱口就喊嫂子,汪峰反应够笑三天

李健机场偶遇森林北李巧,脱口就喊嫂子,汪峰反应够笑三天

娱最资讯
2024-05-23 19:17:25
毛主席在博物馆内吸烟,陈毅提醒说:这里禁止吸烟,主席回四个字

毛主席在博物馆内吸烟,陈毅提醒说:这里禁止吸烟,主席回四个字

百年历史老号
2024-05-23 15:28:28
CCTV5直播!中国女排PK日本女排,朱婷李盈莹合体,赢球=晋级奥运

CCTV5直播!中国女排PK日本女排,朱婷李盈莹合体,赢球=晋级奥运

小鬼头体育
2024-05-23 22:36:24
王建军-上海东方明珠新媒体股份有限公司董事长

王建军-上海东方明珠新媒体股份有限公司董事长

小宇宙双色球
2024-05-23 18:13:33
詹姆斯再创NBA历史,是入选最佳阵容最年长和最年轻的球员

詹姆斯再创NBA历史,是入选最佳阵容最年长和最年轻的球员

阿雄侃篮球
2024-05-23 23:58:00
莱希坠机后续:德黑兰正举行盛大告别仪式,总统办公室披露坠机细节

莱希坠机后续:德黑兰正举行盛大告别仪式,总统办公室披露坠机细节

澎湃新闻
2024-05-22 18:22:28
意外!知名演员,一家四口现身绍兴!!网友评论亮了……

意外!知名演员,一家四口现身绍兴!!网友评论亮了……

我爱大绍兴
2024-05-23 15:40:05
明明是同一个人,演完《琅琊榜》再演《庆余年2》,差距大认不出

明明是同一个人,演完《琅琊榜》再演《庆余年2》,差距大认不出

吃瓜少女猫九酱
2024-05-22 15:47:03
澳门有公司接收内地诈骗资金,涉案上千万!两男子被移送检方

澳门有公司接收内地诈骗资金,涉案上千万!两男子被移送检方

南方都市报
2024-05-23 23:04:06
一加13工业设计曝光:屏幕、镜头设计全都改了

一加13工业设计曝光:屏幕、镜头设计全都改了

快科技
2024-05-23 16:25:24
统计局:一季度人均工资增长6.8%;财政部:1-2月个税下降15.9%

统计局:一季度人均工资增长6.8%;财政部:1-2月个税下降15.9%

可达鸭面面观
2024-04-19 10:36:28
34岁年轻妈妈520晒9个孩子,老公身份被扒,身价超340亿

34岁年轻妈妈520晒9个孩子,老公身份被扒,身价超340亿

180°视角
2024-05-21 10:44:35
档期资讯| 这破档期,新有菜 6月断档!

档期资讯| 这破档期,新有菜 6月断档!

孤独的独角兽影视
2024-05-23 10:10:02
网传华润医药医药代表举报广东省人民医院某主任收回扣,广东省卫健委正在核查中 | 快讯

网传华润医药医药代表举报广东省人民医院某主任收回扣,广东省卫健委正在核查中 | 快讯

华夏时报
2024-05-23 23:44:03
大陆11艘舰船出击,民进党紧急向美国求助?新党主席:金门要独立

大陆11艘舰船出击,民进党紧急向美国求助?新党主席:金门要独立

小萌逛北京
2024-05-20 11:25:03
2024-05-24 02:14:44
新智元
新智元
AI产业主平台领航智能+时代
11066文章数 65518关注度
往期回顾 全部

科技要闻

黄仁勋业绩会万字实录:我们的压力太大了

头条要闻

奥迪车主称每次启动车辆就会显示"续费弹窗" 客服回应

头条要闻

奥迪车主称每次启动车辆就会显示"续费弹窗" 客服回应

体育要闻

欧文,三十二而立

娱乐要闻

大S儿子被学校退学,张兰称孙子没人管

财经要闻

九鼎金租减值罗生门:郑州银行藏雷?

汽车要闻

上汽大通大家7超混/大家9超混将于6月7日正式上市

态度原创

亲子
旅游
游戏
房产
公开课

亲子要闻

萌娃学会说话后,无法接受叫爸爸,这反应太搞笑了

旅游要闻

日本航空飞机在羽田机场地面与其他飞机发生接触

无畏契约:凰鸣四海就在今日!FPX2-1战胜FUT拿下国际赛首胜

房产要闻

信号!海南这个区域开始鼓励企业购买安居房!

公开课

近视只是视力差?小心并发症

无障碍浏览 进入关怀版