网易首页 > 网易号 > 正文 申请入驻

AI 生成人物视频翻车?商汤推出可控人物视频生成模型 Vimi

0
分享至

商汤推出「可控」视频生成模型 Vimi,可精确模仿人物微表情。


作者 | Li Yuan
编辑| 郑玄

6 月,又是 AI 视频生成的一个重要月份,Runway 3、Luma AI、快手可灵纷纷推出了普通用户可用的视频生成模型。用 AI 生成视频,距离我们越来越近。

不过,相对于对话式机器人、AI 图片生成这些成熟的大模型使用场景,「AI 视频」离走出尝鲜还有一定距离。比如,无论是在影视剧里,还是在短视频中,视频的最重要的场景之一就是人脸,而在网上的视频生成测试中,最容易翻车之一的场景,也正是人脸。

下面是笔者用 Luma AI 尝试通过一张科学家图灵的照片生成的视频,让人物本身动起来相对容易,但一旦动起来,图灵的脸很快就变成了另一个人。

Luma AI 生成

在大模型和智能视觉技术领域有深厚积累的商汤,希望解决视频生成中这种「不可控」的痛点。最近在上海的 WAIC 2024 上,推出了最新的人物 AI 视频模型 Vimi,主打技术的「可控性」。

同一张照片,在商汤的演示下,生成是这样的。

视频来源:商汤 Vimi 模型

不仅光影和谐,且人物的一致性保持度极高。

商汤是怎么做到的?

01

第一个人物「可控」

的视频生成模型

据极客公园了解,此次的可控人物 AI 视频模型 Vimi 模型,由商汤数字文娱团队出品。

商汤从 2016 年开始,就持续深耕在人物表情的 AI 处理上,是亚洲地区最大的特效引擎提供商。作为用户,我们可能提起小狗滤镜,变脸特效,只能想起抖音这样的 C 端软件,不过其实背后,许多这样的特效的提供,都来自于商汤数字文娱团队。

去年,早在 Sora 的 demo 发布之前,他们就开始立项,进行可控人物 AI 视频模型的研发。重点发力「人物」、「可控」两个难点。

在视频生成中,可控性其实一直是不少模型努力的方向。

在 Vimi 模型之前,其实市面上已经有一些模型,能够较为可控地生成人物动作。

其中最出圈的,可能就是阿里出品的 AnimateAnyone,也就是曾经让兵马俑也能跳「科目三」的背后技术。

采用了姿态引导器(Pose Guider)的技术,通过 Denoising UNet 模块进行视频的生成,AnimateAnyone 能够让人们在只输入一张图片的情况下,让图片做出姿态引导器所做出的动作。

简单讲,科目三的动作是被提前设置好的,而输入照片后,AnimateAnyone 可以让一张照片中的人物按照科目三的动作动起来。

不过很明显可以看出,AnimateAnyone 的姿态控制,更针对大范围的肢体动作。

而商汤团队的优势,在于塑造人物表情上更加鲜活。

同样是同时输入一张图片,和一个动作(可以是动画模型的 3D 骨架动作,也可以是一段视频),商汤的 Vimi 模型,能够做到对脸部和上半身动作进行精准地控制。这也是目前发布的第一个能够对人脸和上半身做如此精准可控的模型。

视频来源:商汤 Vimi 模型

商汤表示,模型训练本身,并没有使用特别的数据,只是采用了公开数据库进行训练。

能够在人脸方面,成为第一个精准控制人脸表情的模型,主要源于商汤多年在面部跟踪方面的积累:「对人脸实现技术角度的精准控制,需要更精准地去跟踪人物表情中的每一个细节,包括牙齿、耳朵、眼球、睫毛等等。细节能够做的好,在人物的参数化上就可以做得非常的精准,之前的技术积累都是实现这个模型的前提。有了这些积累,真正训练的时候,使用的数据量可以少许多。」

事实上,除了专注于面部的可控之外,商汤的 Vimi 模型和 AnimateAnyone 在底层架构上也不同。AnimateAnyone 使用类似 ControlNet 的方法,从图像中的身体部位提取一些锚点,作为生成视频每一帧的动作参考;而商汤的 Vimi 模型,将人的动作和表情做了全面的理解和抽象,将整段动作信息作为一个整体,与生成模型对图像和视频信息的特征理解相融合,这样生成的视频在空间和时间上都能保持很好的整体性。不同的训练架构,导致从生成效果来看,商汤的模型,对光影一致性的控制,效果非常优秀。

「传统模型最大的一个问题是,它不太能合理地生成周边的内容,包括身体的动作和环境的一些变化。而采用大模型训练,可以整个的环境都跟着肢体的控制去变化,包括生成合理的头发的抖动。甚至能够模拟镜头角度,比如输入镜头是逐渐拉近,输出也能有自然的逐渐拉近的效果。而原本,要做出这样的效果,需要复杂的 3D 建模,绑定各种光效渲染才能做出来。」采访中商汤表示。

视频来源:商汤 Vimi 模型

而与专门的生成式模型比起来,可控人物 AI 视频模型又在人物生成效果稳定多了。尤其在长视频的情景下,能够稳定保持人物的脸部可控。目前,团队可以做到一分钟以上的稳定视频生成。

Vimi 模型使用情深深雨濛濛视频片段作为控制生成的长视频

02

可控,才可用

人脸生成,是 AI 生成视频中最难的场景之一。

原因,首先是因为人类对人脸本身就很敏感。一个细微的肌肉表情,就能被解读出不同的含义。人们自拍经常要拍几十张相似的照片,才能挑到合适的角度。因此涉及到人脸的一些形变,很容易就会引起我们的注意。

而其次,人脸生成本身,存在一定技术难度。人的身体,并不是一个刚性的物体——刚性物体,只要对其进行环绕拍摄,模型就能很容易学习其物理属性。而人体本身,有许多关节,人身体上会穿柔软的衣服,人脸周围有毛发,对于模型来说,学习难度就会更高。

然而对于创作者来说,人脸视频生成却是最不可或缺的一块。

无论是影视作品,还是短视频作品,用人脸去传达感情,都是重要环节,无法被替代。

而商汤布局于这块硬骨头,也正是源于商汤多年在 B 端积累的客户洞察。

商汤科技数字文娱事业部总经理栾青在接受采访时表示:「我们和许多做动画电影的人聊了之后,发现他们普遍想要讲好一个故事。而现在的大模型,无法进入生产流程的最大问题,就是没有一个很可控的方法,让他们电影中的人物,真的具有表现力。最后 AI 视频还是只能用在过场的大场景中。」

而布局可控模型,也与商汤对于今天的大模型发展看法一脉相承。

在刚刚结束的 WAIC 上,商汤科技董事长兼 CEO 徐立提到,大模型技术走向应用,在商汤的认知中,有几个核心的重要的突破点。其一是人工智能的推理问题,要用高阶逻辑知识学习来解决。二,则是实时交互性带来流畅体验,在 WAIC 上,商汤发布也发布了商汤的阶段性成果「日日新 5o」模型。

而最后,很重要的一点,就是可控性。不管是文本生成、图像生成、视频生成,如果没有具备可控性,AI 作为一个工具,本身能够带来的效能的提升就非常的有限。

而 Vimi 模型,就是商汤在可控性方面,针对用户需求,做出的人物视频生成大模型。

今日的创作者,无需再在 prompt 上苦下功夫,一遍遍地生成,寄希望于大模型的盲盒,能够终于生成一个可用的人脸视频,既花功夫,又花成本。

对于原本的影视、动画创作者来说,Vimi 模型现在可以直接使用动画创作者最熟悉的骨架生成动作。而对于更多只有想法的视频创作者,自己录制一段视频,也能直接实现很好的生成效果。

视频来源:商汤 Vimi 模型

Vimi 模型仍然在快速持续迭代升级中。目前的模型,能够更可靠的生成的,主要是人物的上半身视频,而进一步的迭代的方向包括脸部表情的进一步控制、身体姿态控制、手部控制等等。

再进一步,Vimi 希望能够控制身体更多更复杂的动作,对更大的场景和多人的情景也能进行控制等等。

可控,才可用。

站在今天的时间点,我们也在 Vimi 模型身上,洞见了未来的可能性。

例如,曾经爆火的 AI 写真生成应用,利用的是成熟的 AI 生图技术,那么,在人脸生成稳定的新技术后,我们是不是可以期待一波 AI 视频写真的爆火?

视频来源:商汤 Vimi 模型

再比如,借助可控人物 AI 视频模型,原本不熟悉视频创作的人,是不是未来也可以低成本,低门槛地生成视频,来讲出自己想讲的故事,极大地丰富未来的视频内容?

抑或者,在不远的未来,我们再也不用担心明星没有演技了。因为明星的演技,也可以使用大模型微调了。

*头图来源:Vimi

本文为极客公园原创文章,转载请联系极客君微信 geekparkGO

极客一问

AI 视频生成技术将

如何影响影视和短视频创作?

来自马斯克的人生建议:尝试变得有用,努力不是为了变成领导。

点赞关注极客公园视频号

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
NBA宣布!你好,东契奇!解禁大战东部第一强队

NBA宣布!你好,东契奇!解禁大战东部第一强队

篮球实战宝典
2026-03-23 07:48:43
陶喆再一次证明,娶妻要娶年轻的,即使你老了,她还美得心旷神怡

陶喆再一次证明,娶妻要娶年轻的,即使你老了,她还美得心旷神怡

许三岁
2026-03-16 10:18:04
3月22日,财政部发布重要消息,强调4个字,养老金调整敲定了吗?

3月22日,财政部发布重要消息,强调4个字,养老金调整敲定了吗?

有范又有料
2026-03-22 15:51:20
禁赛被取消!詹眉都没有这特权,联盟演都不演了,而且对手也愿意

禁赛被取消!詹眉都没有这特权,联盟演都不演了,而且对手也愿意

你的篮球频道
2026-03-23 08:13:10
急眼了!美国富豪放狠话:西方必须抱团,否则中国将成为超级大国

急眼了!美国富豪放狠话:西方必须抱团,否则中国将成为超级大国

Hi科普啦
2026-03-22 08:50:11
日本台湾油价接连下跌,大陆油价却疯涨至9元,差异原因一目了然

日本台湾油价接连下跌,大陆油价却疯涨至9元,差异原因一目了然

风笛悠扬声
2026-03-23 02:47:50
美国能阻止武统吗?澳媒:中国导弹打完三轮,美军未必能反应过来

美国能阻止武统吗?澳媒:中国导弹打完三轮,美军未必能反应过来

领悟看世界
2026-03-23 01:25:20
名嘴郭正亮解释“为什么不上少康战情室节目了”

名嘴郭正亮解释“为什么不上少康战情室节目了”

总在茶余后
2026-03-23 01:15:52
苹果最便宜平板要来了!iPad 12上半年发布:升级A18芯片 支持AI

苹果最便宜平板要来了!iPad 12上半年发布:升级A18芯片 支持AI

快科技
2026-03-23 09:32:04
罚球14中5!联赛都吊儿郎当,“助国家队重返巅峰”只是空头支票

罚球14中5!联赛都吊儿郎当,“助国家队重返巅峰”只是空头支票

弄月公子
2026-03-22 11:07:22
被西方骂了这么久,我们终于“翻脸”了,世界开始慌了

被西方骂了这么久,我们终于“翻脸”了,世界开始慌了

现代小青青慕慕
2026-03-23 02:20:33
周边国家纷纷反水,阿拉伯联合酋长国发现了一个恐怖网络

周边国家纷纷反水,阿拉伯联合酋长国发现了一个恐怖网络

一种观点
2026-03-20 09:12:56
波尔不再隐瞒!公开樊振东不回中国队真正原因,难怪退出世界排名

波尔不再隐瞒!公开樊振东不回中国队真正原因,难怪退出世界排名

十点街球体育
2026-03-22 11:25:23
大胜!布伦森23+4全队第二,唐斯26+16特雷杨开心,湖人弃将爆发

大胜!布伦森23+4全队第二,唐斯26+16特雷杨开心,湖人弃将爆发

鱼崖大话篮球
2026-03-23 09:55:41
央视曝光:海鲜市场用“三无”麻醉剂甚至工业酒精麻醉活鱼,为方便装卸,防止在运输过程中掉鱼鳞

央视曝光:海鲜市场用“三无”麻醉剂甚至工业酒精麻醉活鱼,为方便装卸,防止在运输过程中掉鱼鳞

极目新闻
2026-03-22 21:08:49
47岁的秦海璐:每月给丧子丧夫的婆婆生活费,以后我就是您亲女儿

47岁的秦海璐:每月给丧子丧夫的婆婆生活费,以后我就是您亲女儿

揽星河的笔记
2026-03-13 18:08:50
有一种痛苦叫买了“复式楼”,不好卖,住着也不舒服,买了真后悔

有一种痛苦叫买了“复式楼”,不好卖,住着也不舒服,买了真后悔

Home范
2026-03-20 12:24:47
特朗普威胁北约,第一个翻脸的令人意外,不到48小时下达逐客令

特朗普威胁北约,第一个翻脸的令人意外,不到48小时下达逐客令

今墨缘
2026-03-23 07:57:02
中国很被动,被迫和“流氓”交朋友,只有忍辱负重才能赢得未来?

中国很被动,被迫和“流氓”交朋友,只有忍辱负重才能赢得未来?

君明观世界
2026-03-22 00:30:06
汪伪政权的最后一年(一)

汪伪政权的最后一年(一)

真实抗战故事
2026-03-22 16:06:24
2026-03-23 10:19:00
极客公园
极客公园
让最棒的创新成为头条
11899文章数 78853关注度
往期回顾 全部

科技要闻

雷军、蔡崇信最新发声,提到同一件事

头条要闻

梅姨每交易1名儿童拿1千元介绍费 会同犯问有没有小孩

头条要闻

梅姨每交易1名儿童拿1千元介绍费 会同犯问有没有小孩

体育要闻

46岁生日快乐!巴萨全队穿10号致敬小罗

娱乐要闻

47岁“国际章”身材走样?让嘲笑她的人闭嘴

财经要闻

连续暴跌 乱世黄金失灵?

汽车要闻

14.28万元起 吉利银河星耀8远航家开启预售

态度原创

教育
旅游
时尚
数码
本地

教育要闻

南京学校最新通知:晚9点,立即启动作业“熔断机制”!

旅游要闻

石家庄正定古城花海古韵引客来 成为京津冀周边踏春出游的热门之选

“这条裙子”才是今年春天的顶流,怎么搭都好看

数码要闻

ZimaCube 2 NAS整机海外推出,配置丰富售价799美元起

本地新闻

春色满城关不住|绍兴春日顶流,这片樱花海藏不住了

无障碍浏览 进入关怀版