网易首页 > 网易号 > 正文 申请入驻

AI 生成人物视频翻车?商汤推出可控人物视频生成模型 Vimi

0
分享至

商汤推出「可控」视频生成模型 Vimi,可精确模仿人物微表情。


作者 | Li Yuan
编辑| 郑玄

6 月,又是 AI 视频生成的一个重要月份,Runway 3、Luma AI、快手可灵纷纷推出了普通用户可用的视频生成模型。用 AI 生成视频,距离我们越来越近。

不过,相对于对话式机器人、AI 图片生成这些成熟的大模型使用场景,「AI 视频」离走出尝鲜还有一定距离。比如,无论是在影视剧里,还是在短视频中,视频的最重要的场景之一就是人脸,而在网上的视频生成测试中,最容易翻车之一的场景,也正是人脸。

下面是笔者用 Luma AI 尝试通过一张科学家图灵的照片生成的视频,让人物本身动起来相对容易,但一旦动起来,图灵的脸很快就变成了另一个人。

Luma AI 生成

在大模型和智能视觉技术领域有深厚积累的商汤,希望解决视频生成中这种「不可控」的痛点。最近在上海的 WAIC 2024 上,推出了最新的人物 AI 视频模型 Vimi,主打技术的「可控性」。

同一张照片,在商汤的演示下,生成是这样的。

视频来源:商汤 Vimi 模型

不仅光影和谐,且人物的一致性保持度极高。

商汤是怎么做到的?

01

第一个人物「可控」

的视频生成模型

据极客公园了解,此次的可控人物 AI 视频模型 Vimi 模型,由商汤数字文娱团队出品。

商汤从 2016 年开始,就持续深耕在人物表情的 AI 处理上,是亚洲地区最大的特效引擎提供商。作为用户,我们可能提起小狗滤镜,变脸特效,只能想起抖音这样的 C 端软件,不过其实背后,许多这样的特效的提供,都来自于商汤数字文娱团队。

去年,早在 Sora 的 demo 发布之前,他们就开始立项,进行可控人物 AI 视频模型的研发。重点发力「人物」、「可控」两个难点。

在视频生成中,可控性其实一直是不少模型努力的方向。

在 Vimi 模型之前,其实市面上已经有一些模型,能够较为可控地生成人物动作。

其中最出圈的,可能就是阿里出品的 AnimateAnyone,也就是曾经让兵马俑也能跳「科目三」的背后技术。

采用了姿态引导器(Pose Guider)的技术,通过 Denoising UNet 模块进行视频的生成,AnimateAnyone 能够让人们在只输入一张图片的情况下,让图片做出姿态引导器所做出的动作。

简单讲,科目三的动作是被提前设置好的,而输入照片后,AnimateAnyone 可以让一张照片中的人物按照科目三的动作动起来。

不过很明显可以看出,AnimateAnyone 的姿态控制,更针对大范围的肢体动作。

而商汤团队的优势,在于塑造人物表情上更加鲜活。

同样是同时输入一张图片,和一个动作(可以是动画模型的 3D 骨架动作,也可以是一段视频),商汤的 Vimi 模型,能够做到对脸部和上半身动作进行精准地控制。这也是目前发布的第一个能够对人脸和上半身做如此精准可控的模型。

视频来源:商汤 Vimi 模型

商汤表示,模型训练本身,并没有使用特别的数据,只是采用了公开数据库进行训练。

能够在人脸方面,成为第一个精准控制人脸表情的模型,主要源于商汤多年在面部跟踪方面的积累:「对人脸实现技术角度的精准控制,需要更精准地去跟踪人物表情中的每一个细节,包括牙齿、耳朵、眼球、睫毛等等。细节能够做的好,在人物的参数化上就可以做得非常的精准,之前的技术积累都是实现这个模型的前提。有了这些积累,真正训练的时候,使用的数据量可以少许多。」

事实上,除了专注于面部的可控之外,商汤的 Vimi 模型和 AnimateAnyone 在底层架构上也不同。AnimateAnyone 使用类似 ControlNet 的方法,从图像中的身体部位提取一些锚点,作为生成视频每一帧的动作参考;而商汤的 Vimi 模型,将人的动作和表情做了全面的理解和抽象,将整段动作信息作为一个整体,与生成模型对图像和视频信息的特征理解相融合,这样生成的视频在空间和时间上都能保持很好的整体性。不同的训练架构,导致从生成效果来看,商汤的模型,对光影一致性的控制,效果非常优秀。

「传统模型最大的一个问题是,它不太能合理地生成周边的内容,包括身体的动作和环境的一些变化。而采用大模型训练,可以整个的环境都跟着肢体的控制去变化,包括生成合理的头发的抖动。甚至能够模拟镜头角度,比如输入镜头是逐渐拉近,输出也能有自然的逐渐拉近的效果。而原本,要做出这样的效果,需要复杂的 3D 建模,绑定各种光效渲染才能做出来。」采访中商汤表示。

视频来源:商汤 Vimi 模型

而与专门的生成式模型比起来,可控人物 AI 视频模型又在人物生成效果稳定多了。尤其在长视频的情景下,能够稳定保持人物的脸部可控。目前,团队可以做到一分钟以上的稳定视频生成。

Vimi 模型使用情深深雨濛濛视频片段作为控制生成的长视频

02

可控,才可用

人脸生成,是 AI 生成视频中最难的场景之一。

原因,首先是因为人类对人脸本身就很敏感。一个细微的肌肉表情,就能被解读出不同的含义。人们自拍经常要拍几十张相似的照片,才能挑到合适的角度。因此涉及到人脸的一些形变,很容易就会引起我们的注意。

而其次,人脸生成本身,存在一定技术难度。人的身体,并不是一个刚性的物体——刚性物体,只要对其进行环绕拍摄,模型就能很容易学习其物理属性。而人体本身,有许多关节,人身体上会穿柔软的衣服,人脸周围有毛发,对于模型来说,学习难度就会更高。

然而对于创作者来说,人脸视频生成却是最不可或缺的一块。

无论是影视作品,还是短视频作品,用人脸去传达感情,都是重要环节,无法被替代。

而商汤布局于这块硬骨头,也正是源于商汤多年在 B 端积累的客户洞察。

商汤科技数字文娱事业部总经理栾青在接受采访时表示:「我们和许多做动画电影的人聊了之后,发现他们普遍想要讲好一个故事。而现在的大模型,无法进入生产流程的最大问题,就是没有一个很可控的方法,让他们电影中的人物,真的具有表现力。最后 AI 视频还是只能用在过场的大场景中。」

而布局可控模型,也与商汤对于今天的大模型发展看法一脉相承。

在刚刚结束的 WAIC 上,商汤科技董事长兼 CEO 徐立提到,大模型技术走向应用,在商汤的认知中,有几个核心的重要的突破点。其一是人工智能的推理问题,要用高阶逻辑知识学习来解决。二,则是实时交互性带来流畅体验,在 WAIC 上,商汤发布也发布了商汤的阶段性成果「日日新 5o」模型。

而最后,很重要的一点,就是可控性。不管是文本生成、图像生成、视频生成,如果没有具备可控性,AI 作为一个工具,本身能够带来的效能的提升就非常的有限。

而 Vimi 模型,就是商汤在可控性方面,针对用户需求,做出的人物视频生成大模型。

今日的创作者,无需再在 prompt 上苦下功夫,一遍遍地生成,寄希望于大模型的盲盒,能够终于生成一个可用的人脸视频,既花功夫,又花成本。

对于原本的影视、动画创作者来说,Vimi 模型现在可以直接使用动画创作者最熟悉的骨架生成动作。而对于更多只有想法的视频创作者,自己录制一段视频,也能直接实现很好的生成效果。

视频来源:商汤 Vimi 模型

Vimi 模型仍然在快速持续迭代升级中。目前的模型,能够更可靠的生成的,主要是人物的上半身视频,而进一步的迭代的方向包括脸部表情的进一步控制、身体姿态控制、手部控制等等。

再进一步,Vimi 希望能够控制身体更多更复杂的动作,对更大的场景和多人的情景也能进行控制等等。

可控,才可用。

站在今天的时间点,我们也在 Vimi 模型身上,洞见了未来的可能性。

例如,曾经爆火的 AI 写真生成应用,利用的是成熟的 AI 生图技术,那么,在人脸生成稳定的新技术后,我们是不是可以期待一波 AI 视频写真的爆火?

视频来源:商汤 Vimi 模型

再比如,借助可控人物 AI 视频模型,原本不熟悉视频创作的人,是不是未来也可以低成本,低门槛地生成视频,来讲出自己想讲的故事,极大地丰富未来的视频内容?

抑或者,在不远的未来,我们再也不用担心明星没有演技了。因为明星的演技,也可以使用大模型微调了。

*头图来源:Vimi

本文为极客公园原创文章,转载请联系极客君微信 geekparkGO

极客一问

AI 视频生成技术将

如何影响影视和短视频创作?

来自马斯克的人生建议:尝试变得有用,努力不是为了变成领导。

点赞关注极客公园视频号

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
霍尔木兹海峡风云突变,巴基斯坦亮出底牌,强势护航油轮通过

霍尔木兹海峡风云突变,巴基斯坦亮出底牌,强势护航油轮通过

牛锅巴小钒
2026-03-15 19:38:14
伊朗警告日本:若日本境内美军基地被用于攻击伊朗,将对日本发动攻击

伊朗警告日本:若日本境内美军基地被用于攻击伊朗,将对日本发动攻击

大风新闻
2026-03-17 08:44:03
多款药品被曝线上线下价差巨大

多款药品被曝线上线下价差巨大

21世纪经济报道
2026-03-17 17:01:49
以色列专打伊朗“镇压机器”,为巴列维王储势力铺路

以色列专打伊朗“镇压机器”,为巴列维王储势力铺路

老马拉车莫少装
2026-03-01 21:19:35
巨亏16亿,关店27家!百亿女总裁失联,曾经“超市之王”撑不住了

巨亏16亿,关店27家!百亿女总裁失联,曾经“超市之王”撑不住了

毒sir财经
2026-03-16 21:51:45
梅婷在北京那套近亿的别墅里,最金贵的是公婆打理的400平菜园

梅婷在北京那套近亿的别墅里,最金贵的是公婆打理的400平菜园

南权先生
2026-03-11 15:44:52
台军女飞行员郭文静:只要长官敢下令,我会毫不犹豫的击落歼20!

台军女飞行员郭文静:只要长官敢下令,我会毫不犹豫的击落歼20!

顾史
2026-01-21 21:04:39
他是黄埔四期第一名,1955年婉拒上将军衔,毛主席:他不亚于我

他是黄埔四期第一名,1955年婉拒上将军衔,毛主席:他不亚于我

比利
2026-03-17 20:22:33
海哈金喜回应复婚问题,与李亚鹏都狼狈过,离婚半年哽咽说释怀了

海哈金喜回应复婚问题,与李亚鹏都狼狈过,离婚半年哽咽说释怀了

潮鹿逐梦
2026-03-17 14:41:42
北大连夜宣布好消息!攻克1纳米芯片技术,中国又“换道超车”

北大连夜宣布好消息!攻克1纳米芯片技术,中国又“换道超车”

似水流年忘我
2026-03-16 16:12:54
彻底慌了!伊朗高层弃手机用鸡毛信,士兵露宿街头不敢回营

彻底慌了!伊朗高层弃手机用鸡毛信,士兵露宿街头不敢回营

老马拉车莫少装
2026-03-17 20:02:54
今年将爆发史上最严重的金融危机?

今年将爆发史上最严重的金融危机?

智本社
2026-03-17 19:05:58
欠中国的钱,委内瑞拉不还了?美财长:中国已无法继续获得委石油

欠中国的钱,委内瑞拉不还了?美财长:中国已无法继续获得委石油

萌城少年强
2026-01-22 12:47:40
突发:古巴变天了

突发:古巴变天了

难得君
2026-03-17 16:51:36
美军扔下了一枚13.6吨的超级钻地弹

美军扔下了一枚13.6吨的超级钻地弹

安安说
2026-03-11 10:04:12
沙溢当众殴打李晨,被告上仲裁会:永远不要轻易评价一个人

沙溢当众殴打李晨,被告上仲裁会:永远不要轻易评价一个人

圆梦的小老头
2026-03-15 03:37:22
深圳董事长疑因抑郁离世:悲剧的真相

深圳董事长疑因抑郁离世:悲剧的真相

精准心理学何日辉
2026-03-16 14:46:18
笑麻了,裁员裁到大动脉,老板:我对你也没啥印象呀

笑麻了,裁员裁到大动脉,老板:我对你也没啥印象呀

另子维爱读史
2026-03-14 20:59:00
黄天鹅角黄素风波发酵 打假人王海:100%是饲料堆积 创始人冯斌:我们没做错什么

黄天鹅角黄素风波发酵 打假人王海:100%是饲料堆积 创始人冯斌:我们没做错什么

快科技
2026-03-17 08:30:31
新四军三师挺进东北,上级安排李天佑当副师长,黄克诚:绝对不行

新四军三师挺进东北,上级安排李天佑当副师长,黄克诚:绝对不行

铜臭的历史味
2026-03-14 14:26:05
2026-03-17 21:32:49
极客公园
极客公园
让最棒的创新成为头条
11886文章数 78850关注度
往期回顾 全部

科技要闻

3万字实录|黄仁勋:每家公司都必须懂养虾

头条要闻

特朗普访华可能重新安排到什么时间 外交部回应

头条要闻

特朗普访华可能重新安排到什么时间 外交部回应

体育要闻

那个男人34岁拒绝买断 他要给状元当导师

娱乐要闻

姚晨曹郁发离婚声明 凌潇肃评论区沦陷

财经要闻

多款药品被曝线上线下价差巨大

汽车要闻

10分钟电量20%→97% 低温实测比亚迪闪充

态度原创

游戏
本地
教育
家居
时尚

萌翻了!玩家呼吁《柯娜》新作别用新DLSS污染萌物

本地新闻

春天出门像出舱?一个过敏星人的装备进化史

教育要闻

西安美术学院2026年本科招生专业校考合格线及成绩查询公告

家居要闻

侘寂美学 无用之美

优雅,与皱纹无关

无障碍浏览 进入关怀版