网易首页 > 网易号 > 正文 申请入驻

让林黛玉喝咖啡、马斯克拍合影!视频大模型Vidu首发新功能:锁定角色形象,任意生成场景

0
分享至


智东西
作者 ZeR0
编辑 漠影

智东西9月11日报道,今日,国内知名AI视频生成模型Vidu在全球首发一项重要功能——「主体参照」(Subject Consistency)。

用户上传任意主体的照片,Vidu就能锁定这一主体的形象,根据输入的描述词任意切换场景,输出主体一致的视频。主体可以是人物、动物、商品、动画角色、虚构角色。

比如生成林黛玉在现代咖啡馆喝咖啡的视频:


如果使用以前的「角色一致性」功能,可以保持人物面部特征的一致性,但难以保证整体形象的稳定,因此生成的画面是林黛玉穿着现代装喝咖啡。

而Vidu的「主体参照」功能不仅能保持面部一致,也能保持人物整体形象的高度一致,根据输入的文字描述来灵活输出目标场景,因此可以生成保留原图形象的林黛玉在现代场景中喝咖啡的视频,画面效果自然、真实,角色造型高度一致。

再比如上传这张马斯克的照片:


使用「主体参照」功能后,生成视频的场景想怎么切换就怎么切换,人物造型都与原图一致。

Vidu是全球首个支持这项能力的视频大模型。「主体参照」功能能够实现对任意主体的一致性生成,让视频生成更加稳定、可控。该功能已面向用户免费开放,注册即可体验。

体验地址: www.vidu.studio

今年4月底,由生数科技和清华大学联合研发的国内首个纯自研原创视频大模型Vidu面向全球发布。7月底正式上线后,Vidu凭借在高动态性、精确语义理解、动漫风格、快速推理等方面的亮点,产品表现位列全球视频大模型的“第一梯队”,并在TikTok等海外社交媒体平台上掀起多种AI视频主题玩法的热潮,如“跨越时空的拥抱”等。

生数科技联合创始人兼CEO唐家渝说,几乎全球做动漫视频都会首选Vidu,因为它在整体流畅度、人体自然度等方面显著领先,而且视频生成速度快,30秒内就能生成单个片段。

打造Vidu的生数科技成立于2023年3月,目前团队规模逾100人,已完成数亿元融资(最新公开为Pre-A轮),投资方包括启明创投、北京人工智能产业投资基金、蚂蚁集团、百度、达泰资本、BV百度风投、哈勃投资、锦秋基金等知名机构。

今日生数科技还推出了合作伙伴计划,邀请广告、影视、动漫、游戏等行业的机构加入,共同探索新的视频创作模式,在内容共创、技术支持、市场拓展等方面展开合作。

首批合作伙伴包括开心麻花、猫眼娱乐、巨人网络、美克家居、融创文化、河南省非物质文化遗产保护和智慧中心、李可柒画院等知名企业与机构。


一、全球首发主体参照功能,让指定形象的角色在不同场景中动起来

生数科技今日推出「主体参照」的功能,是视频生成领域的一大创新,可基于一张任意主体的图片,根据描述词切换场景,输出主体一致的视频。

无论是人物、动物、商品,还是动漫角色、虚构主体,都能确保其在视频生成中的一致性和可控性。

进行人物角色的“主体参照”,无论是真实人物还是虚构角色,Vidu都能保持其在不同环境中、不同镜头下的形象连贯一致。

例如,上传这张人物图片:


用Vidu可以生成她在不同场景中的视频。

上传动物图片,Vidu同样能实现其在不同环境下、大幅运动状态中细节特征保持一致。


以商品为主体,商品的外观和细节在不同场景中保持高度一致。

针对动漫角色或者虚构的主体等,Vidu同样可以保持其高度一致。

此前视频大模型已有的「图生视频」、「角色一致性」等能力在生成效果上存在明显不足,比如图生视频基于首帧画面的连续生成,无法直接输出目标场景,限制了视频内容的多样性和场景的自由度;角色一致性只限于人物面部特征的一致性,难以保证人物整体形象的稳定。

相比之下,「主体参照」不局限于人物,面向任意主体,在人物主体下可选择保持面部一致,也可选择保持人物整体形象的高度一致,通过输入文字描述灵活输出目标场景。

二、打破视频模型的局限性:可控性不足

视频大模型普遍存在着一个核心问题——可控性不足,或者叫一致性的不足。

在实际视频创作中,视频内容往往围绕特定的对象展开,可以是角色或特定物体,这些对象在视频中的形象需要保持连续一致。

现有的视频模型往往难以实现这一点,常常是主体在生成过程中容易崩坏。生成视频连续性弱,无法保证每次生成视频时主题、场景、风格等的一致性,尤其涉及复杂交互的情况下尤为明显。

此外,视频模型的输出结果有较大的随机性,需要不断生成尝试,对于镜头运用、光影效果等细节的控制也不够精细准确。

所以现阶段的视频模型虽然在画面表现力、物理规律、想象力等方面取得一定突破,但可控性不足限制了它们在创作连贯、完整视频内容方面的应用。目前大多数的AI视频内容还是基于独立视频素材的拼接,情节的连贯性不足。

为了解决这一问题,业界曾尝试采用“先AI生图、再图生视频”的方法,通过AI绘图工具如Midjourney生成分镜头画面,先在图片层面保持主体一致,然后再将这些画面转化为视频片段并进行剪辑合成。

这种方式的问题是,AI绘图的一致性并不完美,往往需要通过反复修改和局部重绘来解决。而且实际的视频制作过程中涉及众多场景和镜头,在处理多组分镜头的场景时,生图的工作量巨大,能占到全流程的一半以上,最终视频内容也会因为过分依赖分镜头画面而缺乏创造性和灵活性。


Vidu的「主体参照」功能没有用传统的分镜头画面生成步骤,而是通过“上传主体图+输入场景描述词”的方式,直接生成视频素材,能够大幅减少了工作量,并打破了分镜头画面对视频内容的限制。

这使得创作者能够基于文本描述,发挥更大的想象力,创造出画面丰富、灵活多变的视频内容,为视频创作带来更大的自由度和创新空间。

三、加速视频创作:3张定妆照完成故事短片,6小时搞定一支视频广告

「主体参照」功能通过锁定角色或物体的形象,一方面让故事情节更具连贯性,另一方面让创作者能够更自由地探索故事的深度和广度。

光驰矩阵的发起人、青年导演李宁正在打造中国首部AIGC院线电影《玄宇》。他利用Vidu预创作了一段男主的视频片段,其中所有人物画面仅通过男主近景、中景、远景三张定妆照生成。

据李宁分享,之前AI电影创作采用传统的文生图、图生视频流程,在分镜的连贯上很难掌控,人物的整体造型很难保持一致,前期需要耗费大量的精力去调试图片,同时画面还容易产生镜头光影失控、图像模糊甚至变形等一系列问题,且随着视频篇幅的增加,这些问题被进一步放大。

他发现Vidu「主体参照」功能让人物的整体一致性显著提升,不再需要前期生成大量的图片,人物运动和画面过渡也更加自然,极大助力了长篇叙事的创作。

中央广播电视总台导演、AIGC艺术家石宇翔(森海荧光)创作了一条动画短片《夏日的礼物》。他分享说,与基础的图生视频功能相比,「主体参照」功能摆脱了静态图片的束缚,生成的画面更具感染力和自由度,让创作的连贯性大大提升,还帮助他节约7成左右的生图工作量,让他能够将更多精力放在故事内容的打磨上,而非生成图片素材上。再叠加上Vidu的复杂动作处理能力和多元素的理解能力,他觉得Vidu就像是一位真人助理“动画师”在辅助创作。

「主体参照」功能也在商业广告片方向展现了强大的潜力。

广告片的一大关键在于要保证多个镜头、不同场景下品牌物形象的一致性。Vidu「主体参照」功能可以很好的实现,例如在跑步鞋广告案例中,仅通过一张商品图,便完成了所有视频画面的生成,无论是不同角度、背景,还是动态表现,跑步鞋的形象在整个视频中都保持了高度一致。

据生数科技官方介绍,该视频仅一位人员花费6个小时完成,包含前期策划、素材生成,后期剪辑,其中30段AI视频素材的生成仅花费3个小时,整个流程仅参照一张商品图。

传统广告片制作高度依赖线下实拍和后期制作,时间周期长、成本投入大,但现在通过Vidu能够极大地节省广告制作的成本,整个产出流程更加高效,品牌方对新素材的开发也能更加灵活。

结语:“主体参照”代表着AI完整叙事的开端

此前Vidu牵手海内外头部艺术家已产出百部优秀作品,全平台播放量破千万。面向专业创作领域,Vidu正与AI艺术家们合作探索AI赋能下的全新创作模式。

比如与北京电影节AIGC短片单元最佳影片得主、Ainimate Lab合作打造的动画短片《一路向南》,画面质量接近传统动画制作标准,但成本仅为传统流程的1/40。

Ainimate Lab AI负责人陈刘芳说,该短片的创作团队仅由三人构成:一名导演、一名故事版艺术家和一名AIGC技术应用专家。Vidu大大缩短了制作周期并显著降低了成本,制作周期约为1周。相比之下,传统流程需要20人,包含导演、美术、建模、灯光、渲染等不同“工种”,周期在1个月左右。

在唐家渝看来,「主体参照」这一全新功能的上线,代表着AI完整叙事的开端,AI视频创作也将迈向更高效、更灵活的阶段。

无论是制作短视频、动画作品还是广告片,在叙事的艺术中,一个完整的叙事体系是“主体一致、场景一致、风格一致”等要素的有机结合。

因此,视频模型要达到叙事的完整性,就必须在这些核心元素上实现全面可控。

“主体参照”功能是Vidu在一致性方面迈出的重要一步。接下来Vidu会继续探索如何精确控制多主体交互、风格统一、多变场景稳定切换等复杂元素,以满足更高层次的叙事需求。

长远来看,一旦实现了全面的可控性,视频创作行业将经历一场颠覆性的变革。届时,角色、场景、风格,甚至镜头运用、光影效果等元素,都将转化为可灵活调整的参数。用户只需要动动手指、调调参,就可以完成一部影像作品的创作,而每一个作品的背后,也将是用户基于AI构建出的独特世界观和自我表达。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
耻辱!弗格森痛骂阿森纳!25% 控球率踢成橄榄球

耻辱!弗格森痛骂阿森纳!25% 控球率踢成橄榄球

奶盖熊本熊
2026-06-01 04:25:57
土耳其站队了!正式向世界宣布:以色列若继续打加沙,会让他好看

土耳其站队了!正式向世界宣布:以色列若继续打加沙,会让他好看

傲傲讲历史
2026-05-31 09:18:17
基辅高官人人自危!俄军包了一个“大饺子”:乌军四个旅见死不救

基辅高官人人自危!俄军包了一个“大饺子”:乌军四个旅见死不救

影孖看世界
2026-05-31 23:19:30
嫁给富豪13年却独守娘家,潘阳点醒了无数年轻人,家底再厚也没用

嫁给富豪13年却独守娘家,潘阳点醒了无数年轻人,家底再厚也没用

情感大头说说
2026-05-30 17:02:16
250亿元,赖清德偷窜代价曝光,岛内批:为牟取政治利益“自甘下跪”

250亿元,赖清德偷窜代价曝光,岛内批:为牟取政治利益“自甘下跪”

环球网资讯
2026-06-01 06:36:08
这个发达的小国家,快被中国人“买”下了!中国移民占比高达九成

这个发达的小国家,快被中国人“买”下了!中国移民占比高达九成

潇湘烟雨水
2026-05-26 06:09:18
冰箱里的冻肉,超过这个时间直接扔!(附冰箱内各类食物保存期)

冰箱里的冻肉,超过这个时间直接扔!(附冰箱内各类食物保存期)

齐鲁壹点
2026-04-02 23:14:06
香会爆发激烈交锋,短短3天全球见识了:日菲的软弱,中国的强大

香会爆发激烈交锋,短短3天全球见识了:日菲的软弱,中国的强大

闻识
2026-06-01 06:19:52
离谱内讧遭CBA当晚解雇!湖人旧将贝兹利再就业 签韩国K联赛

离谱内讧遭CBA当晚解雇!湖人旧将贝兹利再就业 签韩国K联赛

醉卧浮生
2026-06-01 17:38:52
1945年,18岁机枪手掉队,撞见日军聚餐,开枪重创敌人

1945年,18岁机枪手掉队,撞见日军聚餐,开枪重创敌人

唠叨说历史
2026-05-29 11:51:00
地黄丸家族认清楚:六味、知柏、杞菊,你真的吃对了吗?

地黄丸家族认清楚:六味、知柏、杞菊,你真的吃对了吗?

PSM药盾公益
2026-05-26 13:14:25
张嘉译机场偶遇孙浩,顺口喊一声:苟师!孙浩搞笑回了句:三元舅

张嘉译机场偶遇孙浩,顺口喊一声:苟师!孙浩搞笑回了句:三元舅

动物奇奇怪怪
2026-06-01 17:37:04
奉劝所有人:退休后,跟别人关系再好,一日游、二日游都行,但千万别尝试长时间一起游,否则早晚会后悔

奉劝所有人:退休后,跟别人关系再好,一日游、二日游都行,但千万别尝试长时间一起游,否则早晚会后悔

背包旅行
2026-05-28 18:04:35
莫迪突下死命令!严禁阳阳中国,但不是良心发现,而是走投无路

莫迪突下死命令!严禁阳阳中国,但不是良心发现,而是走投无路

杰丝聊古今
2026-05-31 23:30:43
何猷君婚礼欢迎宴,奚梦瑶父母罕见亮相,4700万珠宝引关注

何猷君婚礼欢迎宴,奚梦瑶父母罕见亮相,4700万珠宝引关注

早起的鸟儿有饭吃
2026-06-01 10:10:27
艾滋病新增130万!很多人中招很冤枉!在外“5不碰”一定要记死

艾滋病新增130万!很多人中招很冤枉!在外“5不碰”一定要记死

今朝牛马
2025-12-31 19:31:04
后悔现在才知道:孩子最大的幸福,是小时候父母允许做这5件事

后悔现在才知道:孩子最大的幸福,是小时候父母允许做这5件事

棉花糖妈妈
2026-05-31 21:31:05
公然拒挂国旗,订单全给日韩,长荣如今的结局早已注定

公然拒挂国旗,订单全给日韩,长荣如今的结局早已注定

潋滟晴方DAY
2026-05-11 06:31:37
花生再次被关注!调查发现:糖尿病常吃花生不过半年或有4好处

花生再次被关注!调查发现:糖尿病常吃花生不过半年或有4好处

芹姐说生活
2026-05-15 23:37:01
善恶终有报!放弃国籍、贬低中国,68岁瘫在轮椅的张铁林活成笑话

善恶终有报!放弃国籍、贬低中国,68岁瘫在轮椅的张铁林活成笑话

阿讯说天下
2026-06-01 15:17:02
2026-06-01 18:24:49
智东西 incentive-icons
智东西
智东西,AI产业新媒体,专注报道人工智能的前沿技术发展,和技术应用带来的千行百业产业变革。
11942文章数 117089关注度
往期回顾 全部

科技要闻

两大芯片巨头打起来了

头条要闻

见习医生网购3元美工刀 拆快递时被割伤神经手无知觉

头条要闻

见习医生网购3元美工刀 拆快递时被割伤神经手无知觉

体育要闻

杰威:如果我没受伤,我们能击败马刺

娱乐要闻

奚梦瑶婚礼现场图!一双儿女当花童

财经要闻

宇树科技科创板IPO过会

汽车要闻

赛力斯联手字节打造"赛豆" 首款跨界车年内推出

态度原创

本地
手机
亲子
房产
艺术

本地新闻

用剪纸的方式,打开江苏扬州

手机要闻

电线变网线、速率翻倍!华为凌霄子母路由Q7电线版发布:子母套装1219元

亲子要闻

宝蓝奶奶在干农活,宝蓝开着玩具小拖拉机来帮忙,好懂事。

房产要闻

100亿!1371亩!海口城市更新,再爆超级项目!

艺术要闻

吴镇写竹,清清爽爽

无障碍浏览 进入关怀版