网易首页 > 网易号 > 正文 申请入驻

参考生开创者Vidu正面硬刚Sora 2,月底推Q2新版本

0
分享至


智东西
作者 程茜
编辑 漠影

刚刚过去的国庆假期,将视频生成领域的技术竞赛推向全新高度。

OpenAI率先抛出重磅炸弹,旗舰视频生成模型Sora 2,直言其正“直奔视频领域的GPT-3.5时刻”,并随之推出Sora应用程序。凭“Cameo(引用角色功能)”首周下载量超ChatGPT;随后,马斯克xAI亮出Imagine v0.9,以20秒内快速生成、全用户免费开放的优势予以回应;本月底,国内AI视频创业公司生数科技的Vidu Q2参考生功能也即将重磅亮相……

在这一系列密集的行业动向中,其中尤为突出的是Sora应用的Cameo和Vidu的参考生功能,我们可以窥探到视频生成赛道的新共识,“引用角色形象”正成为技术探索与应用落地的关键方向

相比于OpenAI,生数科技在参考生视频领域的布局更早。作为全球“参考生视频”概念的首个提出者和开创者,早在2024年9月Vidu就已提出了参考生视频功能。而随着Sora应用程序的落地,中美在AI视频领域的技术与产品较量,也正式进入正面PK的关键阶段。

本月底,Vidu Q2参考生视频即将登场,不仅对于To C小白用户友好,使用门槛大幅降低,而且作为生产力工具,其对于专业、半专业创作者也非常能打,同时对于一致性、精准性、性价比要求较高的广告电商、影视动漫等To B领域的要求也能满足。

下面是创作者陈畅率先借助Vidu Q2参考生功能生成的高燃大片,已经让我们提前感受了Vidu Q2参考生的技术实力。


一、直击视频生成核心痛点,“角色引用”成主流解法,Vidu早有布局

不同于文字、图像生成技术已实现高稳定性、高可控性的生成效果,当前视频生成技术虽正在快速迭代,却仍受多个核心痛点制约,尚未迎来大规模商业化落地的爆发时刻。

首先,文字之间的连接可通过语法、上下文,图像只需明确单一场景的核心信息,而视频的核心价值在于通过连续画面传递完整叙事,往往视频时长增加,就会出现情节割裂、角色行为矛盾、空间错位等问题

其次,可控性缺失。若视频生成包含元素过多,会受限于模型的理解能力和记忆能力等,再加上普通用户难以通过提示词传达准确的专业术语,会进一步导致生成内容出现偏差。

从当下主流视频生成模型企业的布局来看,引用角色形象这一核心思路,成为解决上述痛点的有效路径,也就是Sora App中的Cameo以及Vidu的参考生功能。

其共同点是支持上传参考图生成视频,能在一定程度上使得最后视频生成都围绕这一元素展开,避免中间出现较大的情节偏差。再加上其有固定的角色特征作为参照,用户可以以画面中内容为核心结合提示词生成同一角色不同的视频画面。

但不同之处在于,Vidu的参考生功能范畴覆盖更为广泛。

Sora App中的Cameo功能,允许用户在应用中进行一次简短的音视频录制,即可以将自己或者授权的其他人直接带入任何Sora生成的场景中。一定程度上可以认为,Cameo的功能是使生成视频中的主体角色与上传图片的主体保持一致,也就是“角色参考”

而Vidu的“参考生”功能,涵盖了角色、环境、道具等诸多要素来生成视频,参考类型更多,可以为创作者提供更高的自由度和控制力。

AI原生的参考生功能已经成为这场视频生成竞赛中抢占先机的关键,就在本月底,Vidu即将发布的Q2参考生版本,将进一步强化这一优势。

二、从一致性到精细控制:Vidu Q2参考生与Sora 2逐维度拆解

相同参考图片下,Sora 2与Vidu Q2参考生的生成效果各有优劣。
首先明确下OpenAI Sora App中的Cameo与Vidu Q2参考生的具体功能。

从OpenAI的官方博客可以看出,Cameo生成的角色由用户的短视频和音频捕获构建而成,可以被重复使用。且录制视频和音频时,用户需要寻找效果较好的光线、干净的背景、摘下帽子、保持周围环境安静等,才能确保最后生成的主体角色质量更高。

Vidu Q2的参考生功能则支持上传最多7张照片,可以是人物、物体、场景、特效的不同组合,也可以是多个人物,并且能在保持参考图特征的同时,更贴近用户原始输入。

下面就是同样的参考图片、提示词下,Sora 2与Vidu Q2参考生生成的视频实际效果对比,提示词为介绍皇冠:

参考图(由AI生成):


Sora 2生成的视频效果:

Vidu Q2生成的视频效果:


可以看到,两个视频中都切换了远景、近景。Sora 2的优势在于可以音视频直出,画面搭配实时解说,并自动补充大量不同分镜,几乎做到一键成片,但其中不足的地方在于,Sora 2的视频中皇冠样式略微发生改变,还出现了皇冠凭空漂浮在空中的反常理画面。

相比之下,Vidu Q2参考生生成的视频中,主体人物始终手握皇冠,且人物的形象、嘴边的麦克、皇冠的样式始终保持一致,同时人物的眼神也在跟随皇冠的位置变化而移动,使得人物与物品更具有互动感,但不足之处在于,虽然人物的嘴形也在变化,却没有相应的音频生成。

第二个的提示词为:女孩闭上眼睛,身后的云朵飞舞,发出金光。

参考图(由AI生成):


Sora 2生成的视频效果:


Vidu Q2生成的视频效果:

这一案例中,Sora 2生成的人脸与参考图相差较大。Vidu Q2则更好地保持了与参考图人物的完全一致。

总结来看,Vidu参考生的核心优势为突破单一角色引用局限,实现了覆盖角色、道具、场景、特效等创作全要素参考,同时在主体一致性上保持更好。

基于此,创作者无需在多工具间切换寻找资源,仅通过Vidu参考生就能直接引用所需的各类创作要素,并基于这些要素快速生成视频,最终简化创作流程并赋予创作者更高的创作自由度与细节控制力。

三、Vidu Q2参考生三大亮点曝光,月底正式亮相

据了解,Vidu Q2模型的升级让AI视频从视频生成直接迈向演技生成新阶段,而这次参考生功能的Q2版本更新也在原有功能上实现了质的突破,生成的视频一致性依旧保持全球领先、生成速度更快、价格更优惠,同时作为国产AI视频,对于国内用户来说,直接上手可用。

智东西也率先拿到了Vidu Q2参考生的内测资格,提前体验了一波参考生功能的升级。

话不多说,先上实例。

第一个案例是广告电商类的美妆产品多步骤演示。

提示词:图1坐在图3前,先拿起图2的粉底液,用美妆蛋以“点涂+轻拍”动作均匀上脸(特写手部发力细节),接着对着镜子微笑展示妆效(捕捉嘴角上扬+眼神亮泽的表情)。镜头从“手部操作近景→面部上妆中景→微笑特写”切换,全程保持博主妆容、梳妆台物品位置不变。

参考图(由AI生成):

Vidu Q2生成的视频:


最后生成的视频中美妆博主眼睛上的亮片也都进行了复现,且使用的美妆蛋、卧室梳妆台与参考图内容均一致,在人物运动、镜头切换时也没有变形。

第二个案例是知识科普类,科普某手工制品的制作教程等。

提示词:图1在演示皮具缝制:先将图2的皮革对齐,再用针线回针缝(特写针脚密度),全程保持皮革纹理、工具摆放位置不变。

参考图(由AI生成):


Vidu Q2生成的视频:

这一视频中全程的皮革纹理、工具摆放位置并没有发生变化,并且精准的拉近镜头切换特写,人物还有用针线的相应动作。

第三个案例是宠物拟人化剧情:

图1坐在图3的迷你书桌前,前爪搭在图2的笔记本上假装写字(爪子轻划纸面的动态),偶尔抬头歪头(呆萌表情)。镜头先用低角度仰拍模拟宠物视角,再用缓慢推近聚焦写字动作,最后用俯视运镜展示书桌全貌;全程保持柯基帽子不掉、道具位置合理。

参考图(由AI生成):

Vidu Q2生成的视频:

这一视频中客厅背景的绿植、沙发造型,小桌子上的笔记本、笔、橡皮以及柯基头上佩戴的蓝色帽子位置都与参考图一致,且镜头也符合提示词要求的的先用低角度仰拍再全景展示。

三个体验案例中的共同点就是,利用Vidu Q2参考生生成的视频均保持了智东西上传图片的一致性,同时能满足各种镜头角度转换、人物动作变化的需求。Q2参考生在生成速度上也更快,只需十几秒即能快速生成一段5秒视频片段。

这一波Vidu Q2的升级,将再次使得参考生的实用性更进一步,大幅降低视频制作的技术门槛。

Vidu Q2参考生视频已进入发布倒计时,本月底即将揭晓答案,其将用实力证明,中国视频大模型更能打,不只停留在技术层面,更在于落地价值。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
29万人逃离湖南,22万人离开吉林!人口大迁徙中,谁是最后赢家?

29万人逃离湖南,22万人离开吉林!人口大迁徙中,谁是最后赢家?

流史岁月
2025-12-29 15:45:03
23岁女子因被逼嫁给38岁男子喝药轻生?当地妇联:救治结束后会澄清一些事情;双方知情人士讲述

23岁女子因被逼嫁给38岁男子喝药轻生?当地妇联:救治结束后会澄清一些事情;双方知情人士讲述

大风新闻
2026-01-15 21:46:37
美通告全球,中方大抛美债,特朗普终于动手了,八国央行向美宣战

美通告全球,中方大抛美债,特朗普终于动手了,八国央行向美宣战

乐天闲聊
2026-01-15 11:54:57
难怪灿灿不干了!丰城杀猪饭遭疯抢,锅盖都按不住,主办人急哭了

难怪灿灿不干了!丰城杀猪饭遭疯抢,锅盖都按不住,主办人急哭了

子芫伴你成长
2026-01-15 22:49:00
陈亭妃逆转出线跌破眼镜?国民党:赖清德在台南已不得人心

陈亭妃逆转出线跌破眼镜?国民党:赖清德在台南已不得人心

海峡导报社
2026-01-15 16:00:02
还是离不开中国,美国邀中国留下,一起炼油分账,得答应1个条件

还是离不开中国,美国邀中国留下,一起炼油分账,得答应1个条件

小李子体育
2026-01-16 16:47:08
全网恭喜!79岁霍震霆再破天花板,两儿子撑场,三儿媳朴素难认出

全网恭喜!79岁霍震霆再破天花板,两儿子撑场,三儿媳朴素难认出

八斗小先生
2026-01-16 14:27:30
斯嘉丽·约翰逊全球票房冠军地位被取代

斯嘉丽·约翰逊全球票房冠军地位被取代

TVB的四小花
2026-01-16 10:01:16
咸鱼还是太全面了,怪不得人称国内黑市

咸鱼还是太全面了,怪不得人称国内黑市

另子维爱读史
2025-12-20 17:07:20
巴林主裁马赫福德执法U23国足vs乌兹U23,卡塔尔裁判任VAR

巴林主裁马赫福德执法U23国足vs乌兹U23,卡塔尔裁判任VAR

懂球帝
2026-01-16 12:04:04
美媒:美国将暂停对75个国家的所有签证

美媒:美国将暂停对75个国家的所有签证

新华社
2026-01-14 22:40:07
3天前解雇阿隆索 78岁皇马主席迎利好:58岁克洛普愿来投 提1条件

3天前解雇阿隆索 78岁皇马主席迎利好:58岁克洛普愿来投 提1条件

风过乡
2026-01-15 20:03:02
章泽天播客首秀翻车真相:能力配不上野心,拿“自嗨”当有趣

章泽天播客首秀翻车真相:能力配不上野心,拿“自嗨”当有趣

盐谈
2026-01-15 23:02:00
聂卫平去世后,日本棋院以及诸多围棋界人士表达哀悼

聂卫平去世后,日本棋院以及诸多围棋界人士表达哀悼

懂球帝
2026-01-16 00:49:38
“我们就像东郭先生”,嫣然儿医房东一方回应李亚鹏长视频

“我们就像东郭先生”,嫣然儿医房东一方回应李亚鹏长视频

大象新闻
2026-01-15 16:29:04
退出国乒,钱天一结婚生子?名记曝内幕,队友比赛,谁注意她举动

退出国乒,钱天一结婚生子?名记曝内幕,队友比赛,谁注意她举动

乐聊球
2026-01-16 14:09:00
拿到欧盟1.8亿美元后,塔利班对中企翻了脸,中阿油田合作被终止

拿到欧盟1.8亿美元后,塔利班对中企翻了脸,中阿油田合作被终止

流年拾光
2025-06-21 22:32:26
知名军事评论员李莉,为何清空作品?

知名军事评论员李莉,为何清空作品?

清哲木观察
2026-01-15 10:47:23
这些专业,正被 AI 淘汰!

这些专业,正被 AI 淘汰!

麦可思研究
2026-01-14 18:49:54
执掌皇马23年!78岁佛爷或被迫离任:纵容熊皇胡闹 20年旧事重演

执掌皇马23年!78岁佛爷或被迫离任:纵容熊皇胡闹 20年旧事重演

风过乡
2026-01-16 07:43:33
2026-01-16 18:03:00
智东西 incentive-icons
智东西
聚焦智能变革,服务产业升级。
11083文章数 116943关注度
往期回顾 全部

科技要闻

传小米传音Ovi四家手机厂下调全年出货预期

头条要闻

70后张迎春跨省履新新疆 曾是湖南湘潭史上首位女市长

头条要闻

70后张迎春跨省履新新疆 曾是湖南湘潭史上首位女市长

体育要闻

全队身价=登贝莱,他们凭什么领跑法甲?

娱乐要闻

黄慧颐手撕保剑锋 曾黎意外卷入风波

财经要闻

关店102家贾国龙喊被污蔑 罗永浩回应

汽车要闻

方程豹品牌销量突破30万辆 2026年还将推出轿跑系列

态度原创

家居
游戏
手机
艺术
公开课

家居要闻

岁月柔情 现代品质轻奢

100万份达成!类魂+刷子:这款ARPG未来真的可期!

手机要闻

小米、OPPO、vivo、传音四家手机厂商下调全年出货预期

艺术要闻

300亿!341米!迪拜将建全球首个奔驰品牌城市

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版