网易首页 > 网易号 > 正文 申请入驻

可灵VS即梦:初探“多模态”

0
分享至

文 | 硅基星芒

目前国内两个最火的AI生成视频平台,非可灵和即梦莫属。

作为影视外行人和AI爱好者,我准备组建一个纯AI的“影视团队”,看看效果如何。

在正式开始之前,还有一个问题:文生图+图生视频or文生视频?

两个平台都具备上述功能,那么两条路应该走哪条?

AI给出的答案是:使用“文生图+图生视频”的方法具备更高的可控性;而“文生视频”的方法能够让视频更有“动态感”。

考虑了一下成本和效率,我还是选择了可控性优先。

01 第一步:AI编剧,编写剧本

想拍一部电影出来,首先肯定得有编剧来写剧本。

我把先前公众号上发布过的一篇文章,以PDF形式丢给了目前公认性能强大的Gemini 2.5 Pro。


不得不承认,文字方面,AI当编剧确实是绰绰有余。


分镜头脚本写得有模有样,像我这种外行人可是完全写不出来。

尤其是图生视频指令,涵盖了场景、动作、运镜、风格这些专业化的东西,解决了大麻烦。

02 第二步:AI画师,绘制“分镜图”

前面已经说过,采用“文生图+图生视频”的方式可以提高可控性。

剧本既然已经有了,接下来的任务就是绘制“分镜”。

我把AI编剧写好的这些首帧图片指令,统统交给了腾讯混元这个AI文生图模型。

相比文字,AI在图片领域的能力显然有所下降。

好在混元生图的美术功底靠得住,给出的大部分图片质量都不错,基本符合预期。

当然,也有下面这些“瑕疵品”:

例如,“一条水平的发光进度条,位于画面下方,滑块在起始位置。背景是模糊的彩色光影。”

AI显然是没能理解指令。


以及,“一条高度精密的汽车生产线,无数机械臂在协同工作,焊接时火花四溅,充满工业美感。”

这次则是逻辑错误,一群机械臂似乎正在破坏一辆完工的汽车。


03 第三步:AI导演,让图片“动”起来

我把前面生成的静态图片和图生视频指令分别发给本次拍摄的导演——可灵和即梦。

然而,“开机”以后不久,我就遇到了理想与现实的碰撞。

刚开始,看到AI生成的几个时长5秒的视频时,我还是挺满意的。

毕竟,这些动态效果和光影变化在一个外行人眼里已经非常惊艳,画面也十分流畅。

不过,随着生成的视频越来越多,导演就开始露馅了,各自开始生成一些很奇怪的东西。

问题一:“导演压根不按照剧本来”

这是最常见的问题,无法容忍的“不听指令”。

先来看一个让人哭笑不得的例子:

图生视频指令:

场景描述与动作: 汽车的前大灯被激活,从一条细线开始,然后突然亮起,射出明亮而锐利的光束。一道微弱的能量光泽沿着车身的气动线条流动。

运镜方式: 缓慢而富有戏剧性的向上摇镜头(Tilt Up),从前轮开始,向上移动到挡风玻璃,让汽车感觉充满力量。

画面风格与质感: “英雄特写镜头”。电影级,精致,高级感。增加轻微的镜头光晕效果。

指令中写的明明白白,汽车的前大灯被激活,但可灵生成的视频中却是从车身中间射出一道光线,多少有点莫名其妙。

相比之下,即梦生成的视频效果要好一点。

问题二:“牛顿看了都得沉默”的物理和逻辑错误

让AI做物理题,它得心应手;但让它生成视频,它似乎又没完全学会现实世界的物理规则。

“穿模”可以算是家常便饭了,即梦和可灵生成的视频都存在这个问题,比如:

图生视频指令:

场景描述与动作: 所有机器以惊人的速度和完美的协调性协同工作,展现出极致的效率。机械臂抓取包裹,无人车流畅地避让和穿行。

运镜方式: 在仓库内进行一个长距离、平滑的移动镜头(长镜头),一镜到底地展示整个流程。

画面风格与质感: 工业美学,科技感,秩序感。画面干净,动作流畅。

另外,物理运动的实现看起来也很不合理:

图生视频指令:

场景描述与动作: 一颗闪亮的金色石子投入水中,激起一圈圈巨大而绚烂的彩色涟漪,涟漪扩散的速度非常快,瞬间照亮整个水面。

运镜方式: 俯视视角,缓慢放大(Zoom In)。

画面风格与质感: 诗意,愉悦。用涟漪的爆发来象征多巴胺的瞬间释放。

即梦生成的视频中,金色石子并非被投入,而是直接从水中浮现出来:

可灵则较好地完成了指令内容:

问题三:短时间内的失忆症

AI生成的视频有一个重大的缺陷,那就是一致性实在是太差。

短短5秒之间,一个镜头的主角就可能发生大幅度的变化。比如:

场景描述与动作: 表盘上的分针以极快的速度平滑地旋转一圈。刚一停下,手表屏幕上就出现一个柔和的、发光的脉冲动画。

运镜方式: 静态特写。

画面风格与质感: 现代,简洁,高效。脉冲动画干脆利落,代表“送达”的提醒。

即梦生成的视频,咱们暂且不谈“极快的速度”和“脉冲动画”实现的如何,这表盘直接就换了个样:

即梦生成的视频,咱们暂且不谈“极快的速度”和“脉冲动画”实现的如何,这表盘直接就换了个样。

可灵生成的视频就没有发生这个错误:

如果在这么短的时间内都无法保证一致性,整个视频的观感肯定是好不到哪去。

04 使用感受

对于图生视频的AI平台,它们确实是强大的工具,但目前还不是成为合格的导演。

先说可灵,它的表现相对更好一些。

对于物理世界的模拟动态真实感,它完成的不错,基本符合现实世界中的物理规律。

其次,可灵对于指令中概念的理解深度艺术诠释能力更具优势。不仅是字面意义,它还能在一定程度上理解文字背后的抽象概念和用户想要表达的情绪。

而且,可灵似乎并不是一个让做什么就做什么的死板机器。它生成的视频中,有些画面并未在文字中写明,却能或深或浅地反映主题。

如此说来,它更倾向于一个愿意突破边界进行尝试的“艺术家”。

另外,根据“影评人”Gemini 2.5 Pro的反馈,可灵具备强大的镜头语言掌握力,能够成功完成“推拉变焦”、“向上摇镜”等复杂运镜。

对于可灵生成抽象CG场景,影评人认为在技术质量和美学上都已经达到专业水准。

但是在这位“艺术家”发挥想象力的同时,也带来了一些问题:

较低的图像保真度和频繁的场景重构。

选择性执行用户指令和跑偏的创意。

这就是可灵“导演哲学”的必然代价,生成的视频可能会与预想的画面相差甚远。

再来说说即梦,相比艺术家,它更保守一些。

即梦生成视频的优势在于极高的图像保真度和稳定性

每个镜头的主体基本不会出现大幅度的扭曲和变形,画面也比较稳定。

这就意味着,即梦的“图生视频”功能,生成视频的质量很大程度上取决于图的质量。

此外,即梦对于复杂构图的指令也能够较为精准的实现,它对于指令的理解和执行能力更为可靠。

不过,即梦的缺点在于难以实现物理上的真实感,而且缺乏一些动态逻辑。

上面一些令人匪夷所思的场面大多出自它手。这也是对于概念理解深度不够、缺乏叙事能力的一种体现。

除此之外,“影评人”也指出,即梦的镜头语言理解和执行能力较为薄弱,几乎无法完成较为复杂的电影运镜,降低了视频的表现力。

05 最后的一点想法

两个模型生成的视频都已经证明,对于一般的平台用户而言,高难度指令往往带来的是失败的结果,技术的边界尚未被突破。

技术角度来看:

AI生成视频领域内,“保真”和“创意”这两条核心的技术路线仍然存在博弈,不能兼顾。

此外,视频时长也是目前存在的一大限制。

不管是国内还是国外的AI视频生成平台,大多将单个视频的时长严格控制在5-10秒内。

单个视频能够表达的内容有限,生成长时间、情节连贯的视频对这一领域仍是巨大挑战。

而这对于用户来说,为编写提示词增加了难度。

写的太细致,模型无法理解,也无法在短短几秒内将内容表达完全;

写的太粗糙,模型生成的内容往往与用户的意图相隔十万八千里。

成本角度来看:

通过强大的设备和算力进行本地部署,再对模型进行微调,可能才是生成高质量视频的可靠选择。

但,这成本可不是一般用户承受得起的。

即便是这两个在线应用平台,会员价格也并不便宜。

单买积分的话,即梦上使用视频3.0模型+720P+5秒视频的最基本配置是1元1条视频;

可灵上使用标准模式+5秒视频则是2元1条视频。

但根据我的使用经历来看,想要生成的视频能达到一般短视频的水平,肯定是需要升级配置并多次生成、不断调试的。

而这个过程,开销肯定会不断增长。

因此,导演、摄像师和后期老师们大可以松一口气。

想让AI生成具备观赏性的影片,我们不妨再多些耐心。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
两位富婆网红被封杀,曾公开自己内裤4万元,调查发现全是假人设

两位富婆网红被封杀,曾公开自己内裤4万元,调查发现全是假人设

新游戏大妹子
2026-02-09 12:45:53
你们不敢要我拿来当宝!一步错步步错,活该你们沦为联盟倒数第1

你们不敢要我拿来当宝!一步错步步错,活该你们沦为联盟倒数第1

毒舌NBA
2026-02-09 16:46:37
教练也能扑?多纳鲁马最后时刻上演神扑,瓜迪奥拉模仿其动作

教练也能扑?多纳鲁马最后时刻上演神扑,瓜迪奥拉模仿其动作

懂球帝
2026-02-09 18:08:21
73岁迟重瑞近况:卖故宫旁自家房子,均价15万,陈丽华嫁他好福气

73岁迟重瑞近况:卖故宫旁自家房子,均价15万,陈丽华嫁他好福气

小娱乐悠悠
2026-02-09 08:01:57
随着穆帅争冠最大劲敌1-1,葡超最新积分榜出炉

随着穆帅争冠最大劲敌1-1,葡超最新积分榜出炉

侧身凌空斩
2026-02-10 07:10:08
中日开战可能性增大,但收场太难,若真动手,中方估计半步都不退

中日开战可能性增大,但收场太难,若真动手,中方估计半步都不退

百态人间
2026-01-03 16:42:15
烧烤摊上20元一串的“油边”,到底是动物的啥部位?

烧烤摊上20元一串的“油边”,到底是动物的啥部位?

果壳
2026-01-23 16:15:21
李富真出席儿子毕业典礼,拎千元平价包很接地气,看儿子一脸慈爱

李富真出席儿子毕业典礼,拎千元平价包很接地气,看儿子一脸慈爱

小徐讲八卦
2026-02-10 05:09:30
TOP14位身高170以上的女神,有颜有灯有演技

TOP14位身高170以上的女神,有颜有灯有演技

素然追光
2026-01-02 02:45:02
不是巴萨 不是阿森纳 而是切尔西 阿尔瓦雷斯重返英超已深入谈判

不是巴萨 不是阿森纳 而是切尔西 阿尔瓦雷斯重返英超已深入谈判

智道足球
2026-02-09 16:27:39
29元韭菜炒蚌壳肉吃出粉色珍珠?网友直呼新年好运,门店:情况少见,可免费拿走

29元韭菜炒蚌壳肉吃出粉色珍珠?网友直呼新年好运,门店:情况少见,可免费拿走

极目新闻
2026-02-07 12:54:35
追觅洗衣机荣登"超级碗“黄金广告位,成为首个霸屏亮相的高端洗护产品

追觅洗衣机荣登"超级碗“黄金广告位,成为首个霸屏亮相的高端洗护产品

雷峰网
2026-02-09 18:32:16
上海小南国全部关门?仅剩两家“中谷小南国”,店员:我们是酒店,和餐饮小南国不是一家

上海小南国全部关门?仅剩两家“中谷小南国”,店员:我们是酒店,和餐饮小南国不是一家

随申Hi
2026-02-09 17:05:12
记者:拜合拉木700万3年合同加盟蓉城,贺一然转会费不足千万

记者:拜合拉木700万3年合同加盟蓉城,贺一然转会费不足千万

懂球帝
2026-02-09 17:14:43
路都走不稳,全程开原音假唱,还想去鸟巢开演唱会,谁给她的自信

路都走不稳,全程开原音假唱,还想去鸟巢开演唱会,谁给她的自信

动物奇奇怪怪
2026-02-04 07:04:47
哈梅内伊发表全国电视讲话

哈梅内伊发表全国电视讲话

参考消息
2026-02-09 22:24:10
对手遭争议判罚染红,巴尔韦德:这就罚下了?真罚下了?哈哈

对手遭争议判罚染红,巴尔韦德:这就罚下了?真罚下了?哈哈

懂球帝
2026-02-09 14:02:09
你见过最奇葩的人和事是什么?网友:离谱到像假的,可怕

你见过最奇葩的人和事是什么?网友:离谱到像假的,可怕

带你感受人间冷暖
2026-01-23 00:05:09
世界首位华人女总统,声称自己的根在中国,上台后把美军赶出国

世界首位华人女总统,声称自己的根在中国,上台后把美军赶出国

高山非凡创作
2024-05-14 19:48:10
千万粉丝一夜清零:军事顶流“听风的蚕”被封,踩中了哪些红线?

千万粉丝一夜清零:军事顶流“听风的蚕”被封,踩中了哪些红线?

月满大江流
2026-02-05 09:17:22
2026-02-10 08:27:00
钛媒体APP incentive-icons
钛媒体APP
独立财经科技媒体
129390文章数 861752关注度
往期回顾 全部

科技要闻

实测|字节新模型带着音效和复杂运镜杀疯了

头条要闻

湖南明确禁止摩托车上高速 中国摩托车商会出函"劝阻"

头条要闻

湖南明确禁止摩托车上高速 中国摩托车商会出函"劝阻"

体育要闻

不会打篮球,如何入选詹娜前男友第一阵容

娱乐要闻

央视电影活动名场面!明星站位太讲究

财经要闻

沪深北交易所优化再融资 释放3个信号

汽车要闻

长安将搭钠电池 好比汽车要装柴油机?

态度原创

游戏
艺术
家居
时尚
手机

《Knight's Path》不迎合DEI Steam愿望单破30万

艺术要闻

301.7米!安徽最高、中国最长的楼,外墙写满篆书

家居要闻

山院焕新 雅聚悦亲朋

冬季穿衣越简单越实用!从这些日常穿搭中收获灵感,大方又自然

手机要闻

黑长直JK少女千咲来了!红魔11 Pro+鸣潮限定版开售 6999元

无障碍浏览 进入关怀版