网易首页 > 网易号 > 正文 申请入驻

能打赢Sora吗?快手可灵实测:文生视频效果惊喜

0
分享至

去年至今,AIGC浪潮席卷全球,大模型赛道在不同领域激发出了更多可能。如果说ChatGPT和Stable Diffusion真正让AIGC走进了大众的视野,那么今年年初以来,Sora掀起的视频AIGC热潮,则是令主流互联网用户都感受到了AI技术有机会在更大范围改变世界。

一时间,视频生成大模型赛道涌入无数玩家。国内市场,字节跳动早在年初就发布了超高清文生视频模型MagicVideo-V2,阿里云旗下魔搭社区上线文本生成视频大模型......类似的文生视频大模型还有不少,但还没有哪个大模型实现了真正意义上的落地应用。哪怕是Sora,充其量也只是DEMO,也就是实验室产品,还不能真正投入消费市场。

正如百度CEO李彦宏所说:“大语言模型本身并不直接创造价值,基于大模型开发出来的AI原生应用才能满足真实的市场需求。”

谁能成为第一个让普通用户用上的文生视频大模型,我想市场已经给出了答案——快手可灵大模型。

发布即上线,快手加入文生视频战局

近日,快手正式上线可灵视频生成大模型,从官方公开的信息来看,可灵大模型采用了类Sora的技术路线并结合多项自研创新技术,具备生成大幅度合理运动、模拟物理世界特性、支持自由输出视频宽高比等优势。

不仅如此,可灵大模型基于Diffusion Transformer架构打造的文本视频语义理解能力,能较好的理解用户给出的指令,同时支持输出长达2分钟,且高达1080p 30FPS的视频。

图源:可灵AI

凭借以上优势,可灵大模型一经推出就迅速出圈,内测资格一号难求。所幸小雷受邀参与内测,不然可能还在排队等待审批通过。获取体验资格的具体流程如下,感兴趣的小伙伴可以试试。

申请流程:下载快影APP - AI玩法 - AI生视频模块 - 填问卷申请。

话不多说,接下来小雷就和大家一起看看“国产Sora”的实力。

视频生成效果超预期,快手勇气可嘉

开始体验前,小雷选取了几个官方展示的热门视频,大家仔细观察这几个视频,应该就能对可灵大模型有大致的了解。

图源:可灵AI生成

为了方便大家观看,小雷将视频转换成了动图,因此会对视频质量和帧数造成一定的影响。不过,细心的朋友可能已经发现了,小雷选择的这几个视频分别展示了物体动态、光影、环境方面的特性。

作为官方展示的热门作品,视频整体水平自然不低,无论是阳光下的阴影、水底反射的涟漪,还是火焰带来的照射,都能比较好的呈现。尽管每个视频或多或少存在物体表面突然跳动之类的小瑕疵,但整体瑕不掩瑜,也给接下来的自由发挥带来更多期待。

小雷尝试用文字描述“一个中年大叔坐在客厅吃面”生成日常场景,大约花了2分钟时间,一个5s的视频就成功出炉了。先说观点,整体效果合格,客厅背景识别准确,人物夹筷子和口腔动作还原得十分到位,当然少不了AI视频特有的“空间魔法”,筷子角度和吃面条均出现不同程度的断层,有些不协调。

图源:可灵AI生成

随后小雷又生成了几个不同场景的视频,根据观察,只要不涉及人与人、或者人与物体之间的复杂交互,可灵大模型对于不同物体物理表现的诠释还是相当稳定的,基本没有出现大的差错。

比如雷科技拍摄数码评测视频时经常要提前录好产品展示镜头,以备空镜使用,但拍摄对场地布景有不小的要求,因此如果AIGC视频能帮助完成就再好不过了。为此,小雷让可灵大模型生成一个小米14在科幻摄影棚内的外观展示,背景以及外观展示的动作都没有问题,但视频中的手机显然不是小米14,甚至还附带了类似苹果的logo,唯一像的地方或许就是镜头模组了。

图源:可灵AI生成

为了搞清楚原因,小雷测试了其他品牌手机,结果一致。不仅是手机,就连马斯克等特定人物也无法识别生成。小雷猜测应该是快手出于隐私保护合规以及避免侵权的考量,主动将潜在风险扼杀在摇篮之中,这点值得肯定。

正如前面说的,只要不涉及人与人、或者人与物体之间的复杂交互,AIGC视频的表现都很不错。众所周知,如何让生成视频符合物理规律一直是视频AIGC大模型最头疼的问题,与生成图片相比,生成视频需要考虑的问题更复杂,不仅涉及到不同主体的运动轨迹,肢体协调,还得结合重力、光影等真实物理世界特性进行综合处理。

我们常见的视频、电视剧、电影,里面包含有很多交互动作,而这些,正是物理难度最高的部分。目前市面上所有AIGC视频大模型处理复杂交互都非常一般,可灵大模型也不例外,至少在小雷测试中就发现了许多可优化空间。

比如这个拳击场景,两个人的手部、脸部、躯体均出现不同程度的扭曲,随着动作频率的加快,动作出现变形的概率更高。这也是所有AIGC视频的通病,如果大家有留意其他大模型生成的AIGC视频,你会发现很少出现这种大幅度交互的镜头,因为这会直接暴露弱点。

图源:可灵AI生成

别的不说,至少可灵大模型勇气可嘉,也让我们看到了AIGC视频新的可能性。随着更多数据的集成和技术迭代,未来直接生成一部武打短视频也不是不可能的事情。

总的来说,可灵在自然语义识别方面与文本大模型相比还是存在一定差距,小雷测试过程中偶尔会出现关键词识别不到的情况。而在视频质量上,作为面向普通用户的免费大模型应用,小雷认为没有太多可挑剔的地方,前面提到的瑕疵是整个行业都暂时无法解决的。

可灵在真实风格场景上的表现令人印象深刻,许多AIGC视频如果不细看,甚至无法发现是AI生成。同时可灵大模型的生成效率表现也不错,单个视频的生成时间基本维持在2-3分钟以内,测试过程中没有遇到卡顿、异常等情况,侧面体现了可灵大模型的强大算力和稳定性。

当然,内测版本的可灵大模型还有许多限制,比如视频生成视频为固定的5s,图文视频功能暂未开放,不能自定义清晰度和尺寸等。但参考官方给出的完全体信息,可灵大模型未来的大规模落地应用绝对是值得期待的。

加速落地的多模态,是大模型大战的制高点

模型设计、数据保障、计算效率、模型能力的扩展是一个视频生成大模型必备的核心要素。Sora、可灵暂时只能说具备成为优秀视频生成大模型的潜力,它们均存在不够成熟的地方,比如模拟复杂场景的物理原理、无法理解因果关系以及跳跃的空间细节等。

造成这些问题的其中一个原因是目前视频生成大模型基本是直接从视频数据中学习物理知识,但真实视频往往包含很多信息,因此大模型很难精准区分每个物理规律并学习。据了解,快手大模型团队自研了3D VAE网络和全注意力机制(3D Attention),借助多模态技术更好地实现时空建模。

图源:可灵AI

多模态学习(Multimodal learning)是机器学习的一个重要分支,其中的模态指的是数据形式,例如文字、图片、语音等。通常意义的多模态学习,就是利用模型去同时处理图文,图生文本、文本生图等数据。通过多模态大模型,可以更好地理解和处理复杂的多模态数据,提高人工智能的应用性能。

不同于成熟的语言模型,当前多模态大模型仍处于起步阶段,人们还在不断探索相关应用。就像国内借助新能源车实现汽车行业弯道超车那样,语言模型的落后不影响国内借助多模态大模型实现反超的可能性,多模型成为国内大模型赛道的新机会。

据中国互联网络信息中心预测,2032年生成式AI市场规模有望达到1.3万亿美元,复合年增长率约42%。生成式AI技术的巨大潜力预示着未来很长一段时间里,它将是各行业竞争的主战场。

2024年5月20日-6月30日,618年中大促来袭,淘宝天猫、京东、拼多多、抖音、快手、小红书六大电商平台集体“听劝”,取消预售、疯狂杀价!
手机数码、AI PC、智能家电、电视、小家电、空冰洗等热门AI硬科技品类摩拳擦掌,战况激烈。
雷科技618报道团将全程关注电商平台最新战况,AI硬科技品牌最新动态,电商行业全新趋势,敬请关注,一起期待。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
年轻人不买房不结婚了:就怪那个把房婚捆绑的人

年轻人不买房不结婚了:就怪那个把房婚捆绑的人

三言四拍
2026-04-16 16:29:36
确认了!两人系间谍

确认了!两人系间谍

浙江之声
2026-04-16 22:16:31
广西靖西一地多名男子持手电筒拦车,当地镇政府:他们想当路霸,警方已到场处理

广西靖西一地多名男子持手电筒拦车,当地镇政府:他们想当路霸,警方已到场处理

潇湘晨报
2026-04-16 15:55:11
鞠婧祎方回应“丝芭创始人王子杰去世”:不与争论,生命为大,愿安息;王子杰曾创立SNH48,打造鞠婧祎“四千年美女”标签,推动其成顶流

鞠婧祎方回应“丝芭创始人王子杰去世”:不与争论,生命为大,愿安息;王子杰曾创立SNH48,打造鞠婧祎“四千年美女”标签,推动其成顶流

大风新闻
2026-04-16 14:09:04
海关总署企业管理和稽查司原司长王胜被查

海关总署企业管理和稽查司原司长王胜被查

新京报
2026-04-16 17:00:11
山东淄博一化工厂发生火情,未致人员伤亡

山东淄博一化工厂发生火情,未致人员伤亡

界面新闻
2026-04-16 22:05:10
杭州一诊所用一个针头给15人采血,居民担心传染疾病,诊所负责人:已开除涉事员工,并带采血居民体检打疫苗

杭州一诊所用一个针头给15人采血,居民担心传染疾病,诊所负责人:已开除涉事员工,并带采血居民体检打疫苗

极目新闻
2026-04-16 18:04:42
王嘉尔在多伦多开演唱会,发现观众席挥舞中国国旗,立即伸手接过跑回舞台高举,全场欢呼沸腾

王嘉尔在多伦多开演唱会,发现观众席挥舞中国国旗,立即伸手接过跑回舞台高举,全场欢呼沸腾

观威海
2026-04-16 10:20:05
悲催!网传武汉某双非高校一寝室6人,仅1人找到月薪3500元工作…

悲催!网传武汉某双非高校一寝室6人,仅1人找到月薪3500元工作…

火山詩话
2026-04-16 13:58:24
复活节的鲜血与教皇的沉默:为何对川普愤怒,却对屠杀失声?

复活节的鲜血与教皇的沉默:为何对川普愤怒,却对屠杀失声?

斌闻天下
2026-04-16 07:25:03
涉嫌严重违纪违法,洪小勤被查!

涉嫌严重违纪违法,洪小勤被查!

中国基金报
2026-04-16 21:40:34
两名外籍乘客在网约车上对着部队大门连续拍照,接下来又要去训练场方向,司机觉得可疑,直接开车把他们交给了部队

两名外籍乘客在网约车上对着部队大门连续拍照,接下来又要去训练场方向,司机觉得可疑,直接开车把他们交给了部队

极目新闻
2026-04-16 08:59:25
脸没恢复就别出来拍剧了,顶着膨胀脸、说话嘴歪全是痘坑,太出戏

脸没恢复就别出来拍剧了,顶着膨胀脸、说话嘴歪全是痘坑,太出戏

翰飞观事
2026-04-16 17:03:30
现场签约!越南对华作出保证,苏林坐上离京高铁,临走前献出重礼

现场签约!越南对华作出保证,苏林坐上离京高铁,临走前献出重礼

好贤观史记
2026-04-16 16:46:18
王健林,被逼到崩溃边缘...

王健林,被逼到崩溃边缘...

鸣金网
2026-04-16 19:42:33
我醉后对女上司说:再扣工资我就娶了你,第二天她把我叫到办公室

我醉后对女上司说:再扣工资我就娶了你,第二天她把我叫到办公室

千秋文化
2026-04-16 20:15:29
牛肉顶多注个水猪肉顶多催个肥,唯有三文鱼全程cosplay

牛肉顶多注个水猪肉顶多催个肥,唯有三文鱼全程cosplay

富贵说
2026-04-14 23:15:09
港独、骂中国人,如今却还想来内地捞金,这3位香港明星令人作呕

港独、骂中国人,如今却还想来内地捞金,这3位香港明星令人作呕

骄阳之夏明
2026-04-15 16:44:42
采访了100个娶了小三的男人,他们几乎都说了同一句话,让人恍然

采访了100个娶了小三的男人,他们几乎都说了同一句话,让人恍然

千秋文化
2026-04-15 20:18:32
武大杨景媛干销售被投诉丢工作,委屈发声!品牌方曾力挺她诬告

武大杨景媛干销售被投诉丢工作,委屈发声!品牌方曾力挺她诬告

林大师热点
2026-04-16 15:08:31
2026-04-17 04:15:00
雷科技 incentive-icons
雷科技
专注AI硬科技
36825文章数 812024关注度
往期回顾 全部

科技要闻

赵明:智驾之战,看谁在大模型上更高效

头条要闻

特朗普宣布黎以将停火后 以军大规模空袭黎巴嫩

头条要闻

特朗普宣布黎以将停火后 以军大规模空袭黎巴嫩

体育要闻

皇马拜仁踢出名局,但最抢镜的还是他

娱乐要闻

丝芭传媒创始人王子杰去世,享年63岁

财经要闻

海尔与医美女王互撕 换血抗衰谁的生意?

汽车要闻

空间大五个乘客都满意?体验岚图泰山X8

态度原创

游戏
家居
本地
时尚
公开课

《荒野大镖客3》最全新情报!前传还是新故事?

家居要闻

智能舒适 简约风尚

本地新闻

12吨巧克力有难,全网化身超级侦探添乱

爆火的前额叶梗,让多少年轻人主动确诊「脑残」?

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版