网易首页 > 网易号 > 正文 申请入驻

国内首个短剧创作大模型开源,一个人就能拍短剧,单卡80秒出大片

0
分享至

AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com

2 月 18 日,昆仑万维开源中国首个面向 AI 短剧创作的视频生成模型 SkyReels-V1、中国首个 SOTA 级别基于视频基座模型的表情动作可控算法 SkyReels-A1。

  • 开源地址:

SkyReels-V1:https://github.com/SkyworkAI/SkyReels-V1

SkyReels-A1:https://github.com/SkyworkAI/SkyReels-A1

  • 技术报告:https://skyworkai.github.io/skyreels-a1.github.io/report.pdf
  • SkyReels 官方地址:skyreels.ai

针对当前全球 AI 视频生成模型和产品不开源、用不到、费用高、不好用等痛点,昆仑万维 SkyReels 一次性开源 SkyReels-V1 和 SkyReels-A1 两个 SOTA 级别的模型和算法,将面向 AI 短剧创作的技术成果回馈开源社区和 AIGC 用户。而这只是我们在 AI 视频方向开源道路上的起点,未来将陆续开源更多面向 AI 短剧的优秀研究成果。

AI 视频和短剧的生产形式已经得到了市场的验证,拥有巨大的商业想象空间。2024 年 8 月上线的 AI 短剧创作平台 SkyReels 的目标是让用户以更低成本体验线上拍剧,利用 AI 能力解决传统短剧内容供给的难题。SkyReels 能够助力解决传统短剧制作流程中面临的挑战,如线下拍剧流程复杂,包括剧本创作、选演员、场景布景、分镜创作、拍摄、后期处理等环节,耗费人力多,制作成本贵,周期长等。

SkyReels-V1:Human-Centric Video Foundation Model

中国首个面向 AI 短剧创作的开源视频生成模型

AI 短剧极其需要同时对大脑和肢体完成精细的控制功能,这就需要同时把口型生成、表情生成、肢体生成等多个生成组合在一起。当前大家体验比较好的是口型生成,因为口型生成其实和音频信息之间具备更好的映射关系,因此它的精准度可以实现的更好,用户体验会更好。

视频链接:

https://mp.weixin.qq.com/s/s9RETj3RKhy3XNmPG-3Sfw?token=2135979591&lang=zh_CN

而人物表演的细节和能力更是 AI 短剧生成效果优质与否的核心所在,为了大幅提升表情生成、肢体生成的可控表演效果,SkyReels-V1 不仅针对表演细节做了打标,还对情绪、场景、表演诉求等进行处理,利用千万级别、高质量的好莱坞级别数据进行训练微调。

团队针对人物微表情、人物表演细节、场景描述、光影、画面构图等做了更精细的技术升级,可以看到当前由 SkyReels 生成的视频中的人物已经存在更精准的表演细节,初步具备影帝级人物表演实力。

SkyReels-V1 可实现影视级人物微表情表演生成,支持 33 种细腻人物表情与 400 + 种自然动作组合,高度还原真人情感表达。正如以下视频所示,SkyReels-V1 支持生成大笑、怒吼、惊讶、哭泣等微表情,展现出人物情感丰沛的表演细节。

即使有大幅度肢体动作,例如下面视频中,正在大口食用汉堡包的男士,SkyReels-V1 生成的微表情也完美贴合人物肢体表演。

视频链接:

https://mp.weixin.qq.com/s/s9RETj3RKhy3XNmPG-3Sfw?token=2135979591&lang=zh_CN

同时,SkyReels-V1 为 AI 视频生成带来了电影级光影美学,基于好莱坞级的高质量影视数据训练,当前 SkyReels 生成的每一帧画面,在构图、演员站位、相机角度等都具备电影级的质感。

无论是单人镜头表演细节,还是多人构图,当前已具备精准的表情控制和高质感画面。在下面视频中,SkyReels-V1 生成的「灾难」片段,具有好莱坞大片即视感,场景宏大且有震撼感,其中聚焦到单个人物的脸部表情刻画也可圈可点,以极细致的程度展示出了身临其境的恐惧感。

视频链接:

https://mp.weixin.qq.com/s/s9RETj3RKhy3XNmPG-3Sfw?token=2135979591&lang=zh_CN

在一场两个人的「告白时刻」场景中,构图与光影的完美融合,使整个画面既充满了梦幻般的浪漫氛围,又具备了强烈的视觉冲击力。灵动的表情、飞舞的发丝、女子飞扬的衣袖、一道道柔和的光带,两人之间的浪漫爱情故事跃然眼前。

视频链接:

https://mp.weixin.qq.com/s/s9RETj3RKhy3XNmPG-3Sfw?token=2135979591&lang=zh_CN

更重要的是,SkyReels-V1 不仅支持文生视频、还能支持图生视频,是开源视频生成模型中参数最大的支持图生视频的模型,在同等分辨率下各项指标实现开源 SOTA。

图 1. SkyReels-V1 文生视频指标对比(来源:昆仑万维 SkyReels)

能够实现这样的 SOTA 级别,不仅依赖于昆仑万维 SkyReels 团队基于自研的高质量数据清洗和人工标注管线,构建了千万级的高质量电影 & 电视剧 & 纪录片数据。更依托团队自研「Human-Centric」的视频理解多模态大模型,大幅提升视频中人物相关的理解能力,尤其是自研人物智能解析系统。

综上所述,得益于扎实的数据工作和先进的人物智能解析系统,SkyReels-V1 可以实现:

  • 影视化表情识别体系:11 种针对影视戏剧中的人物表情理解,如不屑、不耐烦、无助、厌恶等表情的理解;
  • 人物空间位置感知:基于人体三维重建技术,实现对视频中多人的空间相对关系理解,助力模型生成影视级人物站位;
  • 行为意图理解:构建超过 400 种行为语义单元,实现对人物行为的精准理解;
  • 表演场景理解:实现人物 - 服装 - 场景 - 剧情的关联分析。

SkyReels-V1 不仅是全球极少数开源的视频生成模型,还是围绕人物表演、开源视频生成模型中性能最强的。

在自研推理优化框架「SkyReels-Infer」的加持下,大幅提升推理效率,实现 544p 分辨率,推理基于单台 4090 只需 80s,还支持分布式多卡并行,支持 Context Parallel,CFG Parallel,和 VAE Parallel。此外,采取 fp8 quantization 以及 parameter-level offload,满足低显存用户级显卡运行需求;支持 flash attention、SageAttention,模型编译优化等,进一步优化延迟;基于开源 diffuser 库,提升易用性。

正如下图 2 所示,在同等 RTX4090 资源情况下对比(4卡),SkyReels-Infer 版本比 HunyuanVideo 官方版本端到端延迟减少 58.3%(293.3s vs 464.3s);SkyReels-Infer 版本具备更鲁棒的部署策略,支持用户级别显卡 1 卡 - 8 卡的推理部署。

图 2. 推理生成 544p 视频,使用相同卡数的 RTX 4090,SkyReels-Infer 版本端到端延迟优于 HunyuanVideo 官方 (xdit) 58.3%

在同等 A800 资源情况下对比,SkyReels-Infer 版本比 HunyuanVideo 官方版本端到端延迟减少 14.7%~28.2%,SkyReels-Infer 版本具备更鲁棒的多卡部署策略。

图 3. 推理生成 544p 视频,SkyReels-Infer 版本具备更鲁棒的多卡部署策略,支持 8 卡部署

SkyReels-A1:首个 SOTA 级别的基于视频基座模型的表情动作可控算法

为了实现更加精准可控的人物视频生成,昆仑万维还开源了 SOTA 级别的基于视频基座模型的表情动作可控算法 SkyReels-A1,对标 Runway 的 Act-One,SkyReels-A1 支持视频驱动的电影级表情捕捉,实现高保真微表情还原。

SkyReels-A1 能够基于任意人体比例(包括肖像、半身及全身构图)生成高度逼真的人物动态视频,其真实感源自对人物表情变化和情绪的精准模拟、皮肤肌理、身体动作跟随等多维度细节的深度还原。

如下述视频所示,将参考人物图片(上图)和驱动视频(左下)同时作为输入,在 SkyReels-A1 的能力加持下,生成了新的视频 —— 将驱动视频中的面部表情和表演细节 “移植” 到给定参考图片的人物身上。SkyReels-A1 支持生成的视频(下中)没有失真,且还原了驱动视频的微表情和肢体表演,效果优于 Runway Act-One 生成的视频(右下)。

视频链接:

https://mp.weixin.qq.com/s/s9RETj3RKhy3XNmPG-3Sfw?token=2135979591&lang=zh_CN

SkyReels-A1 不仅支持侧脸的表情控制生成、还能实现更加逼真的眉眼微表情生成和更大幅度的头部与自然身体动作。

视频链接:

https://mp.weixin.qq.com/s/s9RETj3RKhy3XNmPG-3Sfw?token=2135979591&lang=zh_CN

例如同一句台词表演,从下面视频可以看出,最右边的人物有明显变样失真,和原始人物形象不一致,而 SkyReels-A1 支持和驱动下的人物表演,不仅人物不失真,且表演细节更真实,还可以实现神情与身体动作的自然完美融合。

视频链接:

https://mp.weixin.qq.com/s/s9RETj3RKhy3XNmPG-3Sfw?token=2135979591&lang=zh_CN

SkyReels-A1 能够实现更大幅度的人物表情驱动。在下面视频中可以看到,相比 Runway 的 Act-One(无法生成),SkyReels-A1 可以迁移更复杂的表情动作,生成的人物面部神情可以配合肢体及画面内容实现更栩栩如生的表演。

视频链接:

https://mp.weixin.qq.com/s/s9RETj3RKhy3XNmPG-3Sfw?token=2135979591&lang=zh_CN

以开源之姿,以破局之势

昆仑万维致力于推动全球 AI 短剧创作生态繁荣发展

昆仑万维一直坚持开源,推动技术平权。自 2023 年 8 月 23 日,昆仑万维发布国内第一款 AI 搜索产品「天工 AI 搜索」以来,持续开源大模型回馈开发者和行业。

早在 2023 年 10 月,昆仑万维宣布开源百亿级大语言模型「天工」Skywork-13B 系列,并配套开源了 600GB、150B Tokens 的超大高质量开源中文数据集。2024 年开始,公司陆续开源了数字智能体全流程研发工具包 AgentStudio、「天工大模型 3.0」4000 亿参数 MoE 超级模型、 2 千亿稀疏大模型 Skywork-MoE、Skywork-o1-Open 等模型。

视频生成模型是整个 AI 短剧创作当中最难的一个环节,尽管过去一年行业内的模型生成能力已有大幅提升,但还远远不够,同时还面临视频生成成本高的问题。

昆仑万维同时将 SOTA 级别的 SkyReels-V1 和 SkyReels-A1 进行开源,是 AI 短剧行业首例,也是昆仑万维 SkyReels 回馈行业迈出的一小步,更是促进 AI 短剧创作和视频生成行业枝繁叶茂的一大步。

我们相信在进行推理优化的升级和可控算法的开源后,它们将为用户带来低成本、可控性更强的 AIGC 能力。昆仑万维希望通过更多优秀视频生成模型的开源和极致的 AI 短剧产品能力,为用户带来低成本实现 AI 短剧创作的可能性、突破行业目前视频生成一致性差的问题,让大众通过自己的电脑生成精细且可控的人物表演。

昆仑万维董事长兼 CEO 方汉表示,“AIGC 能力的出现,包括我们现在做的视频生成能力的出现,一定会将一部好莱坞大片质量的电影制作成本,从现在的一亿美金,让其迅速下降到几十万美金甚至几千美金,几年之后几百美金都是有可能的。这样会让所有语言的人都会用 AI 来创作属于本民族的内容产品。这样的结果将会实现文化的平权,而这个红利,很有可能是中国企业去吃到”。

此次开源的视频大模型,不仅是一次技术突破,有助于缩小全球内容产业的数字鸿沟,更是文化产业生产力的一次革命。未来,短剧与游戏、虚拟现实等领域的跨界发展,将会加速产业融合。AI 短剧也有希望从 “技术实验” 迈向 “主流创作”,成为全球文化输出的新载体。

“实现通用人工智能,让每个人更好地塑造和表达自我” 是公司的使命,未来,昆仑万维及 SkyReels 还将开源更多视频生成模型和算法、通用模型,通过开源实现 AGI 平权,推动 AI 短剧生态的持续建设和繁荣,促进开源社区、开发生态以及 AI 行业的发展。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
家暴丈夫,被指藏匿1400万元

家暴丈夫,被指藏匿1400万元

中国新闻周刊
2026-06-25 22:39:13
全球能源告急!中国瞒了世界 30 年,如今用两桶油让世界刮目相看

全球能源告急!中国瞒了世界 30 年,如今用两桶油让世界刮目相看

蜉蝣说
2026-06-22 11:42:34
高考721分!全国同专业第一 郭斌(6岁永久失明)已被录取 成为一名盲人双学位大学生#郭斌被录取

高考721分!全国同专业第一 郭斌(6岁永久失明)已被录取 成为一名盲人双学位大学生#郭斌被录取

每日经济新闻
2026-06-25 00:35:45
马云预言又应验!若无意外,2026年起,中国房地产或迎来3大转变

马云预言又应验!若无意外,2026年起,中国房地产或迎来3大转变

科技故事聚焦
2026-06-23 09:37:13
先5-0,再1-0!世界杯K组太乱,C罗这次没退路,想进16强要拿3分

先5-0,再1-0!世界杯K组太乱,C罗这次没退路,想进16强要拿3分

生活新鲜市
2026-06-26 01:29:00
世界杯看台抢镜一幕:贝克汉姆捧着“一缸红酒”看巴西队大胜

世界杯看台抢镜一幕:贝克汉姆捧着“一缸红酒”看巴西队大胜

红星新闻
2026-06-25 09:45:40
广州市一栋3层大别墅拍卖,被人捡漏152万元就竞得

广州市一栋3层大别墅拍卖,被人捡漏152万元就竞得

老覃讲历史
2026-06-25 17:16:50
北京车牌租金今年直接跌了一半|新能源指标年租掉到一万上下

北京车牌租金今年直接跌了一半|新能源指标年租掉到一万上下

右耳远闻
2026-06-24 19:05:03
IBM印度裔CEO三分钟裁中国千人团队,印裔管理者的裙带套路太现实

IBM印度裔CEO三分钟裁中国千人团队,印裔管理者的裙带套路太现实

行者聊官
2026-06-25 10:33:59
冯小刚近些年血亏的影片:最新的《抓特务》砸了三个亿,离回本的七亿门槛差得老远。

冯小刚近些年血亏的影片:最新的《抓特务》砸了三个亿,离回本的七亿门槛差得老远。

TVB的四小花
2026-06-25 05:38:41
出自温州!浙江唯一高考数学满分

出自温州!浙江唯一高考数学满分

大永强
2026-06-25 16:40:55
轮到西方眼红!中国突破顶尖技术,地位堪比光刻机,明令禁止出口

轮到西方眼红!中国突破顶尖技术,地位堪比光刻机,明令禁止出口

迷彩前沿
2026-06-23 14:02:20
“建议取消私生子继承权!”专家话炸翻全网:凭什么要为背叛买单

“建议取消私生子继承权!”专家话炸翻全网:凭什么要为背叛买单

一丝不苟的法律人
2026-06-25 11:22:53
C罗进球瞬间,妻子一个举动让亿万人感动:难怪浪子收心只选她

C罗进球瞬间,妻子一个举动让亿万人感动:难怪浪子收心只选她

东方不败然多多
2026-06-25 15:42:51
2026高考分数线一览

2026高考分数线一览

界面新闻
2026-06-25 17:39:26
威胁过梅西的阿根廷悍将,却是C罗的铁杆,还对曼联恩将仇报

威胁过梅西的阿根廷悍将,却是C罗的铁杆,还对曼联恩将仇报

足篮大世界
2026-06-25 23:37:05
美国科技巨头推出全球首款亚1纳米芯片,集成近1000亿个晶体管仅指甲盖大小!公司股价盘前大涨

美国科技巨头推出全球首款亚1纳米芯片,集成近1000亿个晶体管仅指甲盖大小!公司股价盘前大涨

每日经济新闻
2026-06-25 20:59:06
国际篮联重磅宣布,中国男篮碾压日本韩国,冲亚洲地区第一

国际篮联重磅宣布,中国男篮碾压日本韩国,冲亚洲地区第一

宗介说体育
2026-06-25 11:29:38
贪污上亿,假慈善,身体出问题?54岁的韩红到底动了谁的蛋糕?

贪污上亿,假慈善,身体出问题?54岁的韩红到底动了谁的蛋糕?

TVB的四小花
2026-06-24 17:59:14
韩国媒体:希望日本队帮忙!

韩国媒体:希望日本队帮忙!

体育哲人
2026-06-25 20:41:51
2026-06-26 04:28:49
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
13360文章数 142682关注度
往期回顾 全部

科技要闻

存储成本压力山大!苹果罕见全球提价

头条要闻

女孩在网红景点拍照时坠湖身亡 前一天刚参加中考

头条要闻

女孩在网红景点拍照时坠湖身亡 前一天刚参加中考

体育要闻

世界杯最动人一吻:我若离世 你就改嫁吧

娱乐要闻

这国产剧太装了,居然还热播第一?

财经要闻

又有纸尿裤送检后被检测出甲酰胺!

汽车要闻

老板们的新座驾!65万元起,尊界V800/V680开启预订

态度原创

教育
本地
家居
亲子
军事航空

教育要闻

每晚带背真的给我学上瘾了!!!不知道暑期背什么的新传人请看这里!!!

本地新闻

2026世界杯全勤太难?这份保姆级攻略请收好

家居要闻

绿意盎然 自然之境

亲子要闻

儿科其实是一个接近动物学的专科!来看看大家的经历吧!

军事要闻

特朗普:现在到了关注朝鲜问题的时候了

无障碍浏览 进入关怀版