网易首页 > 网易号 > 正文 申请入驻

500万视频数据集+全新评测框架!北大开源OpenS2V-Nexus

0
分享至

想让 AI 能 「看着你的自拍就生成一致且自然的短视频」 吗?这就是Subject-to-Video(S2V)生成要解决的问题:让视频生成不仅对齐文本,还能准确保留指定人物或物体的特征,让生成的视频既 「像」 又 「自然」。这一能力对于短视频生成、虚拟人、AI 剪辑等都有巨大意义。

然而,要训练和评价这样的模型,过去一直缺少公开可用的大规模数据集和细粒度评测基准,限制了 S2V 技术的快速突破。

为此,北大团队推出了全新的开源套件 OpenS2V-Nexus,专为 S2V 生成打造:

OpenS2V-Eval:全球首个面向主体一致性、自然度和文本对齐的 S2V 细粒度评测基准,让不同模型在主体一致性上真正可比。

OpenS2V-5M:全球首个公开的500 万条高质量 720P 人物文本视频三元组数据集,覆盖真实和合成数据,帮助研究者快速训练更强大的生成模型。

北大团队还在 18 个代表性 S2V 模型上进行了系统评测,首次揭示了目前主流模型在保持主体一致性和自然度方面的真实能力差距。

通过 OpenS2V-Nexus,未来做 AI 视频生成不再盲人摸象,让训练更高效、评测更科学,让真正可控、自然且保持人物一致的 AI 视频生成技术更快落地到你的应用里。

该工作带来三大核心贡献:

  • 构建 OpenS2V-Eval:领域最全面的 S2V 评测基准,构建了 180 个多领域提示词 + 真实 / 合成双类别测试数据。提出了 NexusScore、NaturalScore 和 GmeScore,精准量化模型在主体一致性、自然度、文本对齐三大维度的能力。
  • 同步开源 OpenS2V-5M 百万计数据集:包含 540 万 720P 高清「图片 - 文本 - 视频」三元组,通过跨视频关联分割 + 多视角合成技术,实现主题多样性与高质量标注。
  • 提供 S2V 模型选择的新见解:基于全新评测框架,团队对 18 个主流 S2V 模型展开全面测评,揭示不同方法在复杂场景下的优劣差异。

  • 论文地址:
  • https://arxiv.org/abs/2505.20292
  • 项目地址:
  • https://pku-yuangroup.github.io/OpenS2V-Nexus/
  • 数据集地址:
  • https://huggingface.co/datasets/BestWishYsh/OpenS2V-5M
  • 评估基准地址:
  • https://huggingface.co/datasets/BestWishYsh/OpenS2V-Eval

Subject-to-video 领域面临着三大问题

(1)泛化能力不足:当遇到训练中未见过的主体类别时,模型的生成效果往往显著下降。例如,仅在西方面孔上训练的模型,在生成亚洲人主体时通常表现更差。

(2)“复制粘贴” 问题:模型在生成视频时,往往会直接照搬参考图像中的姿势、光照和轮廓,导致生成结果缺乏自然感。

(3)人物一致性不足:相比于生成非人类主体,现有模型在保持人物身份一致性方面仍存在明显不足。

一个有效的评测基准理应能够揭示并量化这些问题。然而,即便生成的视频主体看起来不自然或身份一致性较差,现有评测基准往往仍给出较高的分数,阻碍了 S2V 领域的进一步突破和改进。

北大团队通过 OpenS2V-Eval 揭示了现有模型在这三个方面的缺陷,并提出 OpenS2V-5M 从数据层面解决这些问题。

OpenS2V-Eval 评测基准

现有的视频生成评测基准大多聚焦于文本生成视频(text-to-video)任务,典型代表包括 VBench 和 ChronoMagic-Bench。虽然 ConsisID-Bench 可用于 S2V 任务,但其评测范围仅限于面部一致性。Alchemist-Bench、VACE-Benchmark 和 A2 Bench 支持对开放域 S2V 模型进行评测,但它们主要采用的是全局、粗粒度的评测方式。例如,这些基准未能对生成视频中主体的自然度进行有效评估。

为应对这一挑战,团队提出了 OpenS2V-Eval,这是领域内首个全面的 Subject-to-Video(S2V)评测基准。具体而言,团队定义了七大类别(见图示):① 单人脸生成视频,② 单人全身生成视频,③ 单实体生成视频,④ 多人脸生成视频,⑤ 多人全身生成视频,⑥ 多实体生成视频,⑦ 人物与实体混合生成视频。针对每个类别,设计了 30 个富含视觉内容的测试样本,用于全面评测模型在不同主体上的泛化能力。

并且,针对现有自动化评测稳健性不足的问题,团队首先提出 NexusScore,结合图像检测和多模态检索模型,用于精准评估主体一致性。其次,团队提出基于 VLM 的 NaturalScore,填补了当前评测中对主体自然度评价的空白。最后,团队提出 GmeScore,相比传统方法能更准确地评估文本相关性。

OpenS2V-5M 百万级数据集

此外,当社区尝试将基础模型扩展到下游任务时,现有数据集在支持复杂任务方面仍存在明显不足(见表格对比)。为弥补这一限制,团队提出了 OpenS2V-5M,这是首个专为 Subject-to-Video(S2V)设计的百万级规模数据集,同时也可用于文本生成视频等任务。

以往方法通常直接从训练视频帧中裁剪出主体图像,着可能导致模型倾向于学习捷径而非真正的内在知识。为了解决这一问题,团队在数据层面引入了 Nexus Data,具体包括:(1)通过跨视频关联构建丰富的配对信息;(2)在原始帧上使用多模态大模型生成多视角表示,以丰富数据的多样性和泛化能力,从而有针对性地应对前述的三大核心挑战。常规数据与 Nexus 数据之间的比较如下图 5 所示,可见 OpenS2V-5M 具有更高的质量,有望解决 S2V 模型面临的三大核心挑战。

评估实验

团队评估了几乎所有的 S2V 模型,包括四个闭源模型和十二个开源模型。这些模型涵盖了支持所有类型主体的模型,以及仅支持人物身份的模型。结果如下图所示,总体而言,闭源模型在整体能力方面表现出明显优势(例如 Kling)。以 Phantom 和 VACE 为代表的开源模型正在逐步缩小这一差距;然而,这两种模型都存在以下三个共同问题:(1)泛化能力差:某些主体的保真度较低。例如,在下图 6 的案例 2 中,Kling 生成了错误的操场背景,而 VACE、Phantom 和 SkyReels-A2 生成了保真度较低的人物和鸟类;(2)复制粘贴问题:在图 7 中,SkyReels-A2 和 VACE 错误地将参考图像中的表情、光照或姿态复制到生成视频中,导致输出不自然;(3)人类保真度不足:图 7 显示所有模型都未能准确渲染人物侧脸。此外,还观察到:(1)随着参考图像数量的增加,保真度逐渐下降;(2)初始帧可能模糊或直接被复制;(3)保真度随时间逐渐下降。

验证实验

团队还通过人工交叉验证验证指标和数据集的有效性。显然,所提出的三个指标与人类感知一致,能够准确反映主体一致性、主体自然性和文本相关性。并且数据集能有效解决 S2V 的三大核心问题。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
称台积电领先华为韬定律十年后,黄仁勋宣布在中国台湾投资万亿元

称台积电领先华为韬定律十年后,黄仁勋宣布在中国台湾投资万亿元

火星宏观
2026-05-30 11:07:16
湖南女外卖员戴燕执行死刑,被押火葬场,结束罪恶一生

湖南女外卖员戴燕执行死刑,被押火葬场,结束罪恶一生

徐侠客有话说
2025-07-18 15:21:44
26岁曼联旧将破门难救主,世界杯新军1-4惨败给苏格兰,遭遇3连败

26岁曼联旧将破门难救主,世界杯新军1-4惨败给苏格兰,遭遇3连败

俯身冲顶
2026-05-30 22:56:00
曹操杀了杨修后,问其父杨彪为何瘦了,杨彪回了一句话成千古名句

曹操杀了杨修后,问其父杨彪为何瘦了,杨彪回了一句话成千古名句

兴趣知识
2026-05-30 18:54:23
66岁安帅暴怒 感觉被耍得团团转 警告内马尔:14天后还有伤就走人

66岁安帅暴怒 感觉被耍得团团转 警告内马尔:14天后还有伤就走人

风过乡
2026-05-30 08:33:24
解说天团集结!詹俊、韩乔生、孙继海、张路助阵,还有6位女解说拉拢女球迷,美加墨世界杯,咪咕很想赢

解说天团集结!詹俊、韩乔生、孙继海、张路助阵,还有6位女解说拉拢女球迷,美加墨世界杯,咪咕很想赢

每日经济新闻
2026-05-30 16:37:11
中国篮球又出丑闻!26岁明星球员桃色实锤,郭士强做的太对了

中国篮球又出丑闻!26岁明星球员桃色实锤,郭士强做的太对了

李橑在北漂
2026-03-11 19:48:45
结婚才2年,萧敬腾就尝到老妻少夫的残酷,其实舒淇早就把话说透

结婚才2年,萧敬腾就尝到老妻少夫的残酷,其实舒淇早就把话说透

枯蝶
2026-05-11 09:20:17
心理学有个残忍真相:子女长大后不心疼你,从来不是他不懂感恩,也不是他薄情寡义,而是你早年这两种“隐形伤害”,亲手关闭他心疼人开关

心理学有个残忍真相:子女长大后不心疼你,从来不是他不懂感恩,也不是他薄情寡义,而是你早年这两种“隐形伤害”,亲手关闭他心疼人开关

心理观察局
2026-05-07 10:05:05
北京传来大消息!天价救命药迎来重大突破,很多家庭有救了

北京传来大消息!天价救命药迎来重大突破,很多家庭有救了

王二哥老搞笑
2026-05-30 15:00:47
反转!网传武汉一婚介所男性资料只剩20多份,女性激增到3500多份

反转!网传武汉一婚介所男性资料只剩20多份,女性激增到3500多份

老猫观点
2026-05-30 07:38:10
血脂与饮水量有关?医生劝告:血脂过高的人,喝水时多注意这8点

血脂与饮水量有关?医生劝告:血脂过高的人,喝水时多注意这8点

路医生健康科普
2026-05-30 20:10:03
不装了,黄智贤力挺金溥聪!洪秀柱方面出手,郑丽文决定一件事!

不装了,黄智贤力挺金溥聪!洪秀柱方面出手,郑丽文决定一件事!

混沌录
2026-05-30 23:41:12
刚签完反华声明,后脚解放军通牒就到,马科斯把火玩大

刚签完反华声明,后脚解放军通牒就到,马科斯把火玩大

健身狂人
2026-05-30 12:12:58
6连胜戛然而止!王祉怡1-2不敌山口茜,陈雨菲大战安洗莹独挑大梁

6连胜戛然而止!王祉怡1-2不敌山口茜,陈雨菲大战安洗莹独挑大梁

钉钉陌上花开
2026-05-30 13:15:10
四川儿媳吐槽:婆婆与公公,每晚鸳鸯浴,自己很尴尬,只得搬离!

四川儿媳吐槽:婆婆与公公,每晚鸳鸯浴,自己很尴尬,只得搬离!

川渝视觉
2026-05-20 12:50:15
马竞强硬不放人,球员却点名要去死敌

马竞强硬不放人,球员却点名要去死敌

星河漫山野
2026-05-31 02:02:52
段睿深夜悲痛发文:再也没有人等我回去了!

段睿深夜悲痛发文:再也没有人等我回去了!

原梦叁生
2026-04-22 20:06:36
比亚迪版“帕拉梅拉”,续航达2000km,拥有50万的档次仅售15万多

比亚迪版“帕拉梅拉”,续航达2000km,拥有50万的档次仅售15万多

隔壁说车老王
2026-05-28 07:56:52
里奇保罗:如果没有皮蓬,乔丹一个冠军都拿不到

里奇保罗:如果没有皮蓬,乔丹一个冠军都拿不到

移动挡拆
2026-05-30 23:46:47
2026-05-31 02:39:00
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
13116文章数 142655关注度
往期回顾 全部

科技要闻

车圈大佬发声:价格战远去,但竞争仍残酷

头条要闻

两名9岁女孩被困电梯近2小时 求救几十次物业无动于衷

头条要闻

两名9岁女孩被困电梯近2小时 求救几十次物业无动于衷

体育要闻

岁月不饶人!39岁德约鏖战近5小时拼到呕吐

娱乐要闻

张碧晨《歌手》 “活人微死” 自嘲

财经要闻

双汇管不住一头猪

汽车要闻

900V+3.2秒破百 领克10+&领克10上市16.99万元起

态度原创

手机
艺术
房产
数码
公开课

手机要闻

REDMI K90至尊版入网?K90单品激活破200万

艺术要闻

非洲超级地标!全球最大足球场,持续推进!

房产要闻

红动五月!全国抢入核心资产,广州盯紧凯旋新世界!

数码要闻

没等到Arc G3!华硕ROG Ally 2026新掌机曝光: 仍用AMD锐龙Z2 Extreme

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版