网易首页 > 网易号 > 正文 申请入驻

AGI-Eval团队:AI视频生成模型年度横评,国产模型仍然领先!

0
分享至

AGI-Eval团队 投稿
量子位 | 公众号 QbitAI

说到2024年AI圈的热门话题,当然不能错过视频生成模型了!

即使是在12月,国内外视频模型的更新脚步依旧没有放缓。其中以Sora、可灵AI为代表。

12月9日,OpenAI正式推出视频产品Sora。用户可以创建任意长宽比例的分辨率高达1080p(最长 20 秒)的视频,可接收文本、图像和视频输入并生成新视频作为输出。

12月19日,可灵AI宣布基座模型再升级,视频生成推出可灵1.6模型,文本响应度、画面美感及运动合理性,均有明显提升,画面更稳定更生动,同时支持标准和高品质模式,特别是1.6模型的图生视频,内部评测比 1.5 模型整体效果提升195%。

视频模型竞争激烈,评测榜单也变得尤为重要。

AGI-Eval通过构建上百条评测数据和专家级人工评测团队,对Sora 、及国产头部视频生成模型进行了更深度的专业评测。

主要结论有以下3个:

结论1

与国内头部大模型(国内前三)相比,Sora在视频-文本一致性维度、视频质量上均有小幅落后。总体来看,国内大模型仍保持领先水平

结论2

Sora在运动质量维度表现略好于可灵1.6,即生成的视频画面在动态过程中的主体一致性和动态幅度更自然。

结论3

在视频-文本一致性维度上,Sora存在文本理解有误、指令遵循不符的问题,即生成的视频内容与提示词的描述不符的现象。

详细的榜单排名如下,评测维度包括视频-文本一致性 、视频质量(含真实性、合理性) 、运动质量等,确保评测结果反馈模型真实水平。

注:以上数据为示例,具体评分请参考AGI-Eval评测社区平台的最新数据。

榜单数据经过归一化处理,与原始分值有所区别,但排名一致。

AGI-Eval平台链接:https://agi-eval.cn/mvp/listSummaryIndex

详细评测对比:Sora VS 国内视频生成模型

一起来看看详细的测评结果。

从视频生成的整体效果来看,Sora在视频质量、创作自由度、风格支持等方面的表现更优,尤其是在动态场景下五官的呈现上更为细致。

示例对比

【示例1】:文本一致性

Prompt: 地上放着一个篮球、面包和背包,镜头跟随劳累的运动员来到物品面前,拿起一样物品用来补充能量。
英文prompt:There is a basketball, a loaf of bread, and a backpack on the ground. The camera follows the exhausted athlete as he approaches the items and picks up one of them to replenish his energy.

该prompt本身较为复杂,同时存在多个实体、人物状态表现,且需要模型进行正确的推理,考察的能力更加全面。

Sora-1080P

该维度打分:2分
分析:要求生成的实体中,背包缺失,面包表现较差,丢失实体特征;人物动作”拿起“不符合,无法判断是否符合推理正确的物体。

可灵1.6

该维度打分:2.67分
分析:要求生成的实体中,面包缺失,”拿起“的动作有趋势但表现较差,同样无法判断是否符合推理正确的物体。

Pixverse-V3

该维度打分:3.5分
分析:要求生成的实体及人物动作“拿起”均满足,也能达成正确的推理,理解需要拿的是面包,但不符合镜头跟随和人物动作“来到”,相对来说已经表现得不错。

MiniMax-Video-01

该维度打分:3分
分析:要求生成的实体中,面包缺失,“拿起”动作不符合,但推理正确,理解需要拿的是面包。

Prompt:高温变色马克杯广告。一个黑色高温变色马克杯正被加入热水,逐渐变成白色的过程。重点需要突出马克杯的变色能力。
英文prompt:High-temperature color-changing thermos advertisement. A black high-temperature color-changing thermos cup is being filled with hot water, gradually transforming into white. The key focus is to highlight the thermos cup’s color-changing capability.

该prompt实体较简单,但倾向于考察水流、热气、颜色渐变等细节,流畅的细节变化通常来说较为困难。

Sora-1080P

该维度打分:2.67分
分析:忽略prompt要求的重点,未体现出变色的过程。

可灵1.6

该维度打分:4分
分析:变色过程不完全符合要求,但相对来说较好。

Pixverse-V3

该维度打分:3分
分析:未体现正在加水,变色有体现,但不符合逐渐变白的要求。

MiniMax-Video-01

该维度打分:2.67分
分析:同样未体现出变色的过程,也无法看出是热水。

【示例2】:物品生成稳定性(突然出现或消失)

Prompt: 一款创意蛋糕的宣传广告。一把餐刀切开了蛋糕,从蛋糕的切口处涌出了草莓酱。
英文prompt:An advertisement for a creative cake. A dining knife slices through the cake, and strawberry sauce flows out from the cut.

该prompt重在考察运动细节及实体之间的交互,模型在“切口处涌出了草莓酱”上表现得各有差异。

Sora-1080P

该维度打分:2.5分
分析:该视频中果酱多次忽然出现和忽然消失,蛋糕忽然出现缺口,仅针对稳定性较差。

可灵1.6

该维度打分:3.5分

分析:能看到刀的动作导致蛋糕出现切口,果酱的出现比较突兀不合理。

Pixverse-V3

该维度打分:3.5分
分析:果酱和刀的形态稳定,蛋糕的切口出现较为突兀。

MiniMax-Video-01

该维度打分:3分
分析:刀和蛋糕的形态较稳定,符合切开的状态,但果酱忽然大量出现不合理。

【示例3】:实体畸形

Prompt: 生成一个动画风格的视频,内容是一个女孩正在巴黎旅行,她的面前是埃菲尔铁塔。
英文prompt:Generates an animated-style video of a girl traveling in Paris with the Eiffel Tower in front of her.

Sora-1080P

该维度打分:2.67分
分析:背景鸟群出现明显畸形及不合理滞空,背景行人有粘连及行走姿态明显不合理,整体观感上较为明显。

可灵1.6

该维度打分:4分
分析:主体人物及建筑物整体的形态均较好,部分背景人物出现轻微畸形,整体对观感影响较小。

Pixverse-V3

该维度打分:3分
分析:主体人物手指有轻微粘连形变,背景建筑物发生形变,观感上稍有不合理。

MiniMax-Video-01

该维度打分:3.5分
分析:主体人物手指轻微形变,左侧出现的背景人物面部有轻微扭曲,观感上稍有不合理。

Prompt: 同事们正在办公室门前交谈。
英文prompt:Colleagues are talking in front of the office door.

Sora-1080P

该维度打分:2.5分
分析:人物有明显的穿模,门发生的形变也较明显,影响严重。

可灵1.6

该维度打分:3.5分
分析:人物整体形象较好,无明显畸形,部分镜头中人物手部存在形变,造成一定的影响。

Pixverse-V3

该维度打分:3分
分析:人物手指形变持续存在且较严重,较影响视觉效果。

MiniMax-Video-01

该维度打分:3.5分
分析:人物整体形象较好,无明显畸形,部分镜头中人物手部存在形变,造成一定的影响。

【示例4】:镜头技巧

Prompt: 创意视频,升镜拉镜结合,镜头从一座繁忙的城市拉升到空中、太空、宇宙外,需要展示出地球是其他宇宙高维生命手中的玻璃球
英文prompt:A creative video combining zoom-in and zoom-out techniques, with the shot pulling up from a bustling city to the sky, into space, and beyond the universe, revealing Earth as a glass ball in the hands of higher-dimensional beings from another universe.

Sora-1080P

该维度打分:3分
分析:拉镜有所表现,但升镜体现较差,视频整体镜头表现较单一。

可灵1.6

该维度打分:4分
分析:视频能较好的体现升镜、拉镜,场景变化的过度比较自然,整体流畅。

Pixverse-V3

该维度打分:3.5分
分析:升镜体现较好,但拉镜未明确表现,视频整体场景转化较流畅。

MiniMax-Video-01

该维度打分:3分
分析:拉镜有所表现,但升镜体现较差,视频整体效果较为突兀。

是怎么评测的?

针对基础模型,AGI-Eval采用了不同的评测方法及不同的评测方式,包含人工主观评测、模型打分(modeleval)、众包评测三种方式,考察模型在不同版本下是否有能力下降、风格等影响导致榜单结果差异,反馈模型综合能力。

人工评测

评测说明
给定prompt的视频,人工从视频文本一致性、视频质量、运动质量等维度综合给被测视频打1-5绝对值分,并标注出被测视频的错误标签;视频采用多轮标注的方式,2人打分结果相同则为该prompt结果,若2人打分diff则进入3标,最终3人平均为被测视频最终分数。

评测思路

视频文本一致性:是否按照prompt的要求生成视频,包括对物体、人物、场景、风格、运动细节等所有相关要素的描述是否完整遵循。

视频质量

合理性:视频在逻辑、结构、设计、运动轨迹等维度是否符合常规,即,是否符合物理规律。

真实性:视频具有逼真效果,无明显AI痕迹。

运动质量:视频中的运动表现是否流畅、连贯、动态效果是否丰富。

评测集介绍

根据一致性、运动质量、画面质量等关键性能指标,构建了包含500条中英文对照样本的黑盒测试集,覆盖了从动作生成到情绪生成多种复杂场景和能力项及应用场景;在构建中也结合到了物理常识和百科知识,评估生成视频的真实感和逻辑性。

评测案例

任务类型:相互影响多实体生成

Prompt:一只猫叫醒了正在睡觉的主人。
模型答案:

评测分析:
视频综合打分:3分
一致性:4分,实体生成符合要求,但对于“叫醒”的动作过程体现不完整。
视频质量:3分,运动过程中人物肢体、猫面部都呈现出变形。
运动质量:3分,运动基本连贯,最后猫爪收回动作不自然,机械感较明显。

任务类型:实体&动作生成

Prompt:跳水运动员们正在热身。
模型答案:

评测分析:
视频综合打分:1分
一致性:1分,要求的实体及动作完全未体现。
视频质量:1分,视觉中心的主体畸形,场景下方也存在变形不连贯。
运动质量:2分,下方凭空出现实体,运动连贯性、动态效果、运动幅度均差。

AGI-Eval评测平台

鉴于传统评测方式难以充分反映模型的真实水平,AGI-Eval创新性地提出了人机协作评测模式,探索建设高质量评测社区建设。

在这种模式下,参与者可以与最新的大模型共同完成任务,既有助于提高任务完成度又便于建立更加直观的区分度。

基于前期的一些用户实验表明,通过这种方式不仅可以获得更为简洁、完善的推理过程描述,还可以进一步提升用户与大模型之间的互动体验。

未来,随着更多类似平台的出现和发展,相信人机协作将成为评测领域的一个重要发展方向。

人机社区链接:https://agi-eval.cn/llmArena/home

AGI-Eval 平台基于真实数据回流、能力项拆解等方式,自建万量级私有数据,并经过多次质检保证准确率。

黑盒100%私有化数据,可保证评测数据不可“穿越”。

从数据建设到模型评测,实现全层级能力项目,一级能力涵盖指令遵循、交互能力、认知能力(含推理、知识、其他认知能力等);完美实现自动与人工评测相结合。

对于Chat模型,平台官方榜单结合主观、客观评测结果,中英文权重分布均衡。

客观评测基于模型打分,可处理具有一定自由度问题,准确率95%+;主观评测基于三人独立标注,并记录细分维度标签结果,全面诊断模型问题。

想要申请文生视频测评的朋友可以直接联系AGI-Eval团队。

AGI-Eval团队介绍

AGI-Eval是由上海交通大学、同济大学、华东师范大学、DataWhale等高校和机构合作发布的大模型评测社区,以“评测助力,让AI成为人类更好的伙伴”为使命。平台旨在打造公正、可信、科学、全面的评测生态,号召大众共同投入到大模型评测工作,参与数据构建及丰富有趣的人机协作比赛,与大模型协同完成复杂任务,实现评测方案共建。

AGI-Eval多模态评测可承接全模态(any toany)模型评测(部分榜单待上线),欢迎各位模型厂商提报评测合作交流。

文生视频测评申请方式

请使用单位邮箱,将测评研究目的、计划,研究机构、申请者介绍和联系方式(手机或微信),发送到邮箱。
邮箱:agieval17@gmail.com,标题是:AGI-Eval文生视频测评申请

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
张雪峰助理万霞:十年相伴,生死相隔最痛的人!

张雪峰助理万霞:十年相伴,生死相隔最痛的人!

天光破云来
2026-03-26 11:55:41
和富商离婚后,上海知名主持沦为网红,如今8岁儿子成她唯一依靠

和富商离婚后,上海知名主持沦为网红,如今8岁儿子成她唯一依靠

往史过眼云烟
2026-03-25 14:51:15
扎哈罗娃警告日本:任何试图向乌提供致命武器之举,都将招致强硬回应

扎哈罗娃警告日本:任何试图向乌提供致命武器之举,都将招致强硬回应

环球网资讯
2026-03-26 08:55:12
多地将举办“纪念张国荣”演唱会,行情火爆?张国荣挚友:请停止所有非法行为

多地将举办“纪念张国荣”演唱会,行情火爆?张国荣挚友:请停止所有非法行为

上观新闻
2026-03-26 15:06:07
博主被陌生网友辱骂3个月,默默观察其2年半,终于找到机会碰面了

博主被陌生网友辱骂3个月,默默观察其2年半,终于找到机会碰面了

离离言几许
2026-03-26 15:01:41
伊朗称正在搜捕逃亡美军

伊朗称正在搜捕逃亡美军

界面新闻
2026-03-25 23:21:14
揭开美国粮价低的真面目!他们骗人的鬼把戏终于被揭穿了!

揭开美国粮价低的真面目!他们骗人的鬼把戏终于被揭穿了!

老范谈史
2026-03-25 22:45:51
想拿中国尿素救春耕?先把欠中企的百亿欠款还了!否则一粒不售

想拿中国尿素救春耕?先把欠中企的百亿欠款还了!否则一粒不售

过期少女致幻录
2026-03-26 11:44:43
官方:CCTV5、央视频等平台将转播国足vs库拉索

官方:CCTV5、央视频等平台将转播国足vs库拉索

懂球帝
2026-03-26 17:12:06
我有一个朋友在张雪峰公司上班他说张雪峰根本不是大家看到的样子

我有一个朋友在张雪峰公司上班他说张雪峰根本不是大家看到的样子

乐悠悠娱乐
2026-03-26 10:27:07
参加世界杯,每人先交1.5万刀!特朗普政策影响多个世界杯参赛国

参加世界杯,每人先交1.5万刀!特朗普政策影响多个世界杯参赛国

全景体育V
2026-03-26 08:16:09
万科高管被要求退还薪酬

万科高管被要求退还薪酬

地产微资讯
2026-03-26 12:22:04
斯柯达退出中国?大众中国回应:销售持续至年中,客户将持续获得全面售后支持

斯柯达退出中国?大众中国回应:销售持续至年中,客户将持续获得全面售后支持

澎湃新闻
2026-03-26 17:02:26
张雪峰去世真相!网友:偌大的公司靠他个人ip养活,早死是必然的

张雪峰去世真相!网友:偌大的公司靠他个人ip养活,早死是必然的

火山詩话
2026-03-25 09:18:58
4个LV包都是假的!女子送检后傻眼:全在专柜买的啊,最新回应

4个LV包都是假的!女子送检后傻眼:全在专柜买的啊,最新回应

半岛晨报
2026-03-25 15:30:03
张雪峰被骂8年,走后全网才发现:他说的5句话是给普通人的保命符

张雪峰被骂8年,走后全网才发现:他说的5句话是给普通人的保命符

奇思妙想草叶君
2026-03-25 13:22:05
张雪峰离世!北京苏州房产不在名下,1400名员工等安抚,好友停工

张雪峰离世!北京苏州房产不在名下,1400名员工等安抚,好友停工

阿纂看事
2026-03-25 21:31:59
快讯!欧尔班的回旋镖来了!

快讯!欧尔班的回旋镖来了!

达文西看世界
2026-03-26 12:23:16
广东一男子买啤酒抽中电动车大奖,将中奖二维码发网上询问后被他人扫走核销,网友:“这下又上了一课”

广东一男子买啤酒抽中电动车大奖,将中奖二维码发网上询问后被他人扫走核销,网友:“这下又上了一课”

洪观新闻
2026-03-26 10:56:49
商务部:中方将自5月1日起对所有非洲建交国全面实施零关税举措

商务部:中方将自5月1日起对所有非洲建交国全面实施零关税举措

界面新闻
2026-03-26 16:08:24
2026-03-26 19:52:49
量子位 incentive-icons
量子位
追踪人工智能动态
12348文章数 176424关注度
往期回顾 全部

科技要闻

Meta高管狂分百亿期权,700名员工却下岗

头条要闻

张雪峰留巨额遗产:二婚妻子或拿50% 剩下的女儿占1/3

头条要闻

张雪峰留巨额遗产:二婚妻子或拿50% 剩下的女儿占1/3

体育要闻

申京努力了,然而杜兰特啊

娱乐要闻

刘晓庆妹妹发声!称姐姐受身边人挑拨

财经要闻

油价"驯服"特朗普?一到100美元就TACO

汽车要闻

一汽奥迪A6L e-tron开启预售 CLTC最大续航815km

态度原创

家居
教育
艺术
本地
公开课

家居要闻

傍海而居 静观蝴蝶海

教育要闻

2026人工智能时代下的教育课堂变革

艺术要闻

哪一座桥不是风景?

本地新闻

救命,这只酱板鸭已经在我手机复仇了一万遍

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版