网易首页 > 网易号 > 正文 申请入驻

AAAI 2026|视频大语言模型可不可信?23款主流模型全面测评来了

0
分享至



近年来,视频大语言模型在理解动态视觉信息方面展现出强大能力,成为处理真实世界多模态数据的重要基础模型。然而,它们在真实性、安全性、公平性、鲁棒性和隐私保护等方面仍面临严峻挑战。

为此,合肥工业大学研究团队携手清华大学研究团队推出了首个面向视频大语言模型的综合可信度评测基准 Trust-videoLLMs。

该工作以 Oral 形式被 AAAI 2026 接收。Trust-videoLLMs 对 5 款商业模型和 18 款开源模型进行了全面评估。评测涵盖真实性、鲁棒性、安全性、公平性、隐私五大维度,包含 30 项精心设计的任务。同时,团队还提供了一个专门用于研究视频大语言模型安全可信能力的工具箱,该工具箱采用统一接口和模块化设计,便于模型交互和任务执行。



  • 论文地址:https://arxiv.org/pdf/2506.12336
  • 项目主页:https://github.com/wangyouze/Trust-videoLLMs

评测什么?

Trust-videoLLMs 构建了一个系统化、多层次、可扩展的评测体系,包含五个核心维度:

  • 真实性 (Truthfulness):视频描述、时序理解、事件推理、幻觉抑制
  • 鲁棒性 (Robustness):噪声干扰、时序扰动、对抗攻击、模态冲突
  • 安全性 (Safety):不良内容识别、有害指令拒绝、深度伪造检测、越狱攻击防御
  • 公平性 (Fairness):刻板印象识别、职业能力偏见、时间敏感性分析
  • 隐私性 (Privacy):隐私内容识别、名人隐私保护、自主隐私推理



评测任务涵盖三个方面:

  • 动态场景覆盖:特别设计了时空动态场景任务,区别于静态图像评测
  • 跨模态交互分析:研究视频、文本等多模态输入的相互影响
  • 实用风险评估:评估模型在现实应用中的实际风险感知



评测模型涵盖 23 款主流的视频大语言模型 (5 款商用模型和 18 款开源模型),包括不同参数规模和架构设计的模型。



评测结果速览




上图展示了整体排名,揭示了多样化的性能格局。

闭源模型,特别是 Claude 和 Gemini1.5 系列,普遍优于开源模型。Claude4-sonnet 位列第一,其次是 Claude3.7-sonnet 和 Gemini1.5-Flash。GPT-4o 尽管在特定子方面表现出色,但排名第六,仅次于 InternVL2.5-78B,表明其性能均衡但非领先。

在开源模型中,InternVL2.5-78B 和 Qwen2.5-VL-72B 获得最高排名(第五和第七位),展现了与商用模型相媲美的潜力。然而,大多数开源模型(如 VideoLLaMA3-7B 和 LLaVA-OneVision-72B)排名靠后,在整体可信度、安全性以及隐私保护等方面,仍与主流闭源模型存在差距。

上图 (a) 展示了综合表现前 10 的模型在不同维度的表现。Claude4-Sonnet 在安全性方面表现卓越,具有均衡的高性能特征。Claude3.7-Sonnet 提供跨维度的一致可靠性,但缺乏突出优势。Gemini1.5-Flash 在鲁棒性方面表现优异,但性能方差相对较大,呈现不规则模式。其他模型整体得分较低,缺乏明显的差异化特征。

上图 (b) 展示了可信性各子方面之间的复杂关联。我们观察到,维度内相关性较强,尤其在真实性与安全性这两个子维度中表现明显。跨维度分析进一步揭示:在多模态场景下,鲁棒性与安全维度高度相关;而时间鲁棒性则与真实性维度呈现显著负相关。公平性维度与其他维度的跨相关性较弱,表明其具有相对独立的特性。

关键发现

(1) 模型规模 ≠ 性能更强

参数量大的模型不一定在所有任务上表现更好,尤其是在时序推理、对抗攻击等复杂场景中。例如,Qwen2.5-VL-7B 在公平性任务上表现优于其 72B 版本。

(2)开源模型与闭源模型仍有差距

闭源模型(如 Claude、GPT-4o)在安全性、隐私保护、多模态对齐方面明显更强。开源模型在有害内容识别、越狱攻击防御等方面仍有较大提升空间。

(3)视频上下文对安全性影响显著

同一有害文本提示,搭配相关视频时,模型生成有害内容的概率显著提升。说明视频内容会放大模型的安全风险,需加强跨模态安全对齐。

(4)公平性问题普遍存在

模型在处理性别、年龄、肤色等敏感属性时仍存在刻板印象。闭源模型通过数据清洗和伦理约束表现更好,开源模型则更容易输出偏见内容。

(5)隐私保护是双刃剑

模型越强,越能识别隐私内容,但也越容易自主推理出隐私信息。闭源模型在隐私识别任务上表现更好,但同时也面临更高的隐私泄露风险。

开源工具与数据

为促进可信视频大模型的发展,团队同步开源了:

  • 评测框架 Trust-videoLLMs:https://github.com/wangyouze/Trust-videoLLMs
  • 大规模视频数据集(6955 个视频,覆盖多场景多任务)
  • 统一评估工具箱(支持模型接入、任务执行、自动评分)

作者信息

一作:王有泽,合肥工业大学四年级博士生,主要研究方向为多模态对抗鲁棒性、多模态大模型安全可信,曾在 ACM MM, TMM, TCSVT 等顶级会议和期刊上发表论文。

通讯作者:胡文波,合肥工业大学计算机与信息学院副教授,黄山青年学者。主要研究方向为机器学习,包括贝叶斯概率机器学习、人工智能安全以及科学人工智能。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
除夕夜,陈吉宁“四不两直”检查城市运行保障和节日值班值守,看望慰问一线工作人员

除夕夜,陈吉宁“四不两直”检查城市运行保障和节日值班值守,看望慰问一线工作人员

上观新闻
2026-02-16 23:47:07
大跳台裁判再引质疑!刘梦婷明显被压分,谷爱凌距夺金只差1.75分

大跳台裁判再引质疑!刘梦婷明显被压分,谷爱凌距夺金只差1.75分

篮球资讯达人
2026-02-17 05:43:00
微信可以发金色朋友圈了,腾讯公关总监亲自下场示范

微信可以发金色朋友圈了,腾讯公关总监亲自下场示范

界面新闻
2026-02-16 11:36:09
中门对狙?中方刚给30天免签,英加却要对等不了了!

中门对狙?中方刚给30天免签,英加却要对等不了了!

达文西看世界
2026-02-16 12:58:03
为啥中国精英盼着中国输?复旦教授:中国一旦追上,绿卡就会贬值

为啥中国精英盼着中国输?复旦教授:中国一旦追上,绿卡就会贬值

大鱼简科
2026-02-15 22:00:23
央视春晚:蔡明小品满屏问号,众人被秦岚惊艳,两位主持人疑翻车

央视春晚:蔡明小品满屏问号,众人被秦岚惊艳,两位主持人疑翻车

一娱三分地
2026-02-16 23:13:23
太安静了!除夕之夜1000多万新上海人纷纷离开,上海回归到50年前

太安静了!除夕之夜1000多万新上海人纷纷离开,上海回归到50年前

火山詩话
2026-02-16 19:54:07
X人是“四等人”、“最低贱民族”?这种言论,必须查到底!

X人是“四等人”、“最低贱民族”?这种言论,必须查到底!

西域都护
2026-02-16 19:23:54
揭秘春晚“机器人蔡明” 公司负责人:蔡明脸好小,机器人尺寸压缩了30%

揭秘春晚“机器人蔡明” 公司负责人:蔡明脸好小,机器人尺寸压缩了30%

红星新闻
2026-02-16 22:22:42
从杭州借道俄罗斯回东北的女孩已抵达黑河家中:耗时5天4夜,比国内直飞节约500多元,还玩了两个俄罗斯城市

从杭州借道俄罗斯回东北的女孩已抵达黑河家中:耗时5天4夜,比国内直飞节约500多元,还玩了两个俄罗斯城市

极目新闻
2026-02-16 20:11:03
2-1超级冷门!11.1亿卫冕冠军惨遭保级队逆转+绝杀 吞连败丢榜首

2-1超级冷门!11.1亿卫冕冠军惨遭保级队逆转+绝杀 吞连败丢榜首

狍子歪解体坛
2026-02-17 06:07:32
马年春晚4大槽点:王一博衣服,王菲选歌,龙洋眼睛,撒贝宁眉毛

马年春晚4大槽点:王一博衣服,王菲选歌,龙洋眼睛,撒贝宁眉毛

琨玉秋霜
2026-02-17 02:04:47
断层收视第一,骂声全网刷屏!2026辽视春晚,赢了流量,输了人心

断层收视第一,骂声全网刷屏!2026辽视春晚,赢了流量,输了人心

东方不败然多多
2026-02-17 00:58:48
朋友借我的理想L9,还车时还送一箱茅台,我发现他6天充了46次电

朋友借我的理想L9,还车时还送一箱茅台,我发现他6天充了46次电

沙雕小琳琳
2026-02-16 22:26:05
4次挑衅中国!乌克兰名将:取消我同胞资格 国际奥委会是世界耻辱

4次挑衅中国!乌克兰名将:取消我同胞资格 国际奥委会是世界耻辱

念洲
2026-02-16 09:10:30
“初一五不做,一年无灾祸”,大年初一哪5不做?

“初一五不做,一年无灾祸”,大年初一哪5不做?

乡村大营
2026-02-16 21:03:45
春晚引发西方恐慌

春晚引发西方恐慌

美第奇效应
2026-02-17 02:02:49
我看完今年的马年春晚后,说几句肺腑之言,都是自己的真感受

我看完今年的马年春晚后,说几句肺腑之言,都是自己的真感受

神牛
2026-02-16 23:55:46
央视春晚收视率破40%!王菲出场不到38%,知名乐评人吐槽王菲假唱

央视春晚收视率破40%!王菲出场不到38%,知名乐评人吐槽王菲假唱

古希腊掌管月桂的神
2026-02-16 23:36:38
大年初一拜年,别只说“新年快乐”,送您几句祝福语,马年走鸿运

大年初一拜年,别只说“新年快乐”,送您几句祝福语,马年走鸿运

神牛
2026-02-16 09:00:22
2026-02-17 07:28:49
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12313文章数 142567关注度
往期回顾 全部

科技要闻

阿里除夕发布千问3.5,性能媲美Gemini 3

头条要闻

日方宣称向中方提出交涉 中使馆驳斥

头条要闻

日方宣称向中方提出交涉 中使馆驳斥

体育要闻

短道男子接力半决赛失误后 刘少昂多次说"抱歉"

娱乐要闻

王菲六登春晚献唱 水滴钻石耳环再出圈

财经要闻

2025,中国商业十大意外,黄金只排第九

汽车要闻

叫停纯屏操作 工信部拟推车内实体操作件强制国标

态度原创

游戏
数码
旅游
家居
公开课

PS发布会压轴!《战神》新作只有近30人白金

数码要闻

苹果可能多年不会对iPad Pro进行重大升级

旅游要闻

巨型“彩马”驰骋上海夜空 上千架无人机浪漫烟花交相辉映

家居要闻

中古雅韵 乐韵伴日常

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版