网易首页 > 网易号 > 正文 申请入驻

AI解读视频张口就来?这种「幻觉」难题Vista-LLaMA给解决了

0
分享至

机器之心专栏

机器之心编辑部

Vista-LLaMA 在处理长视频内容方面的显著优势,为视频分析领域带来了新的解决框架。

近年来,大型语言模型如 GPT、GLM 和 LLaMA 等在自然语言处理领域取得了显著进展,基于深度学习技术能够理解和生成复杂的文本内容。然而,将这些能力扩展到视频内容理解领域则是一个全新的挑战 —— 视频不仅包含丰富多变的视觉信息,还涉及时间序列的动态变化,这使得大语言模型从视频中提取信息变得更为复杂。

面对这一挑战,字节跳动联合浙江大学提出了能够输出可靠视频描述的多模态大语言模型 Vista-LLaMA。Vista-LLaMA 专门针对视频内容的复杂性设计,能够有效地将视频帧转换为准确的语言描述,从而极大地提高了视频内容分析和生成的质量。

论文主页:https://jinxxian.github.io/Vista-LLaMA/

图 1

技术创新路径

现有多模态视觉与语言模型在处理视频内容时,通常将视频帧转化为一系列的视觉 token,并与语言 token 结合以生成文本。然而,随着生成文本长度的增加,视频内容的影响往往逐渐减弱,导致生成的文本越来越多地偏离原视频内容,产生所谓的 “幻觉” 现象。

Vista-LLaMA 通过创新的方式处理视频和文本间的复杂互动,突破了传统视频语言模型的限制。Vista-LLaMA 的核心创新在于其独特的视觉与语言 token 处理方式。不同于其他模型,它通过维持视觉和语言 token 间的均等距离,有效避免了文本生成中的偏差,尤其是在长文本中更为显著。这种方法大幅提高了模型对视频内容的理解深度和准确性。

图 2

Vista-LLaMA 采用了一种改良的注意力机制 —— 视觉等距离 token 注意力(EDVT),它在处理视觉与文本 token 时去除了传统的相对位置编码,同时保留了文本与文本之间的相对位置编码。EDVT 机制通过特定的函数处理隐藏层输入,有效区分视觉 token 来源。

具体而言,它首先对输入进行查询、键和值的映射转换,接着对查询和键输入应用旋转位置编码(RoPE),分别计算带 RoPE 和不带 RoPE 的注意力权重。随后,根据视觉 token 的存在与否合并这两种注意力权重,通过 softmax 函数实现注意力的归一化,并最终通过基于注意力权重的线性映射更新表示,生成输出结果。这种创新使得多模态大语言模型能够更加关注视频的内容,尤其在复杂的视频场景中,能够有效地捕捉关键视觉元素,提升了文本生成的质量和相关性。

图 3

同时,该模型引入的序列化视觉投影器为视频中的时间序列分析提供了新的视角,它不仅能够处理当前视频帧,还能利用前一帧的信息,从而增强视频内容的连贯性和时序逻辑。

视觉投影器的作用是将视频特征映射到语言嵌入空间,以便大型语言模型融合和处理视觉与文本输入。如图 4 所示,早期的视觉投影器通常使用线性层或查询转换器(Q-Former)直接将帧特征转换为语言 token。然而,这些方法忽略了时间关系,限制了语言模型对视频的全面理解。Vista-LLaMA 中引入了序列化视觉投影器,它通过线性投影层编码视觉 token 的时间上下文,增强了模型对视频动态变化的理解能力,这对于提升视频内容分析的质量至关重要。

图 4

基准测试结果

Vista-LLaMA 在多个开放式视频问答基准测试中展现了卓越性能。它在 NExT-QA 和 MSRVTT-QA 测试中取得了突破性成绩,这两个测试是衡量视频理解和语言生成能力的关键标准。在零样本 NExT-QA 测试中,Vista-LLaMA 实现了 60.7% 的准确率。而在 MSRVTT-QA 测试中达到了 60.5% 的准确率,超过了目前所有的 SOTA 方法。这些成绩在行业中属于先进水平,显著超越了其他 SOTA 模型,如 Video-ChatGPT 和 MovieChat。

图 5

这些测试结果证明了 Vista-LLaMA 在视频内容理解和描述生成方面的高效性和精准性,Vista-LLaMA 能够准确理解和描述视频内容,显示了其强大的泛化能力。这些成绩不仅展示了 Vista-LLaMA 在理解复杂视频内容方面的能力,还证明了其在多模态语言处理领域的领先地位。

数据集:CineClipQA

图 6

与 Vista-LLaMA 一同提出的还有 CineClipQA 新数据集。

CineClipQA 包含了 153 个精选视频片段,这些片段来自五部风格和叙事手法各异的电影。每个片段代表电影情节的一个或多个独特部分,并附有 16 个量身定制的问题,共计 2448 个问题。问题分为系统提示和问题两部分:

  • 系统提示提供了当前视频片段中关键角色的基本信息,并在必要时为角色的初始行动提供提示。
  • 问题主要分为五类:识别、时间性(预测)、空间性(互动)、意图和感知。具体来说,识别包括地点和行动的问题;时间性涉及下一个行动、之前的行动、同时发生的行动和预测行动的问题;空间性涉及物体与人之间的空间信息问题;意图涉及行动目的地三种相似问题;最后,感知检查情感识别和询问 “如何”(方式、态度等)。

该研究还提供了所有 16 种类型的详细解释和相应案例。在 CineClipQA 数据集中,Vista-LLaMA 也表现出了卓越的性能。

图 7

简言之,Vista-LLaMA 在处理长视频内容方面的显著优势,为视频分析领域带来了新的解决框架,推动人工智能在视频处理和内容创作方面的发展,预示着未来多模态交互和自动化内容生成领域的广泛机遇。

更多详情,请访问项目页面 [https://jinxxian.github.io/Vista-LLaMA]。

关于字节跳动智能创作团队

智能创作团队是字节跳动音视频创新技术和业务中台,覆盖了计算机视觉、图形学、语音、拍摄编辑、特效、客户端、服务端工程等技术领域,借助字节跳动丰富的业务场景、基础设施资源和良好的技术协作氛围,实现了前沿算法 - 工程系统 - 产品全链路的闭环,旨在以多种形式向公司内部各业务线以及外部合作客户提供业界前沿的内容理解、内容创作、互动体验与消费的能力和行业解决方案。

目前,智能创作团队已通过字节跳动旗下的云服务平台火山引擎向企业开放技术能力和服务。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
硬刚俄罗斯800多天,乌克兰得到了十大结果:

硬刚俄罗斯800多天,乌克兰得到了十大结果:

现代春秋
2024-10-06 14:39:28
利润下降95.3%!2万亿芯片巨头宣布,外媒:中国不买了!

利润下降95.3%!2万亿芯片巨头宣布,外媒:中国不买了!

小蘑菇壹号
2024-10-06 14:32:50
4连胜进16强,147到手!赵心童双喜临门,今日冲冠,重返WST?

4连胜进16强,147到手!赵心童双喜临门,今日冲冠,重返WST?

刘姚尧的文字城堡
2024-10-06 06:59:40
中国发出警告:90天内不支付358亿赔偿金,18艘军舰就别想要了

中国发出警告:90天内不支付358亿赔偿金,18艘军舰就别想要了

星辰故事屋
2024-06-09 17:09:59
或赛季报销!西媒:皇马仍准备与卡瓦哈尔续约,计划未来几周谈判

或赛季报销!西媒:皇马仍准备与卡瓦哈尔续约,计划未来几周谈判

直播吧
2024-10-06 18:42:16
罗永浩发文吐槽:暂停时插入广告也就算了,还要同时自动最小化视频窗口

罗永浩发文吐槽:暂停时插入广告也就算了,还要同时自动最小化视频窗口

新浪财经
2024-10-05 17:24:06
马龙4-0梁靖崑晋级:决赛战林诗栋新老王牌对决 35岁老将冲第43冠

马龙4-0梁靖崑晋级:决赛战林诗栋新老王牌对决 35岁老将冲第43冠

颜小白的篮球梦
2024-10-05 19:57:08
我国的洲际导弹飞过他国上空,为什么没有一个国家敢拦截?

我国的洲际导弹飞过他国上空,为什么没有一个国家敢拦截?

青年针见
2024-10-06 07:25:13
一大国开价35亿,要求中国军队驻扎30年,这次我国没有拒绝

一大国开价35亿,要求中国军队驻扎30年,这次我国没有拒绝

寒山远殆
2024-05-09 11:37:10
“以色列陷入更大规模战争,正合他意”

“以色列陷入更大规模战争,正合他意”

观察者网
2024-10-06 15:48:03
收入增加到4倍!梅西帮助迈阿密国际赚了很多钱

收入增加到4倍!梅西帮助迈阿密国际赚了很多钱

星耀国际足坛
2024-10-06 11:02:12
年轻人的“小钢炮”!盲订15万起,海豹06 GT动力及续航超大众ID.3

年轻人的“小钢炮”!盲订15万起,海豹06 GT动力及续航超大众ID.3

车矩阵更懂车
2024-10-05 23:38:08
传奇车王的回归:舒马赫在女儿婚礼上的感人重现

传奇车王的回归:舒马赫在女儿婚礼上的感人重现

魏家东
2024-10-04 08:25:56
“网红猪鲤”疑撑死背后:游客热情投喂拦不住,全国多地已有鹿、熊等因投喂生病或死亡

“网红猪鲤”疑撑死背后:游客热情投喂拦不住,全国多地已有鹿、熊等因投喂生病或死亡

极目新闻
2024-10-05 15:59:48
伊朗32枚导弹撕开以色列防空系统,多层导弹拦截系统“破防”

伊朗32枚导弹撕开以色列防空系统,多层导弹拦截系统“破防”

红星新闻
2024-10-05 12:56:26
看谁还敢动!五国军舰过台海,遭遇“耻辱”待遇,解放军绝不惯着

看谁还敢动!五国军舰过台海,遭遇“耻辱”待遇,解放军绝不惯着

军武亮剑
2024-10-06 09:14:31
抗美援朝打的有多难?炒面每月消耗一千万斤,毛主席想出制胜办法

抗美援朝打的有多难?炒面每月消耗一千万斤,毛主席想出制胜办法

千丹历史
2024-10-06 02:46:22
曝光惠州铁锹扬沙驱赶游客的网友,账号遭到抖音封禁

曝光惠州铁锹扬沙驱赶游客的网友,账号遭到抖音封禁

映射生活的身影
2024-10-06 16:21:20
你无意间摸到过什么不该摸的?评论好尴尬,有些真会留下阴影!

你无意间摸到过什么不该摸的?评论好尴尬,有些真会留下阴影!

滑稽斑马呀
2024-08-01 12:04:22
北京一家游大连,晒同学家的家宴引热议,网友:饭店3000没这个好

北京一家游大连,晒同学家的家宴引热议,网友:饭店3000没这个好

神牛
2024-10-04 12:48:18
2024-10-06 19:20:49
机器之心Pro
机器之心Pro
专业的人工智能媒体
9519文章数 142033关注度
往期回顾 全部

科技要闻

大众CEO:欧盟应让中国车企投资 而非加关税

头条要闻

阳台外面建阳台 业主装修惹怒其他邻居:简直不可理喻

头条要闻

阳台外面建阳台 业主装修惹怒其他邻居:简直不可理喻

体育要闻

最生猛的世界杯冠军,不穿衣服爬雪山

娱乐要闻

易烊千玺、王俊凯、王源:王俊凯或需换新路线

财经要闻

股市彻底火了!小城“股民”国庆实探

汽车要闻

最高续航901km 岚图知音将于10月13日上市

态度原创

数码
手机
艺术
本地
游戏

数码要闻

联想拯救者新一代 Y700 平板通过 IMDA 认证,有望在海外发售

手机要闻

全行业都涨价了!网友希望iQOO 13维持上代原价

艺术要闻

故宫珍藏的墨迹《十七帖》,比拓本更精良,这才是地道的魏晋写法

本地新闻

云游中国|还有谁不知道 荆门人有属于自己的仙本那

玩家不满《直到黎明RE》情节修改:坏女人变好了?

无障碍浏览 进入关怀版