网易首页 > 网易号 > 正文 申请入驻

连看好莱坞大片都学会了!贾佳亚团队用2token让大模型卷出新境界

0
分享至

家人们谁懂,连大模型都学会看好莱坞大片了,播放过亿的GTA6预告片大模型还看得津津有味,实在太卷了!

而让LLM卷出新境界的办法简单到只有2token——将每一帧编码成2个词即可搞定。等等!这种大道至简的方法有种莫名的熟悉感。不错,又是出自香港中文大学贾佳亚团队。

这是贾佳亚团队自8月提出主攻推理分割的LISA多模态大模型、10月发布的70B参数长文本开源大语言模型LongAlpaca和超长文本扩展术LongLoRA后的又一次重磅技术更新。而LongLoRA只需两行代码便可将7B模型的文本长度拓展到100k tokens,70B模型的文本长度拓展到32k tokens的成绩收获了无数好评。

这次,贾佳亚团队的新作多模态大模型LLaMA-VID,可支持单图、短视频甚至长达3小时电影的输入处理。须知当前,包括GPT-4V在内的多模态模型 [1,2,3]基本只能支持图像输入,面对实际场景中对多图像长视频的处理需求支持十分有限,面对几十分钟甚至几个小时的长视频更显无能为力。

可以说,LLaMA-VID的出现填补了大语言模型在长视频领域的空白。


电影搭子LLaMA-VID的一手体验

先拿最近爆火的GTA6预告片试试手感。


LLaMA-VID能够准确理解预告片里出现的场景,并能分析预告片中游戏吸引人的地方在于广泛的活动场景和惊艳的视觉效果。

而根据游戏中的场景和特征,LLaMA-VID还能推测出预告片是Rockstar公司游戏GTA6的推广,并说出游戏的背景城市为迈阿密。

针对网络上流行的短视频和图片,LLaMA-VID也不在话下。


LLaMA-VID能够分析短视频中知名表情包的笑点,因为视频中人物夸张的表情以及对周围人物的情绪感染不断加深并强化。


也能扮演“福尔摩斯”,像侦探来根据室内的环境分析人物性格。

接下来,LLaMA-VID将通过看经典电影来展示自己的看家本领。首先是励志、温情的《阿甘正传》:


可以看出,LLaMA-VID对角色的理解与分析十分准确。

如珍妮对于阿甘的意义(孩童时期的朋友,后来成为阿甘的妻子,是阿甘生活和心灵的慰藉);阿甘在战争及退伍后的事件分析(丹中尉责怪阿甘救了自己,无法战死沙场),并对接见阿甘的美国总统如数家珍(肯尼迪、约翰逊、尼克松分别因为全美橄榄球运动员、越战荣誉勋章、和全美乒乓球队接见阿甘)。

这一次直接挑战超长视频,让LLaMA-VID看一部近3小时的、刺激的科幻大片《星际穿越》,并与其进行对话。


可以看出,LLaMA-VID不仅能结合电影情节和人物轻松对电影进行点评,而且能很精准地回答出剧中所涉的细节。

例如,虫洞的作用和创造者是谁(未来的智慧生物放置在土星附近,用于帮助人类进行远距离星际穿越),男主库珀是如何将黑洞中的信息传递给女儿墨菲(通过手表以摩斯密码的方式传递数据),以及米勒星球上相对地球时间的快慢及原因(米勒星球由于在黑洞附近,导致1小时相当于地球7年)。

不得不说,这个电影搭子实在太强大了,又狠话又多那种!

16个图片视频量化指标直接Promax

见识过电影搭子的超能力后,不妨来看看贾佳亚团队是如何开发LLaMA-VID的。

要知道,当前的多模态模型无法处理长视频的主要原因在于传统多模态大模型对单张图片的编码token数量过多,导致在视频时间加长后所需要的token数急剧增加,使模型难以承受。

以当前多模态大模型的技术标杆GPT-4V为例。由于每张图像都需要过多的Token进行编码,GPT-4V很难将所有的视频帧全部送入大模型。例如对于GTA6预告片(1分30秒)的输入,GPT-4V采用抽取5帧的策略进行逐帧分析:



这不仅会使用户对视频内容无法获得直观的理解,并难以处理更长的视频输入。

如果让GPT-4V对视频进行统一分析,则会出现报错并无法处理:


为解决这个问题,贾佳亚团队重新设计了图像的编码方式,采用上下文编码 (Context Token) 和图像内容编码 (Content Token) 来对视频中的单帧进行编码,从而将视频中的每一帧用2个Token来表示。

其中,上下文编码根据用户输入的问题生成,从而保证了在极限压缩视频消耗的同时,能尽可能保留和用户问题相关的视觉特征。而图像内容编码则更加关注图像本身的内容信息,来对上下文编码未关注到的环境进行补充。

简单来说,对于上下文编码 (Context Token),LLaMA-VID利用文本解码器(Text Decoder)根据用户的输入和图像编码器(Visual Encoder)提取的特征来生成输入指令相关的跨模态索引(Text Query),并使用所生成的索引对图像编码器生成的特征利用注意力机制(Context Attention)进行特征采样和组合,从而生成高质量的指令相关特征。

而对于图像内容编码 (Content Token) ,LLaMA-VID直接根据用户需求对图像特征进行池化采样。这对于单张图片或短视频,可保留绝大多数的图像特征从而提升细节理解,而面对几个小时的长视频时,则可将每帧的图像特征压缩成2个Token。

用这种方式,LLaMA-VID可以将3个小时的电影或视频精简为数个Token,直接使用大语言模型进行理解和交互。


这种Token生成方法非常简洁,仅需几行代码即可实现高效的生成。


此外,LLaMA-VID还收集了400部电影并生成9K条长视频问答语料,包含电影影评、人物成长及情节推理等。结合之前贾佳亚团队所发布的长文本数据集LongAlpaca-12k(9k条长文本问答语料对、3k短文本问答语料对), 可轻松将现有多模态模型拓展来支持长视频输入。


在16个视频、图片理解及推理数据集上实现了promax的效果

与现有方法相比,LLaMA-VID所提出的创新之处在于,仅用2个Token来处理视频中的图片即已大幅超越以往的模型,在MSVD-QA,MSRVTT-QA,ActivityNet-QA等多个视频问答和推理的榜单上实现了SOTA。而随着语言模型的增大,效果还能进一步增强。



而面对现有的多模态模型如LLaVA-1.5,LLaMA-VID仅需加入1个所提出的上下文编码 (Context Token)拓展,能在GQA、MMBench、MME、SEED等8个图片问答指标上获得显著的提升:


值得一提的是,LLaMA-VID的视频理解和推理能力已经出了Demo,可以在线跟电影对话的那种。


操作也极其简单,只需选择电影海报和对应的电影段,即可直接和电影交流(部署在单块3090,需要的小伙伴可以参考code用更大的显存部署,直接和整个电影对话)。

同时也支持用户上传短视频进行互动。


如果对描述指令有疑惑的,Demo也给出了一些示例,感兴趣的小伙伴们不妨来pick一下这个电影搭子。

Github地址:https://github.com/dvlab-research/LLaMA-VID

Demo地址: http://103.170.5.190:7864/

论文地址:https://arxiv.org/abs/2311.17043

参考文献

[1] Hang Zhang, Xin Li, and Lidong Bing. Video-llama: An instruction-tuned audio-visual language model for video understanding. arXiv:2306.02858, 2023.

[2] KunChang Li, Yinan He, Yi Wang, Yizhuo Li, Wenhai Wang, Ping Luo, Yali Wang, Limin Wang, and Yu Qiao. Videochat: Chat-centric video understanding. arXiv:2305.06355, 2023.

[3] Muhammad Maaz, Hanoona Rasheed, Salman Khan, and Fahad Shahbaz Khan. Video-chatgpt: Towards detailed video understanding via large vision and language models. arXiv:2306.05424, 2023.

雷峰网

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
老人给美国纳税50年,快退休时才得知:你不是美国人,没退休金了!....啊?

老人给美国纳税50年,快退休时才得知:你不是美国人,没退休金了!....啊?

英国那些事儿
2024-05-16 23:04:33
男生宿舍考公“入戏太深”,清一色的行政夹克,校长:比我还有派

男生宿舍考公“入戏太深”,清一色的行政夹克,校长:比我还有派

熙熙说教
2024-05-16 17:25:18
说一说你认识的军嫂思想境界有多高?网友完事,她几天走不了路

说一说你认识的军嫂思想境界有多高?网友完事,她几天走不了路

美好生活水平号
2024-05-16 02:35:05
美债违约最后期限将至,拜登突然放出风声,称中美关系会很快缓和

美债违约最后期限将至,拜登突然放出风声,称中美关系会很快缓和

泄矢羽沫
2024-05-17 13:52:51
林志玲家中发生大事!被送往医院急救,台媒曝光

林志玲家中发生大事!被送往医院急救,台媒曝光

阿芒娱乐说
2024-05-17 20:18:42
我弟弟,91年四川人,3月大被4蓄谋已久的歹徒断电推墙入室抢走

我弟弟,91年四川人,3月大被4蓄谋已久的歹徒断电推墙入室抢走

真实人物采访
2024-05-17 06:05:02
真的顶级!极品大长腿,完美腰臀!

真的顶级!极品大长腿,完美腰臀!

记录平远
2024-05-07 00:00:37
上海今天晴到多云最高29℃ 周日多云

上海今天晴到多云最高29℃ 周日多云

新民晚报
2024-05-18 07:12:12
2018年,那个检举男友一家贪腐的女子,两年后,自己也被判刑3年

2018年,那个检举男友一家贪腐的女子,两年后,自己也被判刑3年

可乐86
2024-05-16 09:12:38
他是国军中将俘虏,抗美援朝连提2招对付美军,毛主席:提前特赦

他是国军中将俘虏,抗美援朝连提2招对付美军,毛主席:提前特赦

猫眼观史
2024-05-16 17:20:40
谁带我游泳啊,183就行

谁带我游泳啊,183就行

今日搞笑分享
2024-05-17 23:25:48
大逆转!紫薇力擒德约终结者晋级决赛,冲击大师赛第6冠

大逆转!紫薇力擒德约终结者晋级决赛,冲击大师赛第6冠

大秦壁虎白话体育
2024-05-18 00:23:33
穷人放纵多巴胺,富人追逐内啡肽:穷人和富人的差距就在这3点

穷人放纵多巴胺,富人追逐内啡肽:穷人和富人的差距就在这3点

第一桶金学派
2024-05-15 20:47:15
为什么在高知家庭中,特殊儿童出现的频率较偏高?网友回复泪目了

为什么在高知家庭中,特殊儿童出现的频率较偏高?网友回复泪目了

阿燕姐说育儿
2024-05-17 21:26:29
法拉第未来近一周涨幅近100倍

法拉第未来近一周涨幅近100倍

财联社
2024-05-18 01:30:16
汪峰新女友和前夫昔日合照曝光,大量私人生活照公开

汪峰新女友和前夫昔日合照曝光,大量私人生活照公开

素素娱乐
2024-05-15 09:35:50
中国女排1-3加拿大:被扣11.01分,世界排名下滑到第七

中国女排1-3加拿大:被扣11.01分,世界排名下滑到第七

乒烧足篮排
2024-05-18 06:37:22
是否会给儿子取名为勒布朗-詹姆斯三世?布朗尼:绝对不会

是否会给儿子取名为勒布朗-詹姆斯三世?布朗尼:绝对不会

直播吧
2024-05-18 07:09:20
政府收储商品房并非化解房地产危机好方案,可能引发严重的后果

政府收储商品房并非化解房地产危机好方案,可能引发严重的后果

火星宏观
2024-05-17 06:00:02
大理:鼓励收购存量房作为保障房或人才房,去化周期超24个月的县市不再新建保障房

大理:鼓励收购存量房作为保障房或人才房,去化周期超24个月的县市不再新建保障房

澎湃新闻
2024-05-16 13:12:33
2024-05-18 07:50:44
雷峰网
雷峰网
关注智能与未来!
64078文章数 655110关注度
往期回顾 全部

科技要闻

京东拼增长,大力出奇迹

头条要闻

普京访问哈尔滨工业大学:学校历史悠久、实力雄厚

头条要闻

普京访问哈尔滨工业大学:学校历史悠久、实力雄厚

体育要闻

中超疯狂星期五!5场28球,单场5球起步

娱乐要闻

《庆余年2》首播口碑出炉!有好有坏

财经要闻

重磅!楼市王炸来了 多部门出手救楼市

汽车要闻

内饰与配置全新升级 全新途观L PRO将于5月30日上市

态度原创

房产
健康
教育
时尚
本地

房产要闻

19.1亿,三亚挂出超级教育+宅地!要建国际学校,这个板块价值又要涨!

在中国,到底哪些人在吃“伟哥”?

教育要闻

法国小学招生不够,绵羊来凑

为什么劝中老年女人少穿旗袍?看完卖家秀VS买家秀对比,你就懂了

本地新闻

2024年"519中国旅游日"活动线上启动仪式

无障碍浏览 进入关怀版