网易首页 > 网易号 > 正文 申请入驻

年末惊喜!ByteDance Research视频理解大模型「眼镜猴」正式发布

0
分享至

机器之心发布

机器之心编辑部

最近,ByteDance Research 的视频理解大模型眼镜猴(Tarsier) 迎来了巨大更新,发布了第二代模型 Tarsier2 及相关技术报告。研究团队此前发布的 Tarsier-7B/34B 在视频描述领域已经是最强开源模型,仅次于闭源模型 Gemini-1.5-Pro 和 GPT-4o。那么这次新版 Tarsier2 又会带给我们什么样的惊喜呢?

直接上强度!来看看 Tarsier2 对下面这两个影视名场面的理解如何:

《燕子,没有你我怎么活》

《曹操盖饭》

可以看到,Tarsier2 不仅对于视频中人物动作捕捉得细致入微(如小岳岳追车、跪地,曹操盖饭、挥手),还可以充分结合视频中的字幕信息,从而进一步分析人物的动机 / 心理,理解人物关系和情节发展。

既然如此复杂的影视片段能够分析清楚,Tarsier 最擅长的视频描述任务自然也不在话下:

Tarsier2 视频描述效果合集

无论是真人还是动画、横屏还是竖屏、多场景还是多镜头,Tarsier2 总是能敏锐地捕捉视频中的核心视觉元素动态事件,使用简练的语言表述出来,并且很少产生幻觉。这么看来,Tarsier2 已经可以和 GPT-4o 扳一扳手腕了。

“火眼金睛” 是怎么炼成的?

Tarsier2 是一个 7B 大小的轻量级模型,支持动态分辨率,能够看得懂长达几十分钟的视频,尤其擅长对几十秒的短视频片段进行分析。研究团队公开了详尽的技术报告,相关数据、代码和模型也在持续开源中:

  • 论文地址:https://arxiv.org/abs/2501.07888
  • 项目仓库:https://github.com/bytedance/tarsier
  • HuggingFace:https://huggingface.co/omni-research

Tarsier2 强大的视频理解能力主要得益于预训练后训练两个阶段的精益求精

预训练

Tarsier2 在 4000 万个互联网视频 - 文本数据上进行预训练。不同于文本模型只需要互联网上的单语语料就可训练,视频理解模型严重依赖高质量的视频 - 文本对齐数据。因此,如何大规模地获取对齐数据是模型训练的最大难点。团队主要通过以下两个途径来解决:

  • 数据收集方面:Tarsier2 海量收集互联网上的视频 - 文本数据。这些数据分布广泛,涵盖电影、电视剧、短视频等各种来源,涉及人机交互、自动驾驶等多个领域。值得一提的是,Tarsier2 筛选了一大批影视剧解说的视频。这些视频不仅能够帮助模型学会简单的动作、事件,还能辅助模型理解更高层次的情节信息。
  • 数据筛选方面:Tarsier2 设计了一套严谨的流程,来筛选高质量训练数据。每条数据都会经历 “分镜 → 过滤 → 合并” 3 个阶段。“分镜” 阶段,视频会被切分成多个单一镜头片段;“过滤” 阶段针对不同的数据使用不同的模型过滤低质数据,如过滤掉动态性太差的、文本和画面无关的等;“合并” 阶段再将剩下的相邻的视频片段合在一起,增加视频的复杂度。

后训练

后训练分为 SFT 和 DPO 两个阶段。

SFT:这一阶段,模型在人工标注的视频描述数据上进行训练。这个阶段的描述数据也是大有讲究。Tarsier2 提出在视频描述中引入针对每个子事件的具体定位信息(即明确每个事件源自哪些帧),以强化模型对时序信息与视觉特征的关注度,增强文本与视觉信号的对齐。

SFT数据样例

DPO:这一阶段,模型在自动化构造的正负样本上进行 DPO 训练。其中,正样来源于模型对原始视频的预测结果;负样本来源于模型对经过预先设计的随机扰动的视频的预测结果。这种直观高效的构造方式使得模型能够在描述视频时,“又准确又全面”,减少描述中存在的幻觉。

是骡子是马,牵出来溜溜!

俗话说,“光说不练假把式”,Tarsier2 在多达19个视频理解公开基准上进行了性能测试,和最新最强的10+个开源模型(Qwen2-VL、InternVL2.5、LLaVA-Video 等)以及闭源模型(Gemini-1.5, GPT-4o)来了场 “硬碰硬”。

Tarsier2 在包括视频描述、短 / 长视频问答在内的通用视频理解任务上表现亮眼。在视频描述评测集 DREAM-1K 上,Tarsier2 相比 GPT-4o 提升 +2.8%,相比 Gemini-1.5-Pro 提升 +5.8%;在人工评估中,Tarsier2-7b 相比 GPT-4o 优势占比 +7.8%,相比 Gemini-1.5-Pro 优势占比 +12.3%。

视频描述质量人工评估结果

此外,Tarsier2 更是在10+个视频理解公开榜单上,超越了 Qwen2-VL-7B、InternVL2.5-8B 等同规模的模型,取得了 SOTA 成绩:

Tarsier2在广泛的视频理解任务上树立了新的标杆

除了胜任各种通用视频理解任务,Tarsier2 作为基座模型在机器人、智能驾驶等下游任务场景中也展现出了极强的泛化能力。在机器人领域,Tarsier2 能为指定的任务生成详细的步骤指令。在智能驾驶方面,Tarsier2 也能够帮助车辆识别道路情况,并辅助进行决策。

机器人场景。

智能驾驶场景。

向更强的智能进发

Tarsier 在生成详细且准确的视频描述方面超越了现有的闭源和开源工作,更是在广泛的视频理解任务中树立了新的标杆。文本、语音、图片、视频多模态深度融合是当下人工智能发展的核心趋势与关键方向,Tarsier2 在这条道路上已经迈出了坚实的步伐。期待未来 Tarsier2 能在多模态融合的浪潮中持续领航,为人工智能的发展带来更多惊喜与突破 。

文中视频链接:https://mp.weixin.qq.com/s/tVr-QidbmA9AudaXaNOKgA?token=2138370828&lang=zh_CN

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
立陶宛请求访华,要当面向中方认错?中方开出条件,做不到就免谈

立陶宛请求访华,要当面向中方认错?中方开出条件,做不到就免谈

掉了颗大白兔糖
2026-03-26 07:31:17
扫地僧不去干预,乔峰父子打得过慕容博、慕容复、鸠摩智三人吗?

扫地僧不去干预,乔峰父子打得过慕容博、慕容复、鸠摩智三人吗?

武侠百晓生
2026-03-26 10:50:32
中东战场外的大赢家:俄罗斯拿下越南核电和液化天然气大单

中东战场外的大赢家:俄罗斯拿下越南核电和液化天然气大单

澎湃新闻
2026-03-25 19:52:29
1 胜 180 负! 加时领先 13 分 被逆转,火箭耻辱创史!

1 胜 180 负! 加时领先 13 分 被逆转,火箭耻辱创史!

贵圈真乱
2026-03-26 17:33:49
岳云鹏现身上海,气场跟以前完全不一样了,助理当街抽烟也不避讳

岳云鹏现身上海,气场跟以前完全不一样了,助理当街抽烟也不避讳

仙味少女心
2026-03-24 16:47:29
服务犬第一次坐飞机,不忘叼着自己的阿布布,全程乖巧像小玩偶

服务犬第一次坐飞机,不忘叼着自己的阿布布,全程乖巧像小玩偶

Magic宠物社
2026-03-25 19:11:59
特变电工:公司输变电产线基本处于满负荷生产状态,公司变压器、电线电缆、电抗器等输变电产品在手订单饱满

特变电工:公司输变电产线基本处于满负荷生产状态,公司变压器、电线电缆、电抗器等输变电产品在手订单饱满

每日经济新闻
2026-03-26 19:25:48
金刻羽给特朗普献计:现有政策全部反过来,就能锁住中国发展

金刻羽给特朗普献计:现有政策全部反过来,就能锁住中国发展

福建平子
2026-03-21 09:14:00
第一名帅!执教18年获40冠,瓜迪奥拉甩开穆里尼奥,有望超弗格森

第一名帅!执教18年获40冠,瓜迪奥拉甩开穆里尼奥,有望超弗格森

夏侯看英超
2026-03-24 00:07:54
“尼帕病毒”来势汹汹,建议:每家备好6样东西,关键时刻能救命

“尼帕病毒”来势汹汹,建议:每家备好6样东西,关键时刻能救命

路医生健康科普
2026-01-28 12:18:49
U23国足2-2逼平泰国,名宿范志毅赛后点评言辞犀利,句句在理!

U23国足2-2逼平泰国,名宿范志毅赛后点评言辞犀利,句句在理!

田先生篮球
2026-03-25 22:37:26
A股:两个信息落地,明天,周五或会这样走了!

A股:两个信息落地,明天,周五或会这样走了!

明心
2026-03-26 16:35:30
微软前CTO长文控诉:Windows被搞成一锅粥!14年14次转变、17种GUI共存

微软前CTO长文控诉:Windows被搞成一锅粥!14年14次转变、17种GUI共存

快科技
2026-03-25 15:13:32
伊朗导弹砸向美国航母:伊朗打出了开战以来最强一拳

伊朗导弹砸向美国航母:伊朗打出了开战以来最强一拳

起喜电影
2026-03-26 14:20:32
法媒:“伊朗战争的首个受害者是真相”

法媒:“伊朗战争的首个受害者是真相”

参考消息
2026-03-26 13:30:07
“以前每桶省20美元,现在一分折扣没有” 油价“破百”下的山东地炼产业现状深度调查

“以前每桶省20美元,现在一分折扣没有” 油价“破百”下的山东地炼产业现状深度调查

每日经济新闻
2026-03-26 13:14:14
苹果把降噪塞了1.5倍,价格却忘了改

苹果把降噪塞了1.5倍,价格却忘了改

硬核玩家2哈
2026-03-25 22:01:40
再也不愁充电难了!成都将充电桩装在路灯上:600多个点位4月底投用

再也不愁充电难了!成都将充电桩装在路灯上:600多个点位4月底投用

快科技
2026-03-26 16:20:10
腿部是心梗的提示器?提醒:若腿部出现这4种表现,尽快就医

腿部是心梗的提示器?提醒:若腿部出现这4种表现,尽快就医

路医生健康科普
2026-03-16 22:10:03
特朗普战争致共和党优势尽失,民主党胜率达85%

特朗普战争致共和党优势尽失,民主党胜率达85%

揽星辰入梦
2026-03-26 18:51:00
2026-03-26 20:04:49
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12606文章数 142594关注度
往期回顾 全部

科技要闻

Meta高管狂分百亿期权,700名员工却下岗

头条要闻

张雪峰留巨额遗产:二婚妻子或拿50% 剩下的女儿占1/3

头条要闻

张雪峰留巨额遗产:二婚妻子或拿50% 剩下的女儿占1/3

体育要闻

申京努力了,然而杜兰特啊

娱乐要闻

刘晓庆妹妹发声!称姐姐受身边人挑拨

财经要闻

油价"驯服"特朗普?一到100美元就TACO

汽车要闻

一汽奥迪A6L e-tron开启预售 CLTC最大续航815km

态度原创

房产
时尚
本地
家居
公开课

房产要闻

突发,三亚又有大批征迁补偿方案出炉!

皮衣+裙,高级到炸

本地新闻

救命,这只酱板鸭已经在我手机复仇了一万遍

家居要闻

傍海而居 静观蝴蝶海

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版