网易首页 > 网易号 > 正文 申请入驻

视频技能思维链:用领域自适应的技能链实现视频推理突破

0
分享至

北卡罗来纳大学教堂山分校的研究团队——Daeun Lee、Jaehong Yoon、Jaemin Cho和Mohit Bansal于2025年6月在arXiv上发表了一篇名为《VIDEO-SKILL-COT: Skill-based Chain-of-Thoughts for Domain-Adaptive Video Reasoning》的研究论文。这项研究提出了一种名为VIDEO-SKILL-COT(简称VIDEO-SKOT)的全新视频理解框架,有兴趣的读者可以通过研究团队的官方网站(https://video-skill-cot.github.io/)了解更多详情。

想象一下,如果你让一个人工智能系统观看一段电影片段,然后问它:"电影中的情绪基调是如何变化的?"或者看一段厨房视频后问:"冰箱离炉子最近吗?"——这些看似简单的问题,对AI系统来说却是巨大的挑战。虽然最近的AI模型在"思维链"(Chain-of-Thought,简称CoT)推理方面取得了不少进展,但它们往往在面对不同类型的视频内容时表现不一。

为什么会这样呢?研究人员发现,处理电影片段需要的推理技能(比如理解情节发展和角色情绪)与分析厨房视频需要的技能(如空间关系判断)完全不同。现有的模型通常使用通用的推理方法,无法针对特定领域的内容进行灵活调整。这就像让一个只懂足球规则的裁判去执法篮球比赛——规则完全不同,自然会手足无措。

北卡罗来纳大学教堂山分校的研究团队正是看到了这一问题,提出了VIDEO-SKILL-COT解决方案。这个框架就像是为AI配备了一套"百宝箱",里面装着各种专门的推理技能,让AI可以根据不同的视频内容和问题类型,灵活地调用最合适的技能进行推理。

一、技能化思维链标注:自动构建技能驱动的推理过程

VIDEO-SKILL-COT的第一个关键创新在于它如何构建技能化的思维链标注。传统方法通常使用固定的、通用的推理路径,就像给所有菜肴使用同一套烹饪步骤一样,无法适应不同菜系的特点。而VIDEO-SKILL-COT则为每个问题定制了专属的推理"食谱"。

这个过程可以分为两个主要步骤。首先,研究团队提取领域相关的推理技能。想象你在观看一部电影时,你可能会用到"从面部表情和肢体语言推断情绪状态"的技能;而在查看室内场景时,你可能需要"确定物体相对于人物的位置关系"的技能。研究团队使用大型语言模型从训练问题中提取出这些特定的技能描述,然后将它们聚类成一个共享的技能分类法。

举个例子,当系统面对"哪个物体离电脑主机最近?"这样的问题时,它首先识别出需要用到的技能可能包括"定位特定物体的位置"、"评估物体之间的空间接近度"和"使用视觉线索估计两个物体之间的距离"。

第二步是基于这些技能生成详细的多步骤思维链。系统会为每个视频-问题对生成一个条件化的推理过程,明确地反映所需的推理技能。比如,系统可能会先提出一个子问题:"洗碗机、洗衣机和冰箱在厨房中的位置在哪里?",回答:"炉子位于同一面墙上,在冰箱和洗衣机之间。"然后进一步提问:"哪个物体离炉子最近?"最终得出结论:"洗衣机离炉子最近。"

这种方法的优势在于它能生成多样化且领域相关的推理路径,而无需人工标注。就像一位经验丰富的导游,会根据游客的兴趣和目的地的特点,定制最合适的参观路线,而不是对所有游客使用同一套固定的行程。

二、技能专家学习:培养专业化的推理能力

有了技能化的思维链标注后,研究团队还需要一种方法来有效地训练模型掌握这些技能。这就是VIDEO-SKILL-COT的第二个创新——技能专家学习框架。

想象一个学校里有不同学科的专家教师,每位教师专注于自己擅长的领域。同样,VIDEO-SKILL-COT框架中,每个专家模块都专注于一套特定的推理技能,使用轻量级的适配器(LoRA)通过收集的思维链监督进行训练。

具体来说,系统首先将训练集中的所有问题投影到文本嵌入空间,并进行k-means聚类(设置k=5)。这些聚类中心代表问题组,而不是技能描述组。每个训练样本都被分配到最接近的问题组,然后系统使用相应的专家LoRA模块进行参数高效的训练,确保任务特定的适应,同时最小化技能之间的干扰。

在测试时,系统会为每个测试问题找到最接近的问题组,通过找到最接近的问题嵌入中心点来分配合适的专家。这就像学校的辅导系统,根据学生的问题类型,将他们分配给最合适的专业教师进行指导。

训练目标方面,系统同时最小化答案预测(Lanswer)和思维链生成(LCoT)的交叉熵损失,权重比例为1:0.5。这种平衡确保模型既能给出正确的答案,又能提供合理的推理过程。

三、实验验证:在多种视频理解任务中的出色表现

研究团队在三个具有不同领域的视频问答基准测试上评估了VIDEO-SKILL-COT的性能:E.T.-Bench(时间理解)、VSI-Bench(空间理解)和CinePile(电影叙事理解)。这些基准测试涵盖了各种视频理解任务,从判断物体之间的空间关系,到理解电影中的情感变化,再到识别视频中的时间事件顺序。

实验结果令人振奋。VIDEO-SKILL-COT在所有三个基准测试上都一致地优于强大的基线模型,包括mPLUG-Owl、Video-ChatGPT、Video-LLaMA2、LLaVA-OneVision和LLaVA-Video。具体来说,与经过微调的LLaVA-Video相比,VIDEO-SKILL-COT在E.T.-Bench上提高了4.10个百分点,在VSI-Bench上提高了5.70个百分点,在CinePile上提高了1.59个百分点。

这些结果突显了该框架在不同视频领域的适应能力。就像一个多才多艺的学习者,能够根据不同的学科调整自己的学习策略,VIDEO-SKILL-COT能够根据不同的视频内容和问题类型,灵活地调用最合适的推理技能。

四、深入分析:技能化思维链的优势

为了更好地理解VIDEO-SKILL-COT的优势,研究团队进行了详细的消融研究,比较了该框架的关键组件:技能化思维链和技能专家模块。结果表明,完整的模型(同时包含这两个组件)实现了最高的性能。移除任一组件——技能专家模块或技能化思维链——都会导致性能下降,突显它们的互补作用:技能化思维链启用结构化推理,而专家模块带来模块化的专业化。

研究团队还比较了常规思维链和技能化思维链的质量。以一个关于"哪个物体离炉子最近"的问题为例,常规思维链提供了一个线性的、基于场景的叙述,缺乏结构并包含不相关的细节("相机首先聚焦在...然后向右平移..."),这使得提取关键空间信息变得更加困难。相比之下,技能化思维链首先确定相关技能(如空间接近度),然后将任务分解为重点子问题,如比较洗衣机和冰箱哪个更接近炉子。

这种方法的优势在于它能够产生更有结构、更有针对性的推理过程,就像一个经验丰富的导游,不仅知道景点的位置,还能根据游客的兴趣和时间,规划最合适的参观路线,提供最相关的解说。

在推理过程的可视化中,研究人员还发现,使用技能化思维链训练的模型能够生成时间上更加精确的推理,有效支持准确的答案生成。这就像一个好的侦探,不仅能够找到正确的嫌疑人,还能提供清晰、合理的证据链条,解释为什么这个人是犯罪嫌疑人。

五、对比与创新:为什么VIDEO-SKILL-COT更胜一筹

与现有的视频理解方法相比,VIDEO-SKILL-COT在几个关键方面展现出了显著的创新。首先,虽然有许多研究利用CoT推理提高了复杂视频理解能力,但它们往往依赖固定的、通用的推理模板,无法适应不同领域的特定技能需求。就像用同一把钥匙开不同的锁一样,效果自然有限。

另一方面,专家和模块化架构虽然在多任务和多领域设置中被广泛探索,但现有方法通常依赖预定义的专家角色、特定的架构和手动策划的角色特定注释。这些方法缺乏灵活性,无法自动发现和利用相关的推理技能。

相比之下,VIDEO-SKILL-COT提供了一个更加灵活、自适应的框架,能够自动发现和利用与任何视频理解数据集相关的推理技能。这就像一个能够自学各种技能的学习者,不需要事先告诉他需要学习什么,他能够自己识别出需要的技能并有针对性地进行学习。

六、未来方向与潜在应用

尽管VIDEO-SKILL-COT展示了强大的视频推理能力,生成基于所需技能的细粒度、领域自适应的推理过程,但它仍有一些局限性。它可能偶尔会在文本输出中产生不准确或幻觉(即生成实际视频中不存在的内容)。此外,整体性能受到底层预训练模型的影响,包括使用的大型语言模型(LLM)和多模态大型语言模型(MLLM)。

未来的研究可以从几个方向进一步改进VIDEO-SKILL-COT。首先,可以探索更多种类的视频内容和问题类型,测试该框架的泛化能力。其次,可以研究如何减少模型在推理过程中的幻觉,提高推理的可靠性。最后,随着更强大的LLM和MLLM的出现,VIDEO-SKILL-COT也可以从这些进步中受益,进一步提高其性能。

在实际应用方面,VIDEO-SKILL-COT有着广阔的前景。它可以用于增强视频搜索系统,使用户能够询问更复杂、更具体的问题;也可以应用于视频监控分析,自动识别特定的事件或行为;还可以用于辅助视障人士理解视频内容,通过详细的口头描述帮助他们"看到"视频中发生的事情。

总的来说,VIDEO-SKILL-COT代表了视频理解领域的一个重要进步,为构建更智能、更适应性强的视频理解系统铺平了道路。通过自动构建和利用技能感知的思维链监督,它实现了领域自适应的视频推理,展示了在多种视频理解任务上的卓越性能。随着技术的不断发展,我们可以期待看到更多基于这一框架的创新应用,使人工智能系统更好地理解和解释各种类型的视频内容。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
台海方向深夜突发重大变化,凌晨时分沿海多地出现大规模兵力调动

台海方向深夜突发重大变化,凌晨时分沿海多地出现大规模兵力调动

小马姨
2026-07-02 16:22:49
知名女企业家郭恒华遭刑拘,因涉陈年“非吸”案被持续举报?有涉案人称去年已配合调查!她曾参与成立“巾帼系”,爆雷后全身而退

知名女企业家郭恒华遭刑拘,因涉陈年“非吸”案被持续举报?有涉案人称去年已配合调查!她曾参与成立“巾帼系”,爆雷后全身而退

每日经济新闻
2026-07-03 15:39:04
山姆被吐槽“双标”“吃相难看”!女子抢在涨价前买MacBook,结果被取消订单……消费者:山姆“砍单”不是第一次了

山姆被吐槽“双标”“吃相难看”!女子抢在涨价前买MacBook,结果被取消订单……消费者:山姆“砍单”不是第一次了

大风新闻
2026-07-03 20:49:04
一民警在办理淫秽表演案过程中,多次与涉案女子发生不正当性关系并收10万好处费,案件怎么判?

一民警在办理淫秽表演案过程中,多次与涉案女子发生不正当性关系并收10万好处费,案件怎么判?

法律内参
2026-07-04 01:03:43
55岁黄政民戒酒一年判若两人,网友:像年轻了10岁

55岁黄政民戒酒一年判若两人,网友:像年轻了10岁

小椰的奶奶
2026-07-03 18:13:41
全队痛哭!54万人口岛国站着死:逼疯阿根廷+踢平西班牙 将踢国足

全队痛哭!54万人口岛国站着死:逼疯阿根廷+踢平西班牙 将踢国足

风过乡
2026-07-04 09:11:43
恩佐:这场比赛可作为教训,我们知道不能再犯同样的错误

恩佐:这场比赛可作为教训,我们知道不能再犯同样的错误

懂球帝
2026-07-04 09:48:13
哈梅葬礼暗藏杀机?中俄高层出席不止吊唁,或能镇住美以斩首阴谋

哈梅葬礼暗藏杀机?中俄高层出席不止吊唁,或能镇住美以斩首阴谋

快看张同学
2026-07-04 09:51:49
“台独记者”范琪斐,狂黑大陆几十年,亲赴大陆后下场大快人心

“台独记者”范琪斐,狂黑大陆几十年,亲赴大陆后下场大快人心

阿郎娱乐
2026-07-04 06:22:27
输19分!媒体和球迷怒了,十问郭士强:为何总是迷恋你的老部下?

输19分!媒体和球迷怒了,十问郭士强:为何总是迷恋你的老部下?

南海浪花
2026-07-04 08:25:32
委屈得快哭了!澳大利亚119分钟换下开挂门将 替补门将点球大战0扑

委屈得快哭了!澳大利亚119分钟换下开挂门将 替补门将点球大战0扑

风过乡
2026-07-04 06:07:38
张本智和为何爆冷输球,没想到对手赛后这样说:我已经买好机票了

张本智和为何爆冷输球,没想到对手赛后这样说:我已经买好机票了

南海浪花
2026-07-04 12:28:08
拥抱球王!40岁佛得角门神哭了 封神之路:单场7扑+8扑 逼疯3冠军

拥抱球王!40岁佛得角门神哭了 封神之路:单场7扑+8扑 逼疯3冠军

念洲
2026-07-04 10:58:10
宜昌一女生高考582分,查分后立即给警察发了条短信

宜昌一女生高考582分,查分后立即给警察发了条短信

极目新闻
2026-07-04 11:13:50
赛格国际购物中心虚假破产案

赛格国际购物中心虚假破产案

林孙忠
2026-07-03 20:22:56
世界杯头号卧底!阿根廷 1.2 亿水货拖垮全队!卫冕冠军险被淘汰

世界杯头号卧底!阿根廷 1.2 亿水货拖垮全队!卫冕冠军险被淘汰

澜归序
2026-07-04 09:31:48
女子在洗浴店赤身吹头发时遭男顾客闯入,警方:系外地游客,因醉酒误入女浴室,未进行处罚,女顾客和店方已协商解决

女子在洗浴店赤身吹头发时遭男顾客闯入,警方:系外地游客,因醉酒误入女浴室,未进行处罚,女顾客和店方已协商解决

扬子晚报
2026-07-03 18:58:01
民调揭示惊人真相:美国民众自豪感跌至新低 认为经济会更萧条

民调揭示惊人真相:美国民众自豪感跌至新低 认为经济会更萧条

可达鸭面面观
2026-07-02 20:22:21
韩国男足前主教练洪明甫突然前往美国,此前曾遭死亡威胁,离开前对记者表示:“我有话要说”

韩国男足前主教练洪明甫突然前往美国,此前曾遭死亡威胁,离开前对记者表示:“我有话要说”

鲁中晨报
2026-07-04 12:03:20
莎头美国大满贯丢冠!孙颖莎低头沮丧,王楚钦安慰,对手开心庆祝

莎头美国大满贯丢冠!孙颖莎低头沮丧,王楚钦安慰,对手开心庆祝

篮球资讯达人
2026-07-04 13:21:07
2026-07-04 13:59:00
至顶科技 incentive-icons
至顶科技
科技产业媒体与 AI 产业服务机构
19861文章数 49713关注度
往期回顾 全部

科技要闻

韬定律论文V2版,充工程细节和实测数据

头条要闻

男子买"退休可月领50万"保险 交费30年后平台称录错了

头条要闻

男子买"退休可月领50万"保险 交费30年后平台称录错了

体育要闻

揭法国锋线最大优势 有人比姆巴佩还快?

娱乐要闻

最富女歌手霉霉完婚 在纽约设宴庆贺

财经要闻

韩国股市杠杆失控:450亿美元资金狂飙

汽车要闻

方程豹钛9内饰曝光 用上了长联屏设计/下半年上市

态度原创

本地
游戏
艺术
手机
公开课

本地新闻

国内足球之旅?这座小城给你高分答案

《GTA6》PS联动仅一周下架!停盘争议连累宣发?

艺术要闻

16位当代画家,23幅风景与人物作品

手机要闻

vivo X Fold6大家评,展开AI工作台,合上大屏旗舰

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版