教学视频指导学习者如何完成多步骤任务,例如烹饪、化妆和刺绣、修理或制作新物品。如图1所示,目前的教学视频数据集大多关注于细粒度标注,缺乏系统性,导致初学者难以学习。在现实生活中,从属相同任务的教学视频之间大多存在很高的流程相似度,因此该工作提出了GUIDE(指南引导)数据集,在现有视频维度之上提出教学任务维度上的大纲步骤。数据集包含日常生活相关的8个领域中560个教学任务的3.5K条视频。此外,该工作提出了三个任务(Step Captioning,Guideline Summarization,Guideline-Guided Captioning)评估了多个模型的教学视频理解能力,实验结果表明GUIDE能够帮助大模型提升教学视频(程序性内容)理解能力。目前该工作已被IJCAI 2024接收。
论文名称: GUIDE: A Guideline-Guided Dataset for Instructional Video Comprehension 论文链接: https://arxiv.org/abs/2406.18227 项目主页: https://guide-ijcai2024.github.io
图1:GUIDE数据集与以往数据集优势
一、数据集介绍
GUIDE包含的视频来源于快手视频库。如图2所示,GUIDE包含三类标注:
560个Task query:query代表一个教学任务查询,每个query平均包含6.2个相同教学任务视频。
15K个详细步骤(Specific Steps):平均每个视频包含4.3个详细步骤,并带有相应的步骤时间戳。
560组大纲步骤(guideline steps):每个教学任务包含一组代表任务通用模式的的教学大纲。此外每个大纲步骤链接一个或多个详细步骤。
图2:GUIDE数据集概览
该工作提出了一个三阶段数据集构建流程,收集高质量的标注。三阶段包括:
视频收集(人工):从日常生活中最常见的8个领域中收集了大量的不同教学任务的视频,要求视频必须包含明确指导步骤且步骤间存在清晰定义时间边界。
自动标注(自动):如图3所示,自动标注框架包含两个阶段:详细步骤生成和大纲步骤生成,该阶段根据视频字幕自动标注详细步骤和大纲步骤。
人工优化(人工):由每个领域专家调整大纲步骤,另外要求标注者观看视频并重新优化上一阶段自动生成的详细步骤,并标注步骤在视频中发生的时间戳。
图3:GUIDE自动标注流程
二、任务介绍
2.1 Step Captioning
该任务旨在评估模型理解单个教学视频中程序性内容的能力。输入一个视频,输出视频中的详细步骤。
2.2 Guideline Summarization
该任务旨在评估模型分析视频之间相关性的能力。输入多个从属于相同任务的视频(例如:制作巧克力慕斯),输出该任务的大纲步骤。
2.3 Guideline-Guided Captioning
该任务旨在评估模型在大纲引导下理解单个教学视频中程序性内容的能力。输入一个视频和该视频从属的大纲步骤,输出视频中的详细步骤。
三、实验
该工作测试了VideoChat、Video-LLaMA和mPLUG-Owl三个视频基础模型(VLM),以及GPT-3.5-turbo、GPT-4、Vicuna和Flan-T5四个语言模型(LLM)。对于VLM,仅将视频作为输入,而对于LLM,将视频转录文本作为输入。
如表1所示,通过观察Step Captioning任务测试结果,现有VLM在VSC(给定步骤对应的视频片段,生成步骤文本描述)上表现出比EVC(给定整个视频,生成一组步骤文本描述)更好的性能,这表明虽然模型可以理解特定步骤,但很难理解整个教学过程。
通过观察Guideline Summarization测试结果,可以看出现有基础模型很难挖掘多个教学视频之间的相关性。通过观察Guideline-Guided Captioning任务测试结果,可以发现模型的测试结果明显优于Step Captioning任务,可以证明大纲步骤指导详细步骤生成的有效性。
表1:在三个任务上的测试结果
此外,分别使用标注的大纲步骤和预测的大纲步骤来分别指导详细步骤的生成。结果如表2所示,可以看出大纲步骤的准确性直接影响详细步骤的生成效果。
表2:使用标注的大纲步骤和预测步骤的大纲来指导详细步骤的生成结果
作者:哈工大SCIR 来源:公众号【赛尔实验室】
llustration From IconScout By WOOBRO LTD
-The End-
扫码观看!
本周上新!
“AI技术流”原创投稿计划
TechBeat是由将门创投建立的AI学习社区(
www.techbeat.net) 。 社区上线500+期talk视频,3000+篇技术干货文章,方向覆盖CV/NLP/ML/Robotis等;每月定期举办顶会及其他线上交流活动,不定期举办技术人线下聚会交流活动。我们正在努力成为AI人才喜爱的高质量、知识型交流平台,希望为AI人才打造更专业的服务和体验,加速并陪伴其成长。
投稿内容
// 最新技术解读/系统性知识分享 //
// 前沿资讯解说/心得经历讲述 //
投稿须知
稿件需要为原创文章,并标明作者信息。
我们会选择部分在深度技术解析及科研心得方向,对用户启发更大的文章,做原创性内容奖励
投稿方式
发送邮件到
chenhongyuan@thejiangmen.com
或添加工作人员微信(chemn493)投稿,沟通投稿详情;还可以关注“将门创投”公众号,后台回复“投稿”二字,获得投稿说明。
关于我“门”
将门是一家以专注于数智核心科技领域的新型创投机构,也是北京市标杆型孵化器。 公司致力于通过连接技术与商业,发掘和培育具有全球影响力的科技创新企业,推动企业创新发展与产业升级。
将门成立于2015年底,创始团队由微软创投在中国的创始团队原班人马构建而成,曾为微软优选和深度孵化了126家创新的技术型创业公司。
如果您是技术领域的初创企业,不仅想获得投资,还希望获得一系列持续性、有价值的投后服务,欢迎发送或者推荐项目给我“门”:
bp@thejiangmen.com
点击右上角,把文章分享到朋友圈
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.