AI研习丨基于结构化视觉语义分析的场景理解研究|算法|哈希|模态|视频生成模型

分享至

文/ 齐梦实

摘要：

针对图像和视频中的场景理解问题，以结构化的视觉语义分析为中心展开研究，通过研究场景图像中多语义标签之间的关系，建立场景语义图模型；通过研究通用场景图像理解问题，并将场景图模型在跨模态多媒体检索、视觉数据自然语言描述和视频行为理解等多个特定问题中进行了应用，提出了新的研究思路和解决方法。本文简要介绍以上研究所取得的一系列代表性成果。

关键词：

语义图；场景理解；语义解析；场景图生成；群体行为识别；视频分析

0 引言

人类拥有多种从外界获得信息的途径，其中一般认为视觉信息是人脑最主要的信息来源，而研究和理解视觉信息也是进入人工智能前沿技术的窗口。生物学理论认为，人类具有快速而准确识别复杂场景图像的能力，这种能力可以帮助人类面对自身所处的环境进行形势的判断和方向的定位，是人类智能的重要体现。因此，计算机视觉中的场景理解旨在模仿人类的这种识别能力，设计高效的计算机算法来自动分析输入的图像和视频。

目前，实现准确高效的场景识别仅提取图像的低级视觉特征远远不够，还需要向高级场景语义信息理解扩展。尽管目前已有国内外研究者提出了大量相关方法，希望能够从高层次理解场景图像，但是巨大的“语义鸿沟”问题，使得复杂场景理解变得非常困难。因此我们提出了“场景深度语义理解”的研究思路，认为场景识别与理解的本质是“视觉语义理解与功能推理”，研究如何分析场景高层语义信息，将图像数据中所蕴含的多层次语义信息融为一体，以实现整体场景理解为最终目标。

1 主要研究成果

如图1所示，近年来以基于结构化视觉语义分析的场景理解作为研究方向，通过构建和生成场景图像语义图，将图像中各目标及其语义关系通过图结构建模，以此解决通用问题，实现场景图像语义理解（即研究成果一）；进一步可以通过这种语义图模型在不同特定计算机视觉问题中进行有效应用，如将得到的语义图作为多模态数据间的桥梁，实现跨模态数据检索（即研究成果二），以及视觉数据自然语言描述（即研究成果三）；还可以进一步增加时序关系，可针对视频构建时空语义图进行行为分析（即研究成果四）。

下面对所取得的各项主要研究成果进行简要介绍。

成果一场景图像语义理解

场景语义图生成是指将一张图像自动映射为一个结构化的语义图模型，该任务不仅需要正确识别图像中每个物体的类别和位置，还需要检测出不同物体之间的交互关系。场景语义图中，每个节点表示当前图像中的一个物体目标，节点之间的边表示两个物体目标间的语义关系，节点和边连接成图来表征整张图像的语义内容。

如图 2 所示，我们提出了一个注意力关系网络模型，用来将图像映射为场景语义图，将图像信息转化为语义图结构表达。具体而言，所提方法首先通过目标检测模块提取图像中的每个目标实体和实体间语义关系 ( 该关系通过一个覆盖两个相关物体的联合边界框来表征 )，输出对应的位置和类别的检测概率分数。该模块改进了传统目标检测模型，充分考虑了目标边界框之间的上下文环境信息，结合不同目标的外观和地理位置关系，进而确定目标物体的类别和位置坐标信息。接着，为了全方位理解视觉语义关系，提出一个新的语义关系转换模块，将视觉信息与语义信息相结合，根据数据集中的逻辑关系和自然语言学知识，用图像中的目标实体和其语义关系的视觉特征连同相应的自然语言特征，同步映射到一个公共语义空间，使得模型能在同一维度空间中提取判断语义关系所必需的特征信息。

此外还提出了一个图自注意力模块，进一步挖掘图像目标之间的相关性，通过衡量每个节点与邻接节点的关系，赋予节点不同的注意力权重系数，对有较大可能存在逻辑语义关系的两个物体之间赋予较高权重，以提升语义关系检测的正确率，并可对场景图像联合生成一个全局适应性图表达，包含加权之后的节点特征和边信息。最后，采用多层感知器来构建关系推理模块，通过将不同目标特征与得到的全局适应性图表达连接，可对每个目标实体和其语义关系进行分类。实验中，在国际通用的数据库Visual Genome 上对所提出的模型进行了全面评测，通过对比现有方法，证明所提模型能够取得国际领先的场景语义图分类正确率和语义关系识别准确率。

场景语义解析任务也是计算机视觉中的重要难题，传统方法大多通过提取图片的全局特征进行处理，而忽略了场景中丰富的语义知识和目标间的语义关系，并且现有方法往往需要大规模标记数据集进行训练，耗费大量的人力和时间成本。针对以上挑战，提出了一个知识嵌入生成对抗网络模型进行半监督场景语义解析。所提模型采用基于反卷积的生成器来生成数据作为额外的训练样本，采用全卷积神经网络作为鉴别器进行语义分割。通过引入知识图谱，提取场景图像中的像素级语义标注之间的高层语义一致性，提升像素分类的准确性。实验结果表明，所提模型在国际通用数据集上都取得了理想效果，其可以学习到更有意义的上下文特征和不同语义标签的复杂语义关系。

成果二跨模态多媒体检索

随着近年来移动互联网和多媒体大数据的蓬勃发展，越来越多地趋向于同时使用图像和自然语言关键字来检索互联网信息。由于跨模态数据 ( 如文字、图像和视频等 ) 之间蕴含丰富的语义信息，场景图像中的各物体之间拥有复杂的语义和位置关系，跨模态场景检索仍然是一个颇具挑战的问题。如图 3 所示，我们提出一种基于语义图模型和二值编码的在线跨模态场景检索方法。该方法主要包括跨模态二值编码表示、语义图模型构建、联合目标函数构造和在线更新学习方法四个部分。首先，利用不同模态数据的量化损失来学习哈希编码，基于余弦相似度构造不同模态数据二值化之后的损失函数；其次，通过基于深度神经网络的目标识别检测方法来建立语义图模型，提取场景语义结构信息，挖掘多模态数据的公共语义特征，并以此计算不同模态数据之间的相似度；最后通过提出一种新的双阶段优化算法，利用改进的随机梯度下降法来在线更新目标函数，对输入的流数据进行哈希函数的迭代学习，实现在线检索。

随着短视频社交媒体的兴起，通过自然语言进行视频检索也得到了大量关注，我们将类似解决思路引入视频跨模态检索任务中，提出一个语义感知的时空哈希检索模型，主要针对视频中的人物动作及其对应的文字描述进行跨模态检索。该模型采用卷积长短时记忆网络模型编码视频哈希二值码，并采用卷积神经网络编码文本哈希码。其主要创新点是，设计了一个语义属性导向的随机学习训练方法，通过从视频中学习常见的细粒度语义属性，并编码为二值哈希码，迭代式地对视频哈希编码和文本哈希编码进行进一步的优化学习。实验结果证明，所提模型可以有效保持不同模态数据之间的一致性和相似性，在多个国际通用数据集上取得了不俗效果。

成果三视觉数据自然语言描述

所提出的场景语义图结构表示模型可以作为多种模态数据之间互相转化的桥梁，图结构所蕴含的丰富语义信息可以有效提高视觉数据自然语言描述任务的效果。我们主要针对体育视频解说生成和图片集故事生成两项任务进行研究。

体育视频解说是指对足球、篮球、排球比赛等体育视频自动生成一段自然语言描述，如何对体育视频中多个运动员的细粒度动作和群组中运动员间复杂关系进行建模，是该研究所面临的重要科学问题。我们提出一个层次化的注意力循环神经网络模型，其中主要包含两个模块，一个是运动表示模块用来提取单个运动员的姿态属性和动态轨迹聚类信息，并引入专业体育知识词库增强解说生成的专业性；另一个是基于门图卷积网络模型的群组关系模块，该模块通过引入场景语义图模型建模运动员之间的上下文交互关联。最后融合所提取的运动表征、群组关系和全局视频帧特征，利用注意力模型生成文字解说，并且通过实验验证了所提模型的有效性和先进性。

图片集故事生成任务是指对一组图片集合生成一段如同人类撰写几句话的小故事，该任务随着近年来社交网络的兴起而极受关注。然而，单张图像中多个目标间的复杂关联和图像之间的较强时序性依赖，使得传统单张图像或视频自然语言描述方法并不能取得较好效果，针对该任务提出了一个隐空间记忆力增强的语义图 Transformer 模型。该模型基于主流的 Transformer 模型架构，通过提出两个新模块对此模型进行增强，其一是图编码模块，通过场景语义图建模提取图像不同区域和目标之间的语义关系，并提出图自注意力机制融合关键视觉特征；其二是增强的隐空间记忆力单元，通过学习和记录高度浓缩的隐空间信息作为故事线，保证所生成故事的主题一致性和表达一贯性。实验结果表明，所提出的模型字在该任务上取得了当前最优的效果。

成果四视频行为分析

现有的增量学习深度模型通常近年来，随着多媒体大数据时代的到来，越来越多的数据是以视频形式在互联网上进行传播，比如社交视频、监控视频和体育比赛等。由于大部分视频内容是以人为主体的，我们希望研究体育比赛或监控视频等人物较多的视频，以识别复杂的群体行为为主要目标。针对该任务提出了一种新的基于时空语义图模型和注意力机制的注意力语义循环神经网络，进行群体行为识别。图 4 所示为所提模型的总体流程，图 (a) 表示使用区域建议网络从原始帧提取物体建议框；图 (b) 是根据文字标签和图像数据建立语义图模型；图 (c) 为通过结构化循环神经网络集成时序要素信息；图 (d) 展示了引入时空注意力机制提取关键人物和关键帧 ( 标注红星 )。具体而言，单个人物的动作和空间位置关系可以通过一个显式语义图模型推理和表示出来，该图模型通过一种“消息传递”机制实现，可以使得图中的每个节点交互消息，传递上下文语义信息。与此同时，相邻帧之间的时序交互关系通过结构化循环神经网的“要素共享”方法集成到语义图模型中。进一步地，提出一种时空注意力机制，可以在视频序列中对关键人物和关键帧赋予不同的重要性权重，以取得更好的识别率，关键人物动作和关键帧对于视频中群体行为识别能起到至关重要的作用。实验中，通过在四个国际通用的数据库上与其他现有方法进行对比评测的结果表明，所提模型能够建模群体中个体之间复杂的交互关系，并且在群体行为和个体动作识别任务中取得了较高的识别准确率。

由于视频社交平台的兴起，海量视频标注十分耗费人力和时间成本，因此针对小样本视频动作识别任务提出了一个基于集成学习的多速率记忆网络模型，其中所设计的多速率记忆网络可以对视频提取不同速率的视频特征，并且加入一个记忆单元使得网络可以快速对小样本数据编码和提取关键信息。为提升模型的鲁棒性还采用了集成学习方法，利用一个选择控制器网络控制其他子网络的多样性并动态分配信用分数，对最终的分类结果进行选择。实验结果证明了所提模型在小样本视频处理问题上的有效性和优越性。

此外，目标的运动轨迹预测和缺失值补全研究对于理解人类行为有着重要作用，但由于时序序列的不确定性和复杂多变的时空上下文关联，该任务仍旧困难重重。我们提出了一个基于模仿学习的非自回归编码模型，可以对偶式地解决轨迹预测和缺失值补全两项任务。

2 结束语

场景理解是计算机视觉领域中的最基本问题，而视觉语义分析则是人工智能领域对于计算机视觉所提出的新的发展要求，使传统的计算机表征数据与现实世界的知识和概念协调一致，从语义理解的角度认识视觉信息和多媒体数据。我们创新性地提出利用场景语义图模型构建结构化的视觉语义知识，并将其有效利用在场景图像理解、跨模态多媒体检索、视觉数据自然语言描述、视频行为分析等重要研究中，在国内外计算机视觉和多媒体领域取得了一定影响力。然而，由于场景图像容易受到关照、角度、遮挡、背景等因素的干扰，更好地理解场景图像需要立体三维信息、图像生成、无监督学习等方面的技术和研究。因此在未来，我们拟通过将结构化视觉语义表达从二维世界拓展到三维世界，从单一模态数据延伸到多模态数据，进行多维度多层次的语义推理和场景感知，并深入研究其在移动端增强现实 / 虚拟现实和新一代智能物联网中的应用。

（参考文献略）

选自《中国人工智能学会通讯》

2022年第12卷第5期

青托专栏

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.