基于可供性-场景知识提示的人-物交互检测方法及装置制造方法及图纸

技术编号：42385846 阅读：4 留言：0更新日期：2024-08-16 16:13

本发明专利技术公开一种基于可供性‑场景知识提示的人‑物交互检测方法及装置，能够提高在现实场景中的识别能力，预测更准确的HOI检测结果。方法包括：(1)构建可供性‑场景知识图谱ASKG；(2)搭建人‑物交互检测模型：在训练阶段，输入为一张RGB图像，第一阶段检测人和物体，识别场景类别和编码原始特征；第二阶段，先验知识嵌入模块编码特定的知识嵌入，实例域适应性融合模块编码实例特征与知识嵌入得到实例感知特征，场景域适应性融合模块编码场景特征与知识嵌入得到场景感知特征，最后经过HOI识别模块输出结果；(3)执行图像的人‑物交互检测。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及计算机视觉、人-物交互检测的，尤其涉及一种基于可供性-场景知识提示的人-物交互检测方法，以及一种基于可供性-场景知识提示的人-物交互检测装置。

技术介绍

1、人-物交互(human-object interaction，hoi)检测需要定位和识别图像中人与物体对之间的交互。hoi通常被定义为<human，action，object>三元组，其中人与对象的表示用带标签的边界框来描述，人的动作被定义为与对象的交互。hoi检测解决了以人为中心的与对象的交互问题，它有助于许多下游任务，如人类活动理解，人机交互和视觉知识问答。

2、得益于深度cnn强大的特征表示能力，近年来hoi检测方法都是基于深度学习设计的。这些方法通常分为两种类型，即两阶段和一阶段。两阶段方法的第一阶段涉及利用预训练的对象检测器来定位图像中的人和物体，而第二阶段侧重于预测每个给定的人-物体对之间的相互作用。与两阶段方法相比，一阶段方法通常采用鲁棒的表示学习模型，该模型可以并行执行人和物体检测以及交互预测。最近，transformer模型在许多视觉任务中表现出了卓越的能力，包括hoi检测任务。hoi-tr首次尝试使用简单的transformer编码器-解码器架构来取代精心设计的组件，该架构作为特征提取的骨干和hoi预测的检测器。此后，出现了许多基于transformer的方法，并取得了优异的性能。

3、尽管这些深度hoi模型已经取得了令人满意的结果，但无论采用何种结构的hoi检测方法，都需要解决hoi类的自然长尾分布问题

技术实现思路

1、为克服现有技术的缺陷，本专利技术要解决的技术问题是提供了一种基于可供性-场景知识提示的人-物交互检测方法，其能够提高在现实场景中的识别能力，预测更准确的hoi检测结果。

2、本专利技术的技术方案是：这种基于可供性-场景知识提示的人-物交互检测方法，包括以下步骤：

3、(1)构建可供性-场景知识图谱askg：首先从数据集注释中提取每个图像对应的对象，以及相关的动作，图像及其注释来自人-物交互检测hoi数据集hico-det和v-coco，注释由三元组<human，action，object>组成；同时，对于每张图像，使用场景分类网络来识别场景类别和场景属性；构建由三组三元组组成的情景知识图谱，分别为<scene，has，object>、<object，has，affordance>和<scene，has，property>的形式，从而将不同的物体、场景以及它们之间的关系联系起来；最后的askg是通过过滤相同的三元组得到的，可视性-场景知识图谱通过对象和场景进行检索，生成与图像相关的子图，提取特定知识；

4、(2)搭建人-物交互检测模型：在训练阶段，输入为一张rgb图像，第一阶段检测人和物体，识别场景类别和编码原始特征；第二阶段，先验知识嵌入模块编码特定的知识嵌入，实例域适应性融合模块编码实例特征与知识嵌入得到实例感知特征，场景域适应性融合模块编码场景特征与知识嵌入得到场景感知特征，最后经过hoi识别模块输出结果；

5、(3)执行图像的人-物交互检测。

6、本专利技术首先构建一个大规模的可供性场景知识图谱askg，根据图像信息的域将askg的知识分为两类，即与对象实例的可供性相关的知识和与场景相关的知识。随后，通过基于askg的先验知识嵌入模块提取输入图像特定的可供性知识和场景知识。由于这些知识对应于不同粒度的图像，本专利技术提出实例域自适应融合和场景域自适应融合，使视觉特征充分吸收知识提示。这两种不同域的编码特征和知识嵌入最终被输入执行图像的人-物交互检测。因此，能够提高在现实场景中的识别能力，预测更准确的hoi检测结果。

7、还提供了一种基于可供性-场景知识提示的人-物交互检测装置，该装置包括：

8、构建模块，其配置来构建可供性-场景知识图谱askg：首先从数据集注释中提取每个图像对应的对象，以及相关的动作，图像及其注释来自人-物交互检测hoi数据集hico-det和v-coco，注释由三元组<human，action，object>组成；同时，对于每张图像，使用场景分类网络来识别场景类别和场景属性；构建由三组三元组组成的情景知识图谱，分别为<scene，has，object>、<object，has，affordance>和

9、<scene，has，property>的形式，从而将不同的物体、场景以及它们之间的关系联系起来；最后的askg是通过过滤相同的三元组得到的，可视性-场景知识图谱通过对象和场景进行检索，生成与图像相关的子图，提取特定知识；

10、搭建模块，其配置来搭建人-物交互检测模型：在训练阶段，输入为一张rgb图像，第一阶段检测人和物体，识别场景类别和编码原始特征；第二阶段，先验知识嵌入模块编码特定的知识嵌入，实例域适应性融合模块编码实例特征与知识嵌入得到实例感知特征，场景域适应性融合模块编码场景特征与知识嵌入得到场景感知特征，最后经过hoi识别模块输出结果；

11、检测模块，其配置来执行图像的人-物交互检测。

本文档来自技高网...

【技术保护点】

1.基于可供性-场景知识提示的人-物交互检测方法，其特征在于：该方法包括以下步骤：

2.根据权利要求1所述的基于可供性-场景知识提示的人-物交互检测方法，其特征在于：所述步骤(1)中，在构造三元组<object，has，

3.根据权利要求2所述的基于可供性-场景知识提示的人-物交互检测方法，其特征在于：所述步骤(1)中，可供性-场景知识图谱包括：365个场景类别，102种场景属性，80个对象类别，117个功能类别，总共有17806条知识。

4.根据权利要求3所述的基于可供性-场景知识提示的人-物交互检测方法，其特征在于：所述步骤(2)中，在训练阶段包括以下分步骤：

5.根据权利要求4所述的基于可供性-场景知识提示的人-物交互检测方法，其特征在于：所述步骤(2.1)中，可供性知识对应于图像的实例域信息，可供性-场景知识对应于图像的全局场景域信息，使用图像字幕作为输入图像的全局知识，将HOI三元组标签和对象标签转换为文本描述作为图像标题；

6.根据权利要求5所述的基于可供性-场景知识提示的人-物交互检测方法，其特征在于

7.根据权利要求6所述的基于可供性-场景知识提示的人-物交互检测方法，其特征在于：所述步骤(2.4)中，通过计算和之间的点积，然后使用softmax函数，将和输入到交叉注意块中，以估计归一化的标量交叉注意力矩阵，并使用注意力矩阵和计算新的特征表示其计算方法如下:

8.根据权利要求7所述的基于可供性-场景知识提示的人-物交互检测方法，其特征在于：所述步骤(3)包括以下分步骤：

9.基于可供性-场景知识提示的人-物交互检测装置，其特征在于：该装置包括：

10.根据权利要求9所述的基于可供性-场景知识提示的人-物交互检测装置，其特征在于：所述搭建模块中，在训练阶段包括以下分步骤：

...

【技术特征摘要】

1.基于可供性-场景知识提示的人-物交互检测方法，其特征在于：该方法包括以下步骤：

2.根据权利要求1所述的基于可供性-场景知识提示的人-物交互检测方法，其特征在于：所述步骤(1)中，在构造三元组<object，has，

4.根据权利要求3所述的基于可供性-场景知识提示的人-物交互检测方法，其特征在于：所述步骤(2)中，在训练阶段包括以下分步骤：

5.根据权利要求4所述的基于可供性-场景知识提示的人-物交互检测方法，其特征在于：所述步骤(2.1)中，可供性知识对应于图像的实例域信息，可供性-场景知识对应于图像的全局场景域信息，使用图像字幕作为输入图像的全局知识，将hoi三元组标签和对...

【专利技术属性】
技术研发人员：孔德慧，陈东攀，李敬华，高俊娜，李倩星，尹宝才，
申请(专利权)人：北京工业大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人