场景图生成方法、设备及介质技术

技术编号：41451635 阅读：19 留言：0更新日期：2024-05-28 20:40

本发明专利技术涉及一种场景图生成方法、设备及介质，该方法包括：S1、利用目标检测器提取输入图片中的目标信息，包括检测框和类别信息；S2、从目标信息中提取出目标的视觉关系特征以及目标之间的空间关系特征；S3、根据目标之间的语义先验融合视觉关系特征和所述空间关系特征，形成多模态关系特征；S4、利用图结构学习模块对所述多模态关系特征进行二分类，构建稀疏场景图；S5、将稀疏场景图节点的连接密度计算节点权重，在上下文消息传递过程中依据节点权重聚合特征；S6、将稀疏场景图中的节点特征和边特征输入到分类器中进行分类，形成三元组表示，形成场景图。与现有技术相比，本发明专利技术实现了高质量的场景图生成。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及计算机视觉领域，尤其是涉及一种场景图生成方法、设备及介质。

技术介绍

1、场景图生成(sgg)作为一种中间层次的视觉理解任务，对于多种视觉-语言跨模态理解任务至关重要，比如图像字幕生成、视觉问题回答(vqa)和图像检索等。甚至最近在机器人环境领域也开始出现相关的研究，最近的工作也表明sgg技术在更广泛的领域中有着潜在的应用前景。

2、场景图生成的核心问题之一是如何对目标之间的关系特征建模，领域内最开始使用联合区域的视觉特征来表示关系的特征，仅仅使用视觉特征来建模关系特征。之后开始探索对物体空间分布的对关系建模，空间分布不仅可以反映物体之间的位置关系，还可以描述物体之间的结构信息。利用区域的属性来描述物体的空间分布，其中包括位置关系、大小关系、距离关系和形状关系。当然受到人们语言习惯的影响，语义先验对关系的分布具有很大影响，目前的方法对于语义特征的引入也十分常见。

3、虽然已经引入了多种模态特征构建关系的特征，然而对于如何去细化这些信息也是也是关系建模的一个重要挑战。领域内提出了很多方法来细化关系特征的表示。主要分为：其一是基于注意力机制的方法，利用注意力机制强大的关联能力学习特征之间的关联信息，细化场景图中特征的表示。其二是基于翻译嵌入的方法，通过将目标特征嵌入到一个低维的空间，将关系建模为一个向量表示。其三是基于条件随机场的方法，利用关系谓词和对象之间强的统计相关性来建模关系特征。其四是基于卷积神经网络cnn的场景图生成方法，尝试利用cnn提取图像的局部和全局视觉特征，然后通过分类对象之间的关系。

4、虽然很多方法能够生成场景图，但是这些工作还存在一些问题：

5、1)对目标之间的关系特征建模不充分，很多方法都利用简单的特征融合方式形成关系特征，导致融合过程中信息丢失。

6、2)很多方法构建稠密的场景图来进行推理，然而这种方法会使得无关信息在场景图传递，影响场景图生成的效果。

技术实现思路

1、本专利技术的目的就是为了克服上述现有技术存在的缺陷而提供了一种场景图生成方法、设备及介质，通过目标语义的先验性构建关系的特征，利用图结构学习理论减少冗余关系，传递更多关键目标的信息以减少噪声信息的影响，从而准确学习实体和关系的语义特征，提高生成场景图质量。

2、本专利技术的目的可以通过以下技术方案来实现：

3、根据本专利技术的第一方面，提供了一种场景图生成方法，该方法包括：

4、s1、利用目标检测器提取输入图片中的目标信息，所述目标信息包括检测框和类别信息；

5、s2、从所述目标信息中提取出目标的视觉关系特征以及目标之间的空间关系特征；

6、s3、根据目标之间的语义先验融合所述视觉关系特征和所述空间关系特征，形成视觉-空间多模态关系特征；

7、s4、利用图结构学习模块对所述多模态关系特征进行二分类，构建稀疏场景图；

8、s5、将稀疏场景图节点的连接密度计算节点权重，在上下文消息传递过程中依据节点权重聚合特征；

9、s6、将稀疏场景图中的节点特征和边特征输入到分类器中进行分类，形成三元组表示，形成场景图。

10、优选地，所述s1具体为：

11、采用预训练的卷积神经网络提取出输入图片i的特征f；

12、将特征f输入到区域建议网络rpn，获取目标的候选框b＝(x,y,w,h)和类别信息c，其中(x,y)代表边界框的坐标，(w,h)代表边界框的宽高。

13、优选地，所述s1中的卷积神经网络包括vgg和resnet。

14、优选地，所述s2中，感兴趣池化层根据目标区域分别提取出目标的视觉特征和视觉关系特征，根据边界框的位置信息形成目标之间的空间关系特征，具体包括以下子步骤：

15、s21、根据成对目标的检测框信息，构建联合区域特征来表示视觉关系特征：

16、

17、式中：roi代表是的roi池化层；union操作计算两个边界框的并集区域；

18、s22、根据目标的位置信息，计算出两个目标的相对位置信息作为空间关系特征：

19、

20、式中：(x,y,w,h)∈bi表示对象的位置坐标信息；σ表示线性层，用来变换特征空间。

21、优选地，所述步骤s3具体为：

22、s31、给定主题对象i和客体对象j，计算出成对目标之间的语义矩阵xij，作为对象之间的语义相关性表示：

23、

24、式中：是矩阵乘法；ti、tj表示目标对象的标签信息；

25、s32、将视觉关系特征和空间关系特征按通道拼接得到视觉-空间多模态关系特征

26、

27、s32、通过一系列二维卷积和语义矩阵xij上的空间池化构建通道注意力，得到语义关联注意力向量利用得到的语义关联注意力向量和多模态关系特征进行通道运算，得到更新后的视觉-空间多模态关系特征

28、

29、

30、式中：c为多模态关系特征的通道数；σ是激活函数；gconv是二维卷积操作；gpooling是二维池化操作；×表示点积。

31、优选地，所述s4具体为：

32、将更新后的视觉-空间多模态关系特征输入至图结构学习模块，以预测目标oi和目标oj之间的关联性，并用softmax进行归一化处理；

33、

34、

35、式中：τ(·)为图结构学习模块对应的门控函数，所述图结构学习模块为一个系列全连接层构成的模块，softmax将值映射到[0,1]之间；α,β是两个可学习的参数。

36、优选地，所述s5具体为：

37、s51、计算稀疏场景图中每个节点o的度：

38、

39、s52、使用节点oi和视觉-空间多模态关系特征初始化隐藏状态：

40、关键实体上下文消息传递的形式化表达为：

41、

42、

43、

44、式中：代表第l层消息传递后节点的特征；代表第l层消息传递后关系的特征；n*i代表着节点oi的邻域；z是节点度的权值化函数；ge→e、ge→r、gs、go等都是多层感知机，用于细化隐藏层表；λ表示的是一个可学习的值。

45、优选地，所述s6中将稀疏场景图中的节点特征和边特征输入到分类器中进行分类，形成三元组表示，形成场景图，其中，目标特征输出预测、目标之间关系特征输出预测的表达式具体为：

46、目标特征输出预测表达式为：

47、

48、式中：是最后一次消息传递的节点特征，ro是预测的目标类别的输出；

49、目标之间关系特征输出预测表达式为：

50、

51、式中：是最后一次消息传递的边特征，rr是预测的关系的输出。

52、根据本专利技术的第二方面，提供了一种电子本文档来自技高网...

【技术保护点】

1.一种场景图生成方法，其特征在于，该方法包括：

2.根据权利要求1所述的一种场景图生成方法，其特征在于，所述S1具体为：

3.根据权利要求2所述的一种场景图生成方法，其特征在于，所述S1中的卷积神经网络包括VGG和ResNet。

4.根据权利要求1所述的一种场景图生成方法，其特征在于，所述S2中，感兴趣池化层根据目标区域分别提取出目标的视觉特征和视觉关系特征，根据边界框的位置信息形成目标之间的空间关系特征，具体包括以下子步骤：

5.根据权利要求1所述的一种场景图生成方法，其特征在于，所述步骤S3具体为：

6.根据权利要求5所述的一种场景图生成方法，其特征在于，所述S4具体为：

7.根据权利要求1所述的一种场景图生成方法，其特征在于，所述S5具体为：

8.根据权利要求7所述的一种场景图生成方法，其特征在于，所述S6中将稀疏场景图中的节点特征和边特征输入到分类器中进行分类，形成三元组表示，形成场景图，其中，目标特征输出预测、目标之间关系特征输出预测的表达式具体为：

9.一种电子设备，包括

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述程序被处理器执行时实现如权利要求1～8中任一项所述的方法。

...

【技术特征摘要】

1.一种场景图生成方法，其特征在于，该方法包括：

2.根据权利要求1所述的一种场景图生成方法，其特征在于，所述s1具体为：

3.根据权利要求2所述的一种场景图生成方法，其特征在于，所述s1中的卷积神经网络包括vgg和resnet。

4.根据权利要求1所述的一种场景图生成方法，其特征在于，所述s2中，感兴趣池化层根据目标区域分别提取出目标的视觉特征和视觉关系特征，根据边界框的位置信息形成目标之间的空间关系特征，具体包括以下子步骤：

5.根据权利要求1所述的一种场景图生成方法，其特征在于，所述步骤s3具体为：

6.根据权利要求5所述的一种场景图生成方法，其特征在于，...

【专利技术属性】
技术研发人员：骆祥峰，邱豪，谢少荣，陈雪，
申请(专利权)人：上海大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人