一种基于多特征融合Transformer的空间关系识别方法技术

技术编号：38330174 阅读：18 留言：0更新日期：2023-07-29 09:13

本发明专利技术公开了一种基于多特征融合Transformer的空间关系识别方法，其特点是采用二位图图像表示方法，通过构建基于边界框的二值图来建模对象之间的重叠或相交关系，利用CNN提取空间特征；将提取的空间特征连接起来构造出新的特征输入空间注意力模型、空间语义Transformer编码器层模型、视觉语义Transformer模型，分别进行空间特征优化、空间关系识别增强和空间关系识别。本发明专利技术与现有技术相比具有对重要的空间关系进行区分，整合了对象之间的全局空间语义和视觉语义信息，利用视觉特征、空间特征和语义特征多种模态信息，对复杂的空间关系进行更准确、更全面的识别，模型简便，易训练，提高用户体验，可泛化到新的场景，具有良好的应用场景和商业价值。具有良好的应用场景和商业价值。具有良好的应用场景和商业价值。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于多特征融合Transformer的空间关系识别方法

[0001]本专利技术涉及计算机视觉的空间关系识别
，尤其是一种基于多特征融合Transformer的空间关系识别方法。

技术介绍

[0002]图像中物体之间的空间关系提供了重要的信息，有助于理解图像。因此，空间关系识别受到越来越多的关注，并已应用于许多计算机视觉任务中，如图像标题生成[1,2,10
–
12]、图像检索[13
–
16]、目标检测[17
–
20]、动作识别[21
–
25]、活动检测[26
–
30]、人物交互识别[5,31
–
34]等。空间关系识别任务是指在计算机视觉领域中，通过分析图像中不同物体之间的相对位置、方向和距离等信息，来确定它们之间的空间关系。具体而言，这个任务的目标是识别出不同物体之间的关系，如包含、相交、接近等拓扑空间关系，以及它们之间的方向空间关系和距离空间关系等信息。使用关系三元组表示的图像中包含的空间关系，关系三元组是指在空间关系识别任务中，表示物体之间关系的一种数据结构，它由三个元素组成，分别是subject、spatial predicate和object，可以表示为<subject,spatial predicate,object>。subject表示关系中的起点物体，spatial predicate表示空间关系的类型，object表示关系中的终点物体。
[0003]空...

【技术保护点】

【技术特征摘要】
1.一种基于多特征融合Transformer的空间关系识别方法，其特征在于，该空间关系识别具体包括以下步骤：1)使用二位图图像表示方法、语义知识模型和视觉知识模型，提取对象之间的空间关系、语义特征和视觉特征；2)将语义特征和视觉特征连接起来构造出新的特征，并将新的特征输入到空间注意力模型、空间语义Transformer编码器层模型和视觉语义Transformer模型，所述空间注意力模型利用空间语义知识和注意力机制来优化空间特征；所述空间语义Transformer编码器层模型将输入的空间语义知识获取全局上、下文信息，对空间关系识别进行增强；所述视觉语义Transformer模型将输入的语言特征和视觉特征输入Transformer中对空间关系进行识别。2.根据权利要求1所述基于多特征融合Transformer的空间关系识，方法，其特征在于所述步骤1)的二位图图像表示方法具体过程如下：1)提取subjectobject的proposal来建模对象对之间的空间关系；2)关注subject和object对应的两个边界框的并集部分，即注意力窗口：；3)去除所聚焦的并集之外的部分，将subject和object对应的两个边界框的并集部分扩展到固定大小；4)将边界框内的像素值设置为1，边界框外的像素值设置为0，生成两个边界框对应的2个二值图来捕捉subject与object的空间关系；5)利用卷积层和池化层提取最终的空间特征S
os
，所述空间特征S
os
生成由下述(a)式表示为：S
os
＝Flat(Pool(Conv(Pool(Conv(B
os
)))))(a)；其中，B
os
为对象o和对象s之间的双通道二位空间关系图；Flat为空间特征转化成二维特征操作；Pool为池化操作；Conv为卷积操作。3.根据权利要求1所述基于多特征融合Transformer的空间关系识别方法，其特征在于，所述步骤2)将新的特征输入到空间注意力模型具体过程如下：1)将构建完成的空间特征和语义特征连接起来，且由下述(b)式构造特征X
ors
：X
ors
＝concat(L
s
，S
os
，L
o
)(b)；其中，L
s
为subject的语义特征；L
o
为object的语义特征；2)分别把X
ors
投射到query、key、value嵌入空间中，即由下述(c)～(e)式表示为：query＝W
q
X
ors
(c)；key＝W
k
X
ors
(d)；value＝W
v
X
ors
(e)；其中，W
q
、W

【专利技术属性】
技术研发人员：王廷，彭慧琳，汪洋，
申请(专利权)人：华东师范大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人