本发明专利技术公开了一种基于多特征融合Transformer的空间关系识别方法,其特点是采用二位图图像表示方法,通过构建基于边界框的二值图来建模对象之间的重叠或相交关系,利用CNN提取空间特征;将提取的空间特征连接起来构造出新的特征输入空间注意力模型、空间语义Transformer编码器层模型、视觉语义Transformer模型,分别进行空间特征优化、空间关系识别增强和空间关系识别。本发明专利技术与现有技术相比具有对重要的空间关系进行区分,整合了对象之间的全局空间语义和视觉语义信息,利用视觉特征、空间特征和语义特征多种模态信息,对复杂的空间关系进行更准确、更全面的识别,模型简便,易训练,提高用户体验,可泛化到新的场景,具有良好的应用场景和商业价值。具有良好的应用场景和商业价值。具有良好的应用场景和商业价值。
【技术实现步骤摘要】
一种基于多特征融合Transformer的空间关系识别方法
[0001]本专利技术涉及计算机视觉的空间关系识别
,尤其是一种基于多特征融合Transformer的空间关系识别方法。
技术介绍
[0002]图像中物体之间的空间关系提供了重要的信息,有助于理解图像。因此,空间关系识别受到越来越多的关注,并已应用于许多计算机视觉任务中,如图像标题生成[1,2,10
–
12]、图像检索[13
–
16]、目标检测[17
–
20]、动作识别[21
–
25]、活动检测[26
–
30]、人物交互识别[5,31
–
34]等。空间关系识别任务是指在计算机视觉领域中,通过分析图像中不同物体之间的相对位置、方向和距离等信息,来确定它们之间的空间关系。具体而言,这个任务的目标是识别出不同物体之间的关系,如包含、相交、接近等拓扑空间关系,以及它们之间的方向空间关系和距离空间关系等信息。使用关系三元组表示的图像中包含的空间关系,关系三元组是指在空间关系识别任务中,表示物体之间关系的一种数据结构,它由三个元素组成,分别是subject、spatial predicate和object,可以表示为<subject,spatial predicate,object>。subject表示关系中的起点物体,spatial predicate表示空间关系的类型,object表示关系中的终点物体。
[0003]空间关系识别引起了越来越多的关注,在物体之间存在复杂的空间语义关系,这些关系不仅仅依赖于它们的几何属性,如位置和方向,还依赖于常识知识。例如,“水上的鱼”这一语句,如果用关系三元组来表示为<鱼,在
…
上面,水>,则不符合常识。相反,“水里的鱼”用关系三元组表示为<鱼,在
…
里面,水>,则符合常识。因此,需要的模型不仅能够在不同场景下识别和理解物体之间的关系,还需要能够考虑到常识知识的影响。
[0004]图像中所包含的对象和空间关系非常复杂,很多方法没有通过区分关系的重要性来降低关系的复杂性。当图像中存在许多对象时,它们之间可能会形成大量的空间关系,N个对象就会有N(N
‑
1)个空间关系。然而,从人的理解角度来看,这些空间关系具有不同的重要程度,人们通常会关注一些重要或显著的对象和关系。而注意力机制类似于人类对信息进行区分,只保留重要的信息,而忽略次要的信息。空间语义复杂,物体之间的空间语义不仅依赖于位置、方向等几何性质,还依赖于常识知识,需要模型具有一定的鲁棒性。
[0005]现有技术的空间关系模型不能区分空间关系和对象的重要性,在图像中,所有对象和关系都被视为同等重要,没有对它们的重要性进行区分。因此,在对象和空间关系非常复杂的情况下,以致识别效果不佳。
技术实现思路
[0006]本专利技术的目的是针对现有技术的不足而提供的一种基于多特征融合Transformer的空间关系识别方法,采用注意力机制和Transformer模型来解决图像空间关系识别未能区分空间关系和对象的重要性的问题,利用视觉特征、空间特征和语义特征的多种模态信息,对复杂的空间关系进行更准确、更全面的识别,同时,利用注意力机制和Transformer模
型,较好的解决了图像空间关系识别未能区分空间关系和对象的重要性等问题,大大提高了模型的性能,模型简便,易训练,大大提高了用户体验,能够泛化到新的场景,具有良好的应用前景和商业价值。
[0007]实现本专利技术目的的具体技术方案是:一种基于多特征融合Transformer的空间关系识别方法,具体包括以下步骤:
[0008]S1、使用二位图图像表示方法提取空间特征
[0009]1)提取subjectobject的proposal来建模对象对之间的空间关系。
[0010]2)关注subject和object对应的两个边界框的并集部分,即注意力窗口。
[0011]3)去除所聚焦的并集之外的部分,将subject和object对应的两个边界框的并集部分扩展到固定大小。
[0012]4)将边界框内的像素值设置为1,边界框外的像素值设置为0,来生成两个边界框对应的2个二值图来捕捉subject与object的空间关系。
[0013]5)利用卷积层和池化层提取最终的空间特征S
os
,所述空间特征S
os
生成由下述(a)式表示为:
[0014]S
os
=Flat(Pool(Conv(Pool(Conv(B
os
)))))(a)。
[0015]其中,B
os
为对象o和对象s之间的双通道二位空间关系图;Flat为空间特征转化成二维特征操作;Pool为池化操作;Conv为卷积操作。
[0016]S2、空间注意力模型的建模
[0017]1)构建完成空间特征和语义特征之后,再通过将空间特征和语义特征连接起来由下述(b)式构造特征X
ors
:
[0018]X
ors
=concat(L
s
,S
os
,L
o
)(b)。
[0019]其中,L
s
是subject的语义特征,L
o
是object的语义特征。
[0020]2)分别把X
ors
投射到query、key、value嵌入空间中,即由下述(c)~(e)式表示为:
[0021]query=W
q
X
ors
(c);
[0022]key=W
k
X
ors
(d);
[0023]value=W
v
X
ors
(e)。
[0024]其中,W
q
、W
k
和W
v
分别为将X
ors
投射到query、key、value嵌入空间中对应的投射向量。
[0025]3)使用缩放的点积计算注意力,并由下述(f)式归一化表示为:
[0026][0027]其中,a为计算出的注意力;key
T
表示key的转置;d
k
为key的维数;
·
为向量点积;Softmax为结果以概率的形式展现;d
k
为query、key的维度;query为嵌入空间。
[0028]4)通过以下述(g)式进行空间特征的增强:
[0029]X
ors
=X
ors
+matmul(value,a)(g)。
[0030]其中,matmul是一个乘法本文档来自技高网...
【技术保护点】
【技术特征摘要】
1.一种基于多特征融合Transformer的空间关系识别方法,其特征在于,该空间关系识别具体包括以下步骤:1)使用二位图图像表示方法、语义知识模型和视觉知识模型,提取对象之间的空间关系、语义特征和视觉特征;2)将语义特征和视觉特征连接起来构造出新的特征,并将新的特征输入到空间注意力模型、空间语义Transformer编码器层模型和视觉语义Transformer模型,所述空间注意力模型利用空间语义知识和注意力机制来优化空间特征;所述空间语义Transformer编码器层模型将输入的空间语义知识获取全局上、下文信息,对空间关系识别进行增强;所述视觉语义Transformer模型将输入的语言特征和视觉特征输入Transformer中对空间关系进行识别。2.根据权利要求1所述基于多特征融合Transformer的空间关系识,方法,其特征在于所述步骤1)的二位图图像表示方法具体过程如下:1)提取subjectobject的proposal来建模对象对之间的空间关系;2)关注subject和object对应的两个边界框的并集部分,即注意力窗口:;3)去除所聚焦的并集之外的部分,将subject和object对应的两个边界框的并集部分扩展到固定大小;4)将边界框内的像素值设置为1,边界框外的像素值设置为0,生成两个边界框对应的2个二值图来捕捉subject与object的空间关系;5)利用卷积层和池化层提取最终的空间特征S
os
,所述空间特征S
os
生成由下述(a)式表示为:S
os
=Flat(Pool(Conv(Pool(Conv(B
os
)))))(a);其中,B
os
为对象o和对象s之间的双通道二位空间关系图;Flat为空间特征转化成二维特征操作;Pool为池化操作;Conv为卷积操作。3.根据权利要求1所述基于多特征融合Transformer的空间关系识别方法,其特征在于,所述步骤2)将新的特征输入到空间注意力模型具体过程如下:1)将构建完成的空间特征和语义特征连接起来,且由下述(b)式构造特征X
ors
:X
ors
=concat(L
s
,S
os
,L
o
)(b);其中,L
s
为subject的语义特征;L
o
为object的语义特征;2)分别把X
ors
投射到query、key、value嵌入空间中,即由下述(c)~(e)式表示为:query=W
q
X
ors
(c);key=W
k
X
ors
(d);value=W
v
X
ors
(e);其中,W
q
、W
【专利技术属性】
技术研发人员:王廷,彭慧琳,汪洋,
申请(专利权)人:华东师范大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。