一种基于LSTM-Transformer的目标检测方法技术

技术编号:38596356 阅读:14 留言:0更新日期:2023-08-26 23:32
本发明专利技术涉及计算机视觉技术领域,具体为一种基于LSTM

【技术实现步骤摘要】
一种基于LSTM

Transformer的目标检测方法


[0001]本专利技术涉及计算机视觉
,具体为一种基于LSTM

Transformer的目标检测方法。

技术介绍

[0002]目标检测在计算机视觉领域中应用范围非常广,其解决的核心问题为确定图像中出现的目标位置与类别。在目标检测中,由于每张图像中的物体数量,大小各不相同,并且经常会遇到物体遮挡的问题,所以建立具有高精度与高速度的目标检测算法是一个具有挑战性的任务。根据算法原理,可以分为传统算法与神经网络算法。
[0003]现有技术中,传统算法的检测过程可以分为物体区域划取,特征提取和特征分类。通过使用滑动窗口算法进行物体位置的预测。之后通过SIFT或HOG算法提取特征,最后用SVM进行该检测框的分类。但是传统算法存在大量的冗余框并且计算成本非常高,在深度学习之后便逐渐淘汰。通过神经网络进行的目标检测可以分为单阶段目标检测与两阶段目标检测。两阶段目标检测会生成图像中物体的预选框,再通过卷积网络来进行分类,比较流行的方法有RCNN,FasterRCNN等。这种方法一般精度较高,但是模型较为复杂无法实现端到端的训练。另一种则为单阶段目标检测算法,比较出名的有YOLO系列,它无需计算预选框,可以端到端的预测出物体的位置与类别。
[0004]最后一种便是基于Transformer目标检测算法,这是一种单阶段检测器,不仅不需要预选框的计算而且也不需要NMS来进行多框的去除,架构非常简单。但是由于Transformer的特性,该算法需要的计算资源较大,速度较慢。

技术实现思路

[0005]本专利技术的目的在于提供一种基于LSTM

Transformer的目标检测方法,以解决上述
技术介绍
中提出的问题。
[0006]为实现上述目的,本专利技术提供如下技术方案:一种基于LSTM

Transformer的目标检测方法,所述目标检测方法包括以下步骤:
[0007]S1.对训练集进行特征提取;
[0008]S2.将特征输入Transformer的编码器进行编码;
[0009]S3:将S2输出的嵌入层结果输入Transformer的解码器;
[0010]S4:将解码器的输出输入前馈网络进行类别与检测框的提取;
[0011]S5:选取在测试集表现最好的模型进行目标检测。
[0012]优选的,对训练集进行特征提取具体包括:
[0013]S1

1:将尺寸为H0
×
W0
×
3的训练集图片输入backbone主干网络进行特征提取,得到尺寸为H
×
W
×
C的特征图;
[0014]S1

2:通过三角函数获取图片的position encoding位置编码信息;
[0015]S1

3:将S1

1获得的特征图与S1

2获得的位置编码进行相加,用于输入到接下来
的Transformer编码模块。
[0016]优选的,将特征输入Transformer的编码器进行编码具体操作如下:
[0017]S2

1:将S1中的输出特征首先输入Bi

LSTM

2模块,这个模块拥有两个Bi

LSTM,分别为垂直Bi

LSTM(1)与水平Bi

LSTM(2),一个Bi

LSTM则是由两个普通的LSTM组成,这种结构进行上下左右四个方向的并行处理,并减少了序列的长度;
[0018]S2

2:对于尺寸为H
×
W
×
C的特征图X,H视为垂直方向上的序列数量,W视为水平方向上的序列数量,C为通道数量,之后将通过两个Bi

LSTM模块的输出进行拼接(3),并进行归一化;
[0019]H
vertical
=Bi

LSTM(X
: w∶
)
ꢀꢀꢀꢀꢀꢀ
(1)
[0020]H
horizontal
=Bi

LSTM(X
h∶∶
)
ꢀꢀꢀꢀꢀ
(2)
[0021]H=concat(H
vertical ,H
horizontal
)
ꢀꢀꢀꢀ
(3)
[0022]S2

3:将上述归一化后的数据输入前馈层,这里采用的为ReLU激活函数进行非线性映射,之后通过残差连接进行拼接。
[0023]优选的,将S2输出的嵌入层结果输入Transformer的解码器具体操作为:
[0024]S3

1:Transformer解码器拥有两个输入,首先将S2输出的结果与S1的位置编码结果相加并输入Transformer解码器;
[0025]S3

2:将N个Object queries输入Transformer解码器,这是一个学习的张量,用于反映位置信息;
[0026]S3

3:Transformer解码器模块通过一次性处理N个Object queries,输出所有的预测结果。
[0027]优选的,将解码器的输出输入前馈网络进行类别与检测框的提取具体操作为:
[0028]S4

1:将Transformer解码模块的输出输入两种前馈神经网络FFN1与FFN2;
[0029]S4

2:FFN1输出N个检测框坐标点的预测结果,FFN2输出该N检测框的类别信息;
[0030]S4

4:通过匈牙利算法寻找预测检测框与检测框类别的最优二分图匹配;
[0031]S4

5:根据预测检测框与检测框类别的最优匹配,与实际值进行损失函数的计算。
[0032]优选的,选取在测试集表现最好的模型进行目标检测具体操作如下:
[0033]S5

1:根据损失函数的数值,对模型进行超参数调优,选择在测试集上表现最好的模型作为最终模型。
[0034]与现有技术相比,本专利技术的有益效果是:
[0035]本专利技术提出的基于LSTM

Transformer的目标检测方法,通过Transformer模型进行进行目标检测,与以往的目标检测方法不同,该方法可以直接预测检测框与类别,并通过Bi

LSTM替换了encoder中的自注意力层,可以大量节省参数与内存。
附图说明
[0036]图1为本专利技术模型流程图;
...

【技术保护点】

【技术特征摘要】
1.一种基于LSTM

Transformer的目标检测方法,其特征在于:所述目标检测方法包括以下步骤:S1.对训练集进行特征提取;S2.将特征输入Transformer的编码器进行编码;S3:将S2输出的嵌入层结果输入Transformer的解码器;S4:将解码器的输出输入前馈网络进行类别与检测框的提取;S5:选取在测试集表现最好的模型进行目标检测。2.根据权利要求1所述的一种基于LSTM

Transformer的目标检测方法,其特征在于:对训练集进行特征提取具体包括:S1

1:将尺寸为H0
×
W0
×
3的训练集图片输入backbone主干网络进行特征提取,得到尺寸为H
×
W
×
C的特征图;S1

2:通过三角函数获取图片的position encoding位置编码信息;S1

3:将S1

1获得的特征图与S1

2获得的位置编码进行相加,用于输入到接下来的Transformer编码模块。3.根据权利要求2所述的一种基于LSTM

Transformer的目标检测方法,其特征在于:将特征输入Transformer的编码器进行编码具体操作如下:S2

1:将S1中的输出特征首先输入Bi

LSTM

2模块,这个模块拥有两个Bi

LSTM,分别为垂直Bi

LSTM(1)与水平Bi

LSTM(2),一个Bi

LSTM则是由两个普通的LSTM组成,这种结构进行上下左右四个方向的并行处理,并减少了序列的长度;S2

2:对于尺寸为H
×
W
×
C的特征图X,H视为垂直方向上的序列数量,W视为水平方向上的序列数量,C为通道数量,之后将通过两个Bi

LSTM模块的输出进行拼接(3),并进行归一化;H
vertical
=Bi

LST...

【专利技术属性】
技术研发人员:李旭东魏金雷潘心冰何彬彬伊文超朱利霞
申请(专利权)人:浪潮云信息技术股份公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1