【技术实现步骤摘要】
一种基于LSTM
‑
Transformer的目标检测方法
[0001]本专利技术涉及计算机视觉
,具体为一种基于LSTM
‑
Transformer的目标检测方法。
技术介绍
[0002]目标检测在计算机视觉领域中应用范围非常广,其解决的核心问题为确定图像中出现的目标位置与类别。在目标检测中,由于每张图像中的物体数量,大小各不相同,并且经常会遇到物体遮挡的问题,所以建立具有高精度与高速度的目标检测算法是一个具有挑战性的任务。根据算法原理,可以分为传统算法与神经网络算法。
[0003]现有技术中,传统算法的检测过程可以分为物体区域划取,特征提取和特征分类。通过使用滑动窗口算法进行物体位置的预测。之后通过SIFT或HOG算法提取特征,最后用SVM进行该检测框的分类。但是传统算法存在大量的冗余框并且计算成本非常高,在深度学习之后便逐渐淘汰。通过神经网络进行的目标检测可以分为单阶段目标检测与两阶段目标检测。两阶段目标检测会生成图像中物体的预选框,再通过卷积网络来进行分类,比较流行的方法有RCNN,FasterRCNN等。这种方法一般精度较高,但是模型较为复杂无法实现端到端的训练。另一种则为单阶段目标检测算法,比较出名的有YOLO系列,它无需计算预选框,可以端到端的预测出物体的位置与类别。
[0004]最后一种便是基于Transformer目标检测算法,这是一种单阶段检测器,不仅不需要预选框的计算而且也不需要NMS来进行多框的去除,架构非常简单。但是由于Transform
【技术保护点】
【技术特征摘要】
1.一种基于LSTM
‑
Transformer的目标检测方法,其特征在于:所述目标检测方法包括以下步骤:S1.对训练集进行特征提取;S2.将特征输入Transformer的编码器进行编码;S3:将S2输出的嵌入层结果输入Transformer的解码器;S4:将解码器的输出输入前馈网络进行类别与检测框的提取;S5:选取在测试集表现最好的模型进行目标检测。2.根据权利要求1所述的一种基于LSTM
‑
Transformer的目标检测方法,其特征在于:对训练集进行特征提取具体包括:S1
‑
1:将尺寸为H0
×
W0
×
3的训练集图片输入backbone主干网络进行特征提取,得到尺寸为H
×
W
×
C的特征图;S1
‑
2:通过三角函数获取图片的position encoding位置编码信息;S1
‑
3:将S1
‑
1获得的特征图与S1
‑
2获得的位置编码进行相加,用于输入到接下来的Transformer编码模块。3.根据权利要求2所述的一种基于LSTM
‑
Transformer的目标检测方法,其特征在于:将特征输入Transformer的编码器进行编码具体操作如下:S2
‑
1:将S1中的输出特征首先输入Bi
‑
LSTM
‑
2模块,这个模块拥有两个Bi
‑
LSTM,分别为垂直Bi
‑
LSTM(1)与水平Bi
‑
LSTM(2),一个Bi
‑
LSTM则是由两个普通的LSTM组成,这种结构进行上下左右四个方向的并行处理,并减少了序列的长度;S2
‑
2:对于尺寸为H
×
W
×
C的特征图X,H视为垂直方向上的序列数量,W视为水平方向上的序列数量,C为通道数量,之后将通过两个Bi
‑
LSTM模块的输出进行拼接(3),并进行归一化;H
vertical
=Bi
‑
LST...
【专利技术属性】
技术研发人员:李旭东,魏金雷,潘心冰,何彬彬,伊文超,朱利霞,
申请(专利权)人:浪潮云信息技术股份公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。