本公开提供了一种目标检测方法、目标检测模型的训练方法、装置、设备、介质和程序产品,涉及人工智能领域。上述目标检测方法包括:将待检测图像分片,获得N个分片图像;对所述N个分片图像提取特征,获得N个分片图像特征;将所述N个分片图像特征输入至N个Transformer模型,其中每个Transformer模型用于建立其对应输入的分片图像特征与其余至少一个分片图像特征之间的关联关系;根据所述N个Transformer模型的输出获得所述待检测图像中的至少一个目标。本公开实施例通过每个Transformer模型建立其对应输入的分片图像特征与其余至少一个分片图像特征之间的关联关系,从而提取待检测图像中像素间的关联关系结构特征,更准确的检测出目标区域。检测出目标区域。检测出目标区域。
【技术实现步骤摘要】
目标检测方法、目标检测模型的训练方法、装置和设备
[0001]本公开涉及人工智能领域,更具体地涉及一种目标检测方法、目标检测模型的训练方法、装置、设备、介质和程序产品。
技术介绍
[0002]目标检测是计算机视觉研究中的热点和难点。目标检测要解决的问题是找出图像(如照片或视频帧)中目标,包括位置和大小,可以用矩形框表示。目前目标检测的方法通过卷积网络可以提取出大部分的特征然后进行目标检测工作。然而通过卷积网络提取图像特征得到的目标检测结果不理想,因此如何提出一种改进的目标检测方法来提高目标检测的准确率是当前亟待解决的问题。
技术实现思路
[0003]鉴于上述问题,本公开提供了一种通过提取待检测图像中像素间的关联关系结构特征,从而进一步提高准确率的目标检测方法、目标检测模型的训练方法、装置、设备、介质和程序产品。
[0004]本公开实施例的一个方面提供了一种目标检测方法,包括:将待检测图像分片,获得N个分片图像,其中每个分片图像包括所述待检测图像的部分区域,N大于或等于2;对所述N个分片图像提取特征,获得N个分片图像特征;将所述N个分片图像特征输入至N个Transformer模型,其中每个Transformer模型用于建立其对应输入的分片图像特征与其余至少一个分片图像特征之间的关联关系;根据所述N个Transformer模型的输出获得所述待检测图像中的至少一个目标。
[0005]根据本公开的实施例,第一分片图像特征为所述N个分片图像特征中任一个,第一Transformer模型为所述N个Transformer模型中任一个,所述将所述N个分片图像特征输入至N个Transformer模型包括:将所述第一分片图像特征和其余至少一个分片图像特征输入至所述第一Transformer模型的编码器;利用所述第一Transformer模型的编码器建立所述第一分片图像特征和其余至少一个分片图像特征之间的关联关系。
[0006]根据本公开的实施例,所述利用所述第一Transformer模型的编码器建立所述第一分片图像特征和其余至少一个分片图像特征之间的关联关系包括:根据所述第一分片图像特征和第一权重得到第一向量;根据所述第一分片图像特征和其余至少一个分片图像特征,通过第二权重得到第二向量;根据所述第一分片图像特征和其余至少一个分片图像特征,通过第三权重得到第三向量;根据所述第一向量、第二向量和所述第三向量建立所述关联关系。
[0007]根据本公开的实施例,所述第一Transformer模型的编码器与其余至少一个Transformer模型的编码器之间的编码器权重相同或不同,所述编码器权重包括第一权重、第二权重和第三权重中至少一个。
[0008]根据本公开的实施例,所述通过第二权重得到第二向量,及通过第三权重得到第
三向量包括:对所述第一分片图像特征和其余至少一个分片图像特征进行拼接,得到第二分片图像特征;根据所述第二分片图像特征和所述第二权重得到所述第二向量;根据所述第二分片图像特征和所述第三权重得到所述第三向量。
[0009]根据本公开的实施例,所述根据所述N个Transformer模型的输出获得所述待检测图像中的至少一个目标包括:将所述第一Transformer模型的编码器输出输入至所述第一Transformer模型的解码器,所述编码器输出包括所述第一分片图像特征和其余至少一个分片图像特征之间的关联关系;将所述第一Transformer模型的解码器输出输入至分类检测模型,获得所述待检测图像中的至少一个目标。
[0010]根据本公开的实施例,在将所述N个分片图像特征输入至N个Transformer模型之前,还包括:根据预设顺序设置所述N个分片图像与所述N个Transformer模型之间的对应关系,其中,所述N个分片图像按照所述预设顺序对所述待检测图像进行分片获得。
[0011]本公开实施例的另一方面提供了一种目标检测模型的训练方法,包括:对训练样本图像分片,获得M个分片图像,其中每个分片图像包括所述训练样本图像的部分区域,M大于或等于2;对所述M个分片图像提取特征,获得M个分片图像特征;将所述M个分片图像特征输入至M个Transformer模型,其中每个Transformer模型用于建立其对应输入的分片图像特征与其余至少一个分片图像特征之间的关联关系;根据所述M个Transformer模型的输出获得所述训练样本图像中的至少一个预测目标;根据所述至少一个预测目标与所述训练样本图像对应的目标标签之间的损失函数值,更新所述目标检测模型的参数。
[0012]本公开实施例的另一方面提供了一种目标检测装置,包括:第一分片模块,用于将待检测图像分片,获得N个分片图像,其中每个分片图像包括所述待检测图像的部分区域,N大于或等于2;第一提取模块,用于对所述N个分片图像提取特征,获得N个分片图像特征;第一输入模块,用于将所述N个分片图像特征输入至N个Transformer模型,其中每个Transformer模型用于建立其对应输入的分片图像特征与其余至少一个分片图像特征之间的关联关系;第一目标模块,用于根据所述N个Transformer模型的输出获得所述待检测图像中的至少一个目标。
[0013]所述目标检测装置包括分别用于执行如上所述任意一项所述的方法的各个步骤的模块。
[0014]本公开实施例的另一方面提供了一种目标检测模型的训练装置,包括:第二分片模块,用于对训练样本图像分片,获得M个分片图像,其中每个分片图像包括所述训练样本图像的部分区域,M大于或等于2;第二提取模块,用于对所述M个分片图像提取特征,获得M个分片图像特征;第二输入模块,用于将所述M个分片图像特征输入至M个Transformer模型,其中每个Transformer模型用于建立其对应输入的分片图像特征与其余至少一个分片图像特征之间的关联关系;第二目标模块,用于根据所述M个Transformer模型的输出获得所述训练样本图像中的至少一个预测目标;模型训练模块,用于根据所述至少一个预测目标与所述训练样本图像对应的目标标签之间的损失函数值,更新所述目标检测模型的参数。
[0015]本公开实施例的另一方面提供了一种电子设备,包括:一个或多个处理器;存储装置,用于存储一个或多个程序,其中,当所述一个或多个程序被所述一个或多个处理器执行时,使得一个或多个处理器执行如上所述的方法。
[0016]本公开实施例的另一方面还提供了一种计算机可读存储介质,其上存储有可执行指令,该指令被处理器执行时使处理器执行如上所述的方法。
[0017]本公开实施例的另一方面还提供了一种计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现如上所述的方法。
[0018]上述一个或多个实施例具有如下有益效果:对待检测图像分片能够提高图片分辨率过大且小目标居多的情况时检测的准确率,针对N个分片图像提取N个分片图像特征并输入至N个Transformer模型,能够对分片特征重复利用以增强分片图片的之间的特征依赖信息,通过本文档来自技高网...
【技术保护点】
【技术特征摘要】
1.一种目标检测方法,包括:将待检测图像分片,获得N个分片图像,其中每个分片图像包括所述待检测图像的部分区域,N大于或等于2;对所述N个分片图像提取特征,获得N个分片图像特征;将所述N个分片图像特征输入至N个Transformer模型,其中每个Transformer模型用于建立其对应输入的分片图像特征与其余至少一个分片图像特征之间的关联关系;根据所述N个Transformer模型的输出获得所述待检测图像中的至少一个目标。2.根据权利要求1所述的方法,其中,第一分片图像特征为所述N个分片图像特征中任一个,第一Transformer模型为所述N个Transformer模型中任一个,所述将所述N个分片图像特征输入至N个Transformer模型包括:将所述第一分片图像特征和其余至少一个分片图像特征输入至所述第一Transformer模型的编码器;利用所述第一Transformer模型的编码器建立所述第一分片图像特征和其余至少一个分片图像特征之间的关联关系。3.根据权利要求2所述的方法,其中,所述利用所述第一Transformer模型的编码器建立所述第一分片图像特征和其余至少一个分片图像特征之间的关联关系包括:根据所述第一分片图像特征和第一权重得到第一向量;根据所述第一分片图像特征和其余至少一个分片图像特征,通过第二权重得到第二向量;根据所述第一分片图像特征和其余至少一个分片图像特征,通过第三权重得到第三向量;根据所述第一向量、第二向量和所述第三向量建立所述关联关系。4.根据权利要求2或3所述的方法,其中,所述第一Transformer模型的编码器与其余至少一个Transformer模型的编码器之间的编码器权重相同或不同,所述编码器权重包括第一权重、第二权重和第三权重中至少一个。5.根据权利要求3所述的方法,其中,所述通过第二权重得到第二向量,及通过第三权重得到第三向量包括:对所述第一分片图像特征和其余至少一个分片图像特征进行拼接,得到第二分片图像特征;根据所述第二分片图像特征和所述第二权重得到所述第二向量;根据所述第二分片图像特征和所述第三权重得到所述第三向量。6.根据权利要求2所述的方法,其中,所述根据所述N个Transformer模型的输出获得所述待检测图像中的至少一个目标包括:将所述第一Transformer模型的编码器输出输入至所述第一Transformer模型的解码器,所述编码器输出包括所述第一分片图像特征和其余至少一个分片图像特征之间的关联关系;将所述第一Transformer模型的解码器输出输入至分类检测模型,获得所述待检测图像中的至少一个目标。7.根据权利要求1所述的方法,其中,在将所述N个分片图像特征输入至N个
Transformer模型之...
【专利技术属性】
技术研发人员:唐月标,王鹏培,孙才婵,叶泽锐,
申请(专利权)人:中国工商银行股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。