本发明专利技术提供一种基于改进自注意力机制的目标检测方法及装置。所述方法包括:获取3D医学图像;将所述图像输入到3D卷积神经网络进行特征提取;将得到的特征图在维度通道分成两个特征图,并将两个特征图分别沿横向和纵向划分为n个和m个相同的方块,然后对划分后的两个特征图分别进行横向自注意力机制操作和纵向自注意力机制操作;将两个自注意力机制的输出拼接后进行特征融合,并将融合特征输入分类器,得到目标类别及位置大小。本发明专利技术由于采用改进的自注意力机制,即横向自注意力机制操作和纵向自注意力机制,提高了感受野,降低了内存占有量和计算量,提高了运行速度。提高了运行速度。提高了运行速度。
【技术实现步骤摘要】
一种基于改进自注意力机制的目标检测方法及装置
[0001]本专利技术属于医学影像
,具体涉及一种基于改进自注意力机制的目标检测方法及装置。
技术介绍
[0002]近年来,目标检测技术在图像处理领域取得了巨大成功。基于深度学习技术,学者们提出了多种目标检测算法。从结构上来看,主要分为两大类:一类算法是基于候选区域的,如R
‑
CNN,FastR
‑
CNN和FasterR
‑
CNN等;另一类是无候选区域的单阶段方法,如CenterNet,SSD等。相比于自然图像领域,在医学图像中,病变区域与整个图像相比可能非常小;而且通常图像结构复杂,仅根据单帧图像无法判断病灶。因此,在自然图像领域效果很好的2D目标检测方法在医学图像上通常无法达到预期效果。而如果在医学图像上采用全卷积网络,利用3D卷积获取上下文信息,则通常感受野不够大,而且显存占用很高。另外,为了快速地扩大感受野,CNN中往往使用大量的下采样操作,这使得最终得到的包含语义特征的特征图分辨率较低,不利于小物体检测。
[0003]自注意力是目前应用最广泛的注意力机制之一。自注意力是基于特征图本身的关注而提取的注意力。对于卷积而言,卷积核的设置限制了感受野的大小,导致网络往往需要多层的堆叠才能关注到整个特征图。而自注意的优势就是它的关注是全局的,它能通过简单的查询与赋值就能获取到特征图的全局空间信息。对于自注意力机制来说,相当于模型自己决定感受野的形状和类型。然而自注意力机制通常是针对2D的,没有办法像3D卷积一样融合3维信息。为此,本专利技术提出一种改进的自注意力机制模型,能够利用图像的3维信息提高目标检测精度。
技术实现思路
[0004]为了解决现有技术中存在的上述问题,本专利技术提供一种基于改进自注意力机制的目标检测方法及装置。
[0005]为了实现上述目的,本专利技术采用以下技术方案。
[0006]第一方面,本专利技术提供一种改进自注意力机制的目标检测方法,包括以下步骤:
[0007]获取维度为1*D*H*W的3D医学图像,D、H、W分别为深度、高度和宽度;
[0008]将所述图像输入到3D卷积神经网络进行特征提取,得到一个维度为C*D*H*W的特征图,C为通道数;
[0009]将所述特征图分成两个C/2*D*H*W的特征图,并将两个特征图分别沿横向和纵向划分为大小为D*C/2*H/n*W的n个方块和大小为D*C/2*H*W/m的m个方块,然后对划分后的两个特征图分别进行横向自注意力机制操作和纵向自注意力机制操作;
[0010]将横向自注意力机制和纵向自注意力机制的输出拼接后进行特征融合,并将融合特征输入分类器,得到目标类别及位置大小。
[0011]进一步地,所述医学图像为CT或MRI。
[0012]进一步地,横向自注意力机制操作表示为:
[0013]输入为:
[0014][0015]输出为:
[0016][0017][0018]式中,分别为沿Q、K、V的投影矩阵,均为可学习参数,Q、K、V分别为查询向量、键向量和值向量。
[0019]更进一步地,纵向自注意力机制操作表示为:
[0020]输入为:
[0021][0022]输出为:
[0023][0024][0025]式中,分别为沿Q、K、V的投影矩阵,均为可学习参数,Q、K、V分别为查询向量、键向量和值向量。
[0026]更进一步地,横向自注意力机制和纵向自注意力机制的输出拼接后得到:
[0027]Attention=concat(head1,head2,
…
,head
k
,
…
,head
C
)W0[0028][0029]式中,k=1,2,
…
,C,W0为可学习参数,W0∈R
C*C
。
[0030]进一步地,所述横向自注意力机制和纵向自注意力机制均增加了位置编码权重。
[0031]第二方面,本专利技术提供一种基于改进自注意力机制的目标检测装置,包括:
[0032]图像获取模块,用于获取维度为1*D*H*W的3D医学图像,D、H、W分别为深度、高度和宽度;
[0033]特征提取模块,用于将所述图像输入到3D卷积神经网络进行特征提取,得到一个维度为C*D*H*W的特征图,C为通道数;
[0034]自注意力模块,用于将所述特征图分成两个C/2*D*H*W的特征图,并将两个特征图分别沿横向和纵向划分为大小为D*C/2*H/n*W的n个方块和大小为D*C/2*H*W/m的m个方块,然后对划分后的两个特征图分别进行横向自注意力机制操作和纵向自注意力机制操作;
[0035]目标分类模块,用于将横向自注意力机制和纵向自注意力机制的输出拼接后进行特征融合,并将融合特征输入分类器,得到目标类别及位置大小。
[0036]进一步地,所述医学图像为CT或MRI。
[0037]进一步地,横向自注意力机制操作表示为:
[0038]输入为:
[0039][0040]输出为:
[0041][0042][0043]式中,分别为沿Q、K、V的投影矩阵,均为可学习参数,Q、K、V分别为查询向量、键向量和值向量。
[0044]更进一步地,纵向自注意力机制操作表示为:
[0045]输入为:
[0046][0047]输出为:
[0048][0049][0050]式中,分别为沿Q、K、V的投影矩阵,均为可学习参数,Q、K、V分别为查询向量、键向量和值向量。
[0051]更进一步地,横向自注意力机制和纵向自注意力机制的输出拼接后得到:
[0052]Attention=concat(head1,head2,
…
,head
k
,
…
,head
C
)W0[0053][0054]式中,k=1,2,
…
,C,W0为可学习参数,W0∈R
C*C
。
[0055]进一步地,所述横向自注意力机制和纵向自注意力机制均增加了位置编码权重。
[0056]与现有技术相比,本专利技术具有以下有益效果。
[0057]本专利技术通过获取3D医学图像,将所述图像输入到3D卷积神经网络进行特征提取,将得到的特征图在维度通道分成两个特征图,并将两个特征图分别沿横向和纵向划分为n个和m个相同的方块,然后对划分后的两个特征图分别进行横向自注意力机制操作和纵向自注意力机制操作,将两个自注意力机制的输出拼接后进行特征融合,并将融合特征输入分类器,得到目标类别及位置大小,实现了目标的自动检测和定位。本专利技术由于采用改进的自注意力机制,即横向自注意力机制操作和纵向自注意力机制,提高了感受野,降低了内存占有量和计算量,提高了运行速度。
附图说明
[0058]图1为本专利技术实施例一种基本文档来自技高网...
【技术保护点】
【技术特征摘要】
1.一种基于改进自注意力机制的目标检测方法,其特征在于,包括以下步骤:获取维度为1*D*H*W的3D医学图像,D、H、W分别为深度、高度和宽度;将所述图像输入到3D卷积神经网络进行特征提取,得到一个维度为C*D*H*W的特征图,C为通道数;将所述特征图分成两个C/2*D*H*W的特征图,并将两个特征图分别沿横向和纵向划分为大小为D*C/2*H/n*W的n个方块和大小为D*C/2*H*W/m的m个方块,然后对划分后的两个特征图分别进行横向自注意力机制操作和纵向自注意力机制操作;将横向自注意力机制和纵向自注意力机制的输出拼接后进行特征融合,并将融合特征输入分类器,得到目标类别及位置大小。2.根据权利要求1所述的基于改进自注意力机制的目标检测方法,其特征在于,所述医学图像为CT或MRI。3.根据权利要求1所述的基于改进自注意力机制的目标检测方法,其特征在于,横向自注意力机制操作表示为:输入为:输出为:输出为:式中,分别为沿Q、K、V的投影矩阵,均为可学...
【专利技术属性】
技术研发人员:柏慧屏,刘小青,俞益洲,李一鸣,乔昕,潘晶,应汉宁,蔡秀军,
申请(专利权)人:杭州深睿博联科技有限公司浙江大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。