一种基于端到端深度哈希的皮肤镜图像检索方法技术

技术编号:21273582 阅读:28 留言:0更新日期:2019-06-06 08:00
本发明专利技术一种基于端到端深度哈希的皮肤镜图像检索方法,包括步骤为:步骤一:建立皮肤镜图像数据库;步骤二:端到端深度哈希网络模型设计;步骤三:网络训练;步骤四:提取深度哈希码,构建检索数据库;步骤五:检索皮肤镜图像。优点在于:设计了Res‑DenseNet50深度哈希结构,改善了高层特征与低层特征之间的融合能力,避免了信息在层与层之间传递过程中的丢失。提取出的高层特征具有更好的可分性,从而具有更高的检索准确率。实现了基于端到端深度哈希的检索方法。本发明专利技术直接对原始图像进行学习,并且从网络的倒数第二层可直接得到输入图像对应的深度哈希码,简化了皮肤镜图像检索的过程,避免了传统检索流程中前后步骤之间的累积误差。

【技术实现步骤摘要】
一种基于端到端深度哈希的皮肤镜图像检索方法
本专利技术属于皮肤镜图像处理领域,具体涉及一种基于端到端深度哈希的皮肤镜图像检索方法。
技术介绍
生活中各种各样的皮肤疾病危害着人们的健康,而皮肤镜诊断是一种针对皮肤疾病的无创性显微图像分析技术。以往皮肤科医生的诊断方法主要是通过皮肤镜观察皮损区域,再依赖经验和主观视觉评价来做出诊断结果。这种依赖人眼观察的方式容易引起视觉疲劳,而且诊断结果带有主观性,可重复性较差。而皮肤镜图像辅助诊断技术能够从皮肤镜图像中自动提取皮损目标并对皮损类型进行识别,从而辅助医生做出正确诊断,这种方式具有客观可重复的优点。皮肤镜图像检索是皮肤镜图像计算机辅助诊断中的重要研究内容,它可以从数据库中快速准确地检索到相似图像,这些相似图像具有已经确诊的信息,可以为医生进行临床诊断提供参考依据。目前对皮肤镜图像的研究,主要还是以图像分割和分类为主,相比之下皮肤镜图像检索方面的研究成果还比较少。现有的皮肤镜图像检索方法主要包括基于传统低层特征的皮肤镜图像检索方法和基于深度学习的皮肤镜图像检索方法。基于传统低层特征的皮肤镜图像检索方法是先对图像进行去毛发、分割等处理,再分割出皮损区域,然后对皮损区域提取一些颜色、纹理、边界等低层特征,最后采用哈希映射的方法进行检索。由于该方法提取的特征对皮损区域的描述能力不强,而且多个步骤之间会存在累积误差,因此检索准确率较低。。而基于深度学习的皮肤镜图像检索方法是采用深度学习方法对皮肤镜图像提取高层语义特征,并采用端到端的深度哈希进行图像检索,采用深度学习方法所提取的特征比传统低层特征具有更强的描述能力,通常能够获得更好的检索结果。由于当前针对皮肤镜图像检索的研究还不是很深入,现有的皮肤镜图像检索方法的准确率都不是很高,针对皮肤镜图像检索的研究还存在很大的提升空间。
技术实现思路
目的:本专利技术的目的在于提供一种基于端到端深度哈希的皮肤镜图像检索方法,它通过端到端深度哈希的卷积神经网络模型,可以直接提取皮肤镜图像对应的哈希码,设计的网络模型不仅提高了特征的描述能力,还省略了传统检索中各个步骤之间的前后依赖性,能够取得更准确的检索结果。技术方案:本专利技术将残差网络和DenseNet网络思想相结合,设计了端到端深度哈希网络模型。它可直接对原始皮肤镜图像提取深度哈希码,再通过构建哈希表数据结构实现皮肤镜图像的快速检索,得到与待检索图像最相似的一组图像。具体技术方案如下:本专利技术是一种基于端到端深度哈希的皮肤镜图像检索方法,它包括以下步骤:步骤一:建立皮肤镜图像数据库本专利技术针对黄种人的皮肤镜图像构建检索数据库,包含N种常见皮肤病。我们将采集到的皮肤镜图像的分辨率大小统一缩放为K×K,以此构建皮肤镜图像数据库。由于皮肤镜图像数据库通常较小,因此先对数据库进行扩充。将每种皮肤病中的建库图像进行了三个角度的旋转(90°、180°、270°)和横向镜像进行数据扩充,即可得到最终的检索库数据集。步骤二:端到端深度哈希网络模型设计本专利技术在残差网络ResNet50的基础上借鉴DenseNet的思想,设计了一个具有51层的卷积神经网络Res-DenseNet50。该网络包含4个部分:1个卷积层、4个残差组、1个平均值池化层、以及2个全连接层。对卷积层来说,特征图的尺寸可以用width×height×depth表示,前两个值表示空间尺寸,最后一个值表示通道数量。用Conv#代表卷积层,Maxp#代表最大值池化层,FC#代表全连接层,则所设计的网络结构具体细节如下:1)首先网络的第1层是卷积层Conv1,尺寸为7×7×64,用来将图像映射到高维空间,特征图个数为64。该卷积层与4组残差块连接。2)第1层卷积层后与4组残差块相串连。随着网络深度的增加,网络会遇到梯度消失和网络退化问题。残差结构将其输出与输入进行相加,用公式(1)描述如下:F(x)=H(x)+x(1)其中x为输入,H(x)为原来结构的映射函数,F(x)为将输出与输入相加后残差块结构的映射函数,以此形成残差映射。在残差网络结构中,网络学习过程主要是对输入与输出之间的残差部分进行学习,该结构使得网络更容易训练,且一定程度避免了梯度消失问题,能够得到更好的结果。本专利技术设计的网络结构中,Conv1后边由4组残差块前后串联。考虑到随着网络深度的增加,残差网络仍然会遇到梯度消失和网络退化问题,因此,我们借鉴DenseNet思想,将前3组残差块的输入和输出合并在一起,从而使得某一层残差结构的输入不仅仅依赖于紧邻残差结构的输出,还可以依赖于距离更远的残差块的输出,使得网络中的高层特征和低层特征进行融合,且进一步避免梯度消失,减轻过拟合。对于第2组和第3组的残差块,由于特征图在经过残差块后宽和高均缩小了一半,因此,在连接输入和输出的前向线中各加入一层步长为2的最大值池化层,分别为Maxp1和Maxp2,对输入数据进行降维。每组残差块的结构参数如下。第1组包含3个残差块Conv2-x,每个残差块结构为Conv(1×1×64)→Conv(3×3×64)→Conv(1×1×256)。第2组包含4个残差块Conv3-x,每个残差块结构为Conv(1×1×128)→Conv(3×3×128)→Conv(1×1×512)。第3组包含6个残差块Conv4-x,每个残差块结构为Conv(1×1×256)→Conv(3×3×256)→Conv(1×1×1024)。第4组包含3个残差块Conv5-x,每个残差块结构为Conv(1×1×512)→Conv(3×3×512)→Conv(1×1×2048)。3)第4组残差块后连接的是1个平均值池化层Averagepool,用来对特征数据进行降维。4)网络最后是两个全连接层FC1和FC2。全连接层FC1的目的是为了将前一层的特征映射为对应的二进制码,因此神经元个数对应为编码位数b,每个神经元的激活函数采用sigmoid函数:其中,x为神经元的输入,S(x)为激活函数输出。此函数可以将神经元的值限制在0和1之间,便于最后将这层的值量化为0或1,得到二进制哈希码。全连接层FC2是最终任务层,输出神经元个数为训练数据库包含的皮肤病种类N,使网络可以按多分类任务训练。训练所采用的损失函数为softmax函数,如公式(3):式中,xi为网络的第i个输出,xj为网络的第j个输出,Si为第i类的分类概率。由式(3)可以计算得每一类的分类概率Si,因此,可通过公式(4)和式(5)计算损失Loss。式中,N为类别数,Si为第i类的分类概率,yi是输入图像的真实标签,即除了对应类别的位置是1,其余N-1个值都是0,R(W)为加入的正则化损失项,Wk,l为网络最终任务层第l个神经元和倒数第二层第k个神经元之间的权重。步骤三:网络训练我们用步骤一中的皮肤镜图像数据库,按图像多分类任务对步骤二中设计的卷积神经网络Res-DenseNet50进行训练。深度学习网络需要大样本数据进行训练,但医学图像的样本集通常较小,因此,通常采用迁移学习的方式。本专利技术设计的卷积神经网络Res-DenseNet50借助了Resnet50的框架,因此可以采用迁移学习的方法来训练本网络。本文采用步骤二中的网络模型,在步骤一中的皮肤镜图像数据库上,按图像多分类任务对进行训本文档来自技高网
...

【技术保护点】
1.一种基于端到端深度哈希的皮肤镜图像检索方法,其特征在于,它包括以下步骤:步骤一:建立皮肤镜图像数据库针对黄种人的皮肤镜图像构建检索数据库,包含常见皮肤病将采集到的皮肤镜图像的分辨率大小统一缩放为K×K,以此构建皮肤镜图像数据库;步骤二:端到端深度哈希网络模型设计设计一个具有51层的卷积神经网络Res‑DenseNet50;该网络包含4个部分:1个卷积层、4个残差组、1个平均值池化层、以及2个全连接层;对卷积层来说,特征图的尺寸用width×height×depth表示,前两个值表示空间尺寸,最后一个值表示通道数量;用Conv#代表卷积层,Maxp#代表最大值池化层,FC#代表全连接层,则所设计的网络结构具体细节如下:1)首先网络的第1层是卷积层Conv1,尺寸为7×7×64,用来将图像映射到高维空间,特征图个数为64;该卷积层与4组残差块连接;2)第1层卷积层后与4组残差块相串连;残差结构将其输出与输入进行相加,用公式(1)描述如下:F(x)=H(x)+x  (1)其中x为输入,H(x)为原来结构的映射函数,F(x)为将输出与输入相加后残差块结构的映射函数,以此形成残差映射;Conv1后边由4组残差块前后串联;将前3组残差块的输入和输出合并在一起,使得网络中的高层特征和低层特征进行融合;对于第2组和第3组的残差块,由于特征图在经过残差块后宽和高均缩小了一半,因此,在连接输入和输出的前向线中各加入一层步长为2的最大值池化层,分别为Maxp1和Maxp2,对输入数据进行降维;每组残差块的结构参数如下;第1组包含3个残差块Conv2‑x,每个残差块结构为Conv(1×1×64)→Conv(3×3×64)→Conv(1×1×256);第2组包含4个残差块Conv3‑x,每个残差块结构为Conv(1×1×128)→Conv(3×3×128)→Conv(1×1×512);第3组包含6个残差块Conv4‑x,每个残差块结构为Conv(1×1×256)→Conv(3×3×256)→Conv(1×1×1024);第4组包含3个残差块Conv5‑x,每个残差块结构为Conv(1×1×512)→Conv(3×3×512)→Conv(1×1×2048);3)第4组残差块后连接的是1个平均值池化层Average pool,用来对特征数据进行降维;4)网络最后是两个全连接层FC1和FC2;全连接层FC1的目的是为了将前一层的特征映射为对应的二进制码,因此神经元个数对应为编码位数b,每个神经元的激活函数采用sigmoid函数:...

【技术特征摘要】
1.一种基于端到端深度哈希的皮肤镜图像检索方法,其特征在于,它包括以下步骤:步骤一:建立皮肤镜图像数据库针对黄种人的皮肤镜图像构建检索数据库,包含常见皮肤病将采集到的皮肤镜图像的分辨率大小统一缩放为K×K,以此构建皮肤镜图像数据库;步骤二:端到端深度哈希网络模型设计设计一个具有51层的卷积神经网络Res-DenseNet50;该网络包含4个部分:1个卷积层、4个残差组、1个平均值池化层、以及2个全连接层;对卷积层来说,特征图的尺寸用width×height×depth表示,前两个值表示空间尺寸,最后一个值表示通道数量;用Conv#代表卷积层,Maxp#代表最大值池化层,FC#代表全连接层,则所设计的网络结构具体细节如下:1)首先网络的第1层是卷积层Conv1,尺寸为7×7×64,用来将图像映射到高维空间,特征图个数为64;该卷积层与4组残差块连接;2)第1层卷积层后与4组残差块相串连;残差结构将其输出与输入进行相加,用公式(1)描述如下:F(x)=H(x)+x(1)其中x为输入,H(x)为原来结构的映射函数,F(x)为将输出与输入相加后残差块结构的映射函数,以此形成残差映射;Conv1后边由4组残差块前后串联;将前3组残差块的输入和输出合并在一起,使得网络中的高层特征和低层特征进行融合;对于第2组和第3组的残差块,由于特征图在经过残差块后宽和高均缩小了一半,因此,在连接输入和输出的前向线中各加入一层步长为2的最大值池化层,分别为Maxp1和Maxp2,对输入数据进行降维;每组残差块的结构参数如下;第1组包含3个残差块Conv2-x,每个残差块结构为Conv(1×1×64)→Conv(3×3×64)→Conv(1×1×256);第2组包含4个残差块Conv3-x,每个残差块结构为Conv(1×1×128)→Conv(3×3×128)→Conv(1×1×512);第3组包含6个残差块Conv4-x,每个残差块结构为Conv(1×1×256)→Conv(3×3×256)→Conv(1×1×1024);第4组包含3个残差块Conv5-x,每个残差块结构为Conv(1×1×512)→Conv(3×3×512)→Conv(1×1×2048);3)第4组残差块后连接的是1个平均值池化层Averagepool,用来对特征数据进行降维;4)网络最后是两个全连接层FC1和FC2;全连接层FC1的目的是为了将前一层的特征映射为对应的二进制码,因此神经元个数对应为编码位数b,每个神经元的激活函数采用sigmoid函数:其中,x为神经元的输入,S(x)为激活函数输出;此函数将神经元的值限制在0和1之间,便于最后将这层的值量化为0或1,得到二进制哈希码;全连接层FC2是最终任务层,输出神经元个数为训练数据库包含的皮肤病种类,使网络按多分类任务训练;训练所采用的损失函数为softmax函数,如公式(3):式中,xi为网络的第i个输出,xj为网络的第j个输出,Si为第i类的分类概率;由式(3)计算得每一类的分类概率Si,因此,通过公式(4)和式(5)计算损失Loss...

【专利技术属性】
技术研发人员:谢凤英宋雪冬姜志国
申请(专利权)人:北京航空航天大学
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1