一种场景图像分类方法、系统及存储介质技术方案

技术编号:29704701 阅读:19 留言:0更新日期:2021-08-17 14:33
本发明专利技术公开了一种场景图像分类方法、系统及存储介质,包括获取训练和测试的场景图像,并对其进行类别划分,获得相应类别标签数据库;将场景图像数据库划分为训练集和测试集,进行预处理后作为网络模型的输入;训练局部分形统计描述网络模型,保存训练完成的网络参数,所述局部分形统计描述网络模型包括基于ResNet预训练模型的特征提取器和局部分形密度图估计分支、全局池化分支、全连接层分类器;将保存好的网络模型加载,进行验证和测试。本发明专利技术相对于其他深度学习方法,引入局部密度估计模块,能够更好的处理多种光照变化,在真实场景下分类准确率更高。

【技术实现步骤摘要】
一种场景图像分类方法、系统及存储介质
本专利技术涉及数字图像分类,具体涉及一种场景图像分类方法、系统及存储介质。
技术介绍
场景图像分类是图像分类任务中一种常见的经典任务,旨在教会算法模型能够通过局部特征描述以及构成分析等基础特征描述手段达到认知和理解图像中高层语义的目的。场景图像数据的典型特征:(1)类内差距大。场景图像,如街景等,往往在不同环境条件下以不同方式从不同视角拍摄同一个对象,因此会造成同一个街景具备多种不同的视觉呈现。(2)场景类间相似性,如街景中的路口景象与公园中的步行街路口场景具备较高的相似性。(3)富含场景纹理。不难想象到,场景图像往往具备较高相似度的场景元素,如街景中的路口场景,相同路口往往对应相同的路面纹理、建筑纹理及其他以固定形式出现在路口的物体等。与大多数图像分类任务一致,场景图像分类模型往往通过有监督学习的方式在给定一组训练图像数据集及其相应的语义标签的基础下,通过反向传播训练得到,并最终在模型部署后只需进行前向推理,即可快速预测输入图像的所属类别。场景图像分类是图像检索、目标识别等任务的基础。在深度学习进入白热化的时代,场景图像分类驱动下诞生了大量奠基性工作,如VGGNet、GoogleNet、ResNet及其变种等。近年以来,随着深度学习的不断深入影响,亦催生了大量基于传统模式识别任务中有效的局部特征描述子或全局空间分布统计描述方法的深度学习场景分类方法,如基于局部聚合描述子向量(VectorofLocallyAggregatedDescriptors,VLAD)的NetVLAD等。但在已有的方法中,自然场景图像中富含大量局部纹理这一特性并没有被很充分的挖掘。
技术实现思路
为了克服现有技术存在的缺点与不足,本专利技术提供一种场景图像分类方法、系统及存储介质,本专利技术是一种利用场景图像富含局部纹理及局部统计自相似这一特性的场景图像分类方法——深度局部密度统计描述网络,实现其基于数据集可以端到端完成模型训练并有效提高模型的分类准确率及鲁棒性。本专利技术采用如下技术方案:一种场景图像分类方法,包括:获取训练和测试的场景图像,并对其进行类别划分,获得相应类别标签数据库;将场景图像数据库划分为训练集和测试集,进行预处理后作为网络模型的输入;训练局部分形统计描述网络模型,保存训练完成的网络参数,所述局部分形统计描述网络模型包括基于ResNet预训练模型的特征提取器和局部分形密度图估计分支、全局池化分支、全连接层分类器;将保存好的网络模型加载,进行验证和测试。进一步,所述训练局部分形统计描述网络模型,保存训练完成的网络参数,具体包括如下:基于ResNet预训练模型的特征提取器提取输入图像的特征图;局部分形密度图估计分支将特征图压缩成三通道并上采样为原图的2倍,然后对三通道逐一进行局部分形密度图估计模块与直方图统计描述,得到48维的局部密度统计描述向量;全局池化分支将特征图进行全局平均池化,并通过全连接层将输出向量维度压缩到48;采用双线性池化对局部分形密度图估计分支及全局池化分支得到的向量进行耦合得到预测向量的类别概率;将预测向量真实类别所对应的独热编码向量进行对比,计算交叉熵损失函数,通过多次迭代,得到训练后的局部分形统计描述网络模型。进一步,所述局部分形密度图估计模块的实现过程,具体为:在通过多尺度卷积层及最小二乘拟合估计每个特征图像像素点密度的过程。进一步,所述直方图统计描述具体为:将场景图像的不同构成结构通过直方图分片的方式划分至不同的特征图中,并求和计算各分片的统计值。进一步,数据预处理包括,对每组图像进行大小调整,裁剪为224*224的尺寸,并以50%的概率随机水平翻转并进行归一化处理。进一步,具体是选定一组核大小为rz的最大池化层,其中rz∈{r1,r2,r3,...,rz,...,rZ|r1<r2<…<rZ,rZ<min{W,H}},取rz∈{1,2,3,4,5},核大小为rz×rz的卷积核记为对于每一张输入特征图X,分别经过一组不同尺度大小的卷积运算,同时通过padding的方式使得每组卷积运算输出的结果都与输入特征图尺寸相等,具体计算如下式:得到对输出的特征图相同位置的像素值取对数,即为对进行最小二乘拟合:求得其斜率即为所估计出的该像素点的局部分形密度估计值,最终得到输入该特征图对应的局部分形密度估计图D。进一步,所述交叉熵损失函数为:其中一种场景图像分类系统,包括:数据采集模块,获取训练和测试的场景图像,并对其进行类别划分,获得相应类别标签数据库;预处理模块,用于对场景图像数据库进行划分,并预处理后作为网络模型的输入;构建训练网络模型模块,训练局部分形统计描述网络模型,保存训练完成的网络参数,所述局部部分分形统计描述网络模型包括基于ResNet预训练模型的特征提取器和局部分形密度图估计分支、全局池化分支、全连接层分类器;验证测试模块,用于对训练好的网络模型进行验证测试。一种存储介质,其上存储有计算机指令,所述计算机指令被处理器执行时,实现所述的检场景图像分类方法。本专利技术的有益效果;(1)本专利技术针对真实场景图像分类,提出一种利用场景图像局部纹理统计自相似性的深度局部密度统计描述网络,该方法能够预测诸如医学影像的病灶区域、场景图像、地质材料图像、遥感图像等富含纹理的场景图像,适用于实际场景。(2)本专利技术提出的深度局部密度统计描述网络能够有效描述场景图像的局部统计自相似性,并将其与常见的分类网络的分支进行耦合,实现端到端的嵌入网络进行训练学习。该专利技术可以充分运用数据集的知识来自动学习确定局部密度估计过程以及直方图统计描述过程中所需要的超参数,该方法可以即插即学的嵌入其他未考虑局部统计自相似性的图像识别网络中,提升其效果。(3)本专利技术相对于其他深度学习方法,引入局部密度估计模块,能够更好的处理多种光照变化,在真实场景下分类准确率更高。附图说明图1为本专利技术的整体流程图。图2为深度局部密度统计描述网络结构图。图3为本专利技术设计的局部密度统计描述分支结构图。图4为本专利技术局部密度统计描述分支的局部密度估计模块结构图。具体实施方式下面结合实施例及附图,对本专利技术作进一步地详细说明,但本专利技术的实施方式不限于此。实施例1如图1所示,一种基于深度局部密度统计描述网络的场景图像分类方法,包括如下步骤:S1数据准备,获得用于训练和测试的场景图像及类别标签数据库;进一步,选择下载在真实场景下采集的场景图像数据集并标注好类别,该数据集由数码相机拍摄采集。S2训练数据划分及预处理,将场景图像数据库划分为训练集和测试集,并对其进行必要地预处理,作为网络输入。进一步,将场景图像划分为训练集和测试集,取图像及其对应的类别标签为一组;对本文档来自技高网
...

【技术保护点】
1.一种场景图像分类方法,其特征在于,包括:/n获取训练和测试的场景图像,并对其进行类别划分,获得相应类别标签数据库;/n将场景图像数据库划分为训练集和测试集,进行预处理后作为网络模型的输入;/n训练局部分形统计描述网络模型,保存训练完成的网络参数,所述局部分形统计描述网络模型包括基于ResNet预训练模型的特征提取器和局部分形密度图估计分支、全局池化分支、全连接层分类器;/n将保存好的网络模型加载,进行验证和测试。/n

【技术特征摘要】
1.一种场景图像分类方法,其特征在于,包括:
获取训练和测试的场景图像,并对其进行类别划分,获得相应类别标签数据库;
将场景图像数据库划分为训练集和测试集,进行预处理后作为网络模型的输入;
训练局部分形统计描述网络模型,保存训练完成的网络参数,所述局部分形统计描述网络模型包括基于ResNet预训练模型的特征提取器和局部分形密度图估计分支、全局池化分支、全连接层分类器;
将保存好的网络模型加载,进行验证和测试。


2.根据权利要求1所述的场景图像分类方法,其特征在于,所述训练局部分形统计描述网络模型,保存训练完成的网络参数,具体包括如下:
基于ResNet预训练模型的特征提取器提取输入图像的特征图;
局部分形密度图估计分支将特征图压缩成三通道并上采样为原图的2倍,然后对三通道逐一进行局部分形密度图估计模块与直方图统计描述,得到48维的局部密度统计描述向量;
全局池化分支将特征图进行全局平均池化,并通过全连接层将输出向量维度压缩到48;
采用双线性池化对局部分形密度图估计分支及全局池化分支得到的向量进行耦合得到预测向量的类别概率;
将预测向量真实类别所对应的独热编码向量进行对比,计算交叉熵损失函数,通过多次迭代,得到训练后的局部分形统计描述网络模型。


3.根据权利要求2所述的场景图像分类方法,其特征在于,所述局部分形密度图估计模块的实现过程,具体为:
在通过多尺度卷积层及最小二乘拟合估计每个特征图像像素点密度的过程。


4.根据权利要求2所述的场景图像分类方法,其特征在于,所述直方图统计描述具体为:将场景图像的不同构成结构通过直方图分片的方式划分至不同的特征图中,并求和计算各分片的统计值。


5.根据权利要求1-4任一项所述的场景图像分类方...

【专利技术属性】
技术研发人员:许勇黎枫全宇晖
申请(专利权)人:华南理工大学
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1