一种场景识别方法、装置、设备和存储介质制造方法及图纸

技术编号:35877127 阅读:7 留言:0更新日期:2022-12-07 11:15
本发明专利技术公开了一种场景识别方法、装置、设备和存储介质,该方法包括:获取待识别场景对应的待识别图像;将所述待识别图像输入预先训练好的场景识别模型中,以使所述场景识别模型基于Stem结构、第一Inception结构、至少一个第二Inception结构和全局平均池化层依次对所述待识别图像进行处理,得到所述待识别图像对应的目标特征信息,并基于全连接层对所述目标特征信息进行分类,得到所述待识别图像的预测分类;根据所述待识别图像的预测分类确定所述待识别场景的场景识别结果。上述技术方案,实现根据参数量较少的预先训练好的场景识别模型确定待识别场景对应的待识别图像的预测分类,并根据待识别图像的预测分类确定待识别场景的场景识别结果,提升场景识别效率。提升场景识别效率。提升场景识别效率。

【技术实现步骤摘要】
一种场景识别方法、装置、设备和存储介质


[0001]本专利技术实施例涉及图像处理技术,尤其涉及一种场景识别方法、装置、设备和存储介质。

技术介绍

[0002]场景识别需要根据待识别场景对应的待识别图像,确定待识别场景的场景类型或者位置信息,从而帮助智能系统对待识别场景进行高度准确的语义概括。
[0003]现有技术中,可以基于具有学习能力的神经网络模型提取待识别场景对应的待识别图像的特征信息,并根据特征信息确定待识别场景的场景类型或者位置信息。场景识别需要同时考虑待识别图像中的物体信息、背景信息和上下文信息,给识别任务带来较大的困难,且目前用于场景识别的神经网络模型普遍存在参数量较大的问题。

技术实现思路

[0004]本专利技术提供一种场景识别方法、装置、设备和存储介质,以实现根据参数量较少的预先训练好的场景识别模型确定待识别场景对应的待识别图像的预测分类,并根据待识别图像的预测分类确定待识别场景的场景识别结果,提升场景识别效率。
[0005]第一方面,本专利技术实施例提供了一种场景识别方法,包括:
[0006]获取待识别场景对应的待识别图像;将所述待识别图像输入预先训练好的场景识别模型中,以使所述场景识别模型基于Stem结构、第一Inception结构、至少一个第二Inception结构和全局平均池化层依次对所述待识别图像进行处理,得到所述待识别图像对应的目标特征信息,并基于全连接层对所述目标特征信息进行分类,得到所述待识别图像的预测分类;根据所述待识别图像的预测分类确定所述待识别场景的场景识别结果。
[0007]本专利技术实施例的技术方案,获取到待识别场景对应的待识别图像之后,将待识别图像输入预先训练好的场景识别模型中,场景识别模型首先可以基于Stem结构对待识别图像进行尺寸缩放,其次可以基于第一Inception结构对经过Stem结构进行尺寸缩放的待识别图像进行多尺度特征提取后进行特征融合,得到于第一Inception结构的输出特征,实现并行通过不同尺度的卷积分支和池化分支对经过Stem结构进行尺寸缩放的待识别图像进行特征提取,进而可以基于模块化堆叠的至少一个第二Inception结构改变第一Inception结构所输出特征的通道数,且保持其尺寸不变,得到于第二Inception结构的输出特征,有效避免网络加深引发的梯度问题和网络退化问题,且结构简单、灵活、易于实现,接下来可以基于全局平均池化层对第二Inception结构所输出特征进行平均池化操作,降低了模型的参数量,减轻了过拟合效应,并保留了空间位置信息,并将平均池化后的第二Inception结构的输出特征输入到带Softmax激活函数的全连接层,得到待识别图像的预测分类,最后可以根据待识别图像的预测分类确定待识别场景的场景识别结果为待识别场景的场景类型或者位置信息,实现根据参数量较少的预先训练好的场景识别模型确定待识别场景对应的待识别图像的预测分类,并根据待识别图像的预测分类确定待识别场景的场景识别结
果,提升场景识别效率。
[0008]第二方面,本专利技术实施例还提供了一种场景识别装置,包括:
[0009]获取模块,用于获取待识别场景对应的待识别图像;处理模块,用于将所述待识别图像输入预先训练好的场景识别模型中,以使所述场景识别模型基于Stem结构、第一Inception结构、至少一个第二Inception结构和全局平均池化层依次对所述待识别图像进行处理,得到所述待识别图像对应的目标特征信息,并基于全连接层对所述目标特征信息进行分类,得到所述待识别图像的预测分类;确定模块,用于根据所述待识别图像的预测分类确定所述待识别场景的场景识别结果。
[0010]第三方面,本专利技术实施例还提供了一种计算机设备,所述计算机设备包括:至少一个处理器;以及与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的计算机程序,所述计算机程序被所述至少一个处理器执行,以使所述至少一个处理器能够执行第一方面中任一项所述的场景识别方法。
[0011]第四方面,本专利技术实施例还提供了一种包含计算机可执行指令的存储介质,所述计算机可执行指令在由计算机处理器执行时用于执行第一方面中任一所述的场景识别方法。
[0012]第五方面,本申请提供一种计算机程序产品,该计算机程序产品包括计算机指令,当计算机指令在计算机上运行时,使得计算机执行如第一方面提供的场景识别方法。
[0013]需要说明的是,上述计算机指令可以全部或者部分存储在计算机可读存储介质上。其中,计算机可读存储介质可以与场景识别装置的处理器封装在一起的,也可以与场景识别装置的处理器单独封装,本申请对此不做限定。
[0014]本申请中第二方面、第三方面、第四方面以及第五方面的描述,可以参考第一方面的详细描述;并且,第二方面、第三方面、第四方面、以及第五方面的描述的有益效果,可以参考第一方面的有益效果分析,此处不再赘述。
[0015]在本申请中,上述场景识别装置的名字对设备或功能模块本身不构成限定,在实际实现中,这些设备或功能模块可以以其他名称出现。只要各个设备或功能模块的功能和本申请类似,属于本申请权利要求及其等同技术的范围之内。
[0016]本申请的这些方面或其他方面在以下的描述中会更加简明易懂。
附图说明
[0017]为了更清楚地说明本专利技术实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0018]图1为现有技术提供的场景识别模型的示意图;
[0019]图2为本专利技术实施例提供的一种场景识别方法的流程图;
[0020]图3为本专利技术实施例提供的一种场景识别方法中场景识别模型的示意图;
[0021]图4为本专利技术实施例提供的另一种场景识别方法的流程图;
[0022]图5为本专利技术实施例提供的一种场景识别方法中场景识别模型所包含的Stem结构的示意图;
[0023]图6为现有技术中初始Inception结构的示意图;
[0024]图7为本专利技术实施例提供的一种场景识别方法中场景识别模型所包含的第一Inception结构的示意图;
[0025]图8为本专利技术实施例提供的一个5
×
5卷积核的卷积层和两个3
×
3卷积核的卷积层的等价分析图;
[0026]图9为现有技术中残差连接模块的示意图;
[0027]图10为本专利技术实施例提供的一种场景识别方法中场景识别模型所包含的第二Inception结构的示意图;
[0028]图11a本专利技术实施例提供的一种场景识别方法中逐通道卷积的示意图,图11b本专利技术实施例提供的一种场景识别方法中逐点卷积的示意图;
[0029]图12为本专利技术实施例提供的一种场景识别方法中步骤430的流程图;
[0030]图1本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种场景识别方法,其特征在于,包括:获取待识别场景对应的待识别图像;将所述待识别图像输入预先训练好的场景识别模型中,以使所述场景识别模型基于Stem结构、第一Inception结构、至少一个第二Inception结构和全局平均池化层依次对所述待识别图像进行处理,得到所述待识别图像对应的目标特征信息,并基于全连接层对所述目标特征信息进行分类,得到所述待识别图像的预测分类;根据所述待识别图像的预测分类确定所述待识别场景的场景识别结果。2.根据权利要求1所述的场景识别方法,其特征在于,所述场景识别模型基于Stem结构对所述待识别图像进行处理,包括:将所述待识别图像输入所述Stem结构,以使所述Stem结构基于三个步长为2的3
×
3卷积核的卷积层、三个步长为1的3
×
3卷积核的卷积层、一个步长为1的1
×
1卷积核的卷积层对所述待识别图像进行处理,以减小所述待识别图像的宽度和高度,增加所述待识别图像的通道数,得到所述待识别图像对应的第一特征信息。3.根据权利要求2所述的场景识别方法,其特征在于,所述场景识别模型基于第一Inception结构对所述待识别图像进行处理,包括:将所述第一特征信息输入所述第一Inception结构,以使所述第一Inception结构基于1
×
1卷积核的卷积层对所述第一特征信息进行第一尺寸的特征提取,得到第一中间特征;基于1
×
1卷积核的卷积层、5
×
1卷积核的卷积层和1
×
5卷积核的卷积层对所述第一特征信息进行第二尺寸的特征提取,得到第二中间特征;基于1
×
1卷积核的卷积层、3
×
3卷积核的卷积层、3
×
1卷积核的卷积层和1
×
3卷积核的卷积层对所述第一特征信息进行第二尺寸的特征提取,得到第三中间特征;基于3
×
3卷积核的最大池化层和1
×
1卷积核的卷积层对所述第一特征信息进行第一尺寸的特征提取,得到第四中间特征;融合所述第一中间特征、所述第二中间特征、所述第三中间特征和所述第四中间特征得到所述待识别图像对应的第二特征信息。4.根据权利要求3所述的场景识别方法,其特征在于,所述场景识别模型基于第二Inception结构对所述待识别图像进行处理,包括:将所述第二特征信息输入所述第二Inception结构,以使所述第二Inception结构基于1
×
1卷积核的卷积层对所述第二特征信息进行第一尺寸的特征提取,得到第五中间特征;基于1
×
1卷积核的卷积层、3
×
1卷积核的卷积层和1
×
3卷积核的卷积层对所述第二特征信息进行第三尺寸的特征提取,得到第六中间特征;基于1
×
1卷积核的卷积层、7
...

【专利技术属性】
技术研发人员:谢莲铭
申请(专利权)人:中国农业银行股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1