基于深度学习的图像识别方法及识别系统技术方案

技术编号：42592570 阅读：5 留言：0更新日期：2024-09-03 18:07

本发明专利技术提供一种基于深度学习的图像识别方法及识别系统，属于图像识别技术领域，利用卷积神经网络提取待识别图像中包含每个像素的多尺度特征元素的多尺度特征向量；遍历所述待识别图像中每个像素，并采用Softmax激活函数将像素的多尺度特征元素转换成类别概率值；将每个像素的多尺度特征元素映射至特征空间，并在所述特征空间内将每个像素的多尺度特征元素与对应的类别概率值进行拼接，得到每个像素的特征‑概率向量；将每个像素的特征‑概率向量逐一输入预训练的阈值预测网络进行预测，输出动态概率阈值；通过比较每个像素的类别概率值与动态概率阈值，将高于所述动态概率阈值的像素分配给目标物的类别，得到所述目标物对应的识别结果。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及图像识别，尤其涉及一种基于深度学习的图像识别方法及识别系统。

技术介绍

1、图像识别是计算机视觉的核心任务之一，传统的图像识别方法主要依赖于手工设计的特征和机器学习算法，如sift、surf等，但在面对复杂背景、光照变化、遮挡等情况时，识别准确率往往大打折扣。近年来，随着深度学习技术的发展，尤其是卷积神经网络（convolutional neural networks, cnns）的广泛应用，图像识别技术取得了显著进步，能够自动学习到图像的深层特征，有效提升识别精度。

2、然而，现有基于cnn的图像识别方法大多采用固定阈值对像素进行分类，这在一定程度上限制了识别的灵活性和准确性。例如，在不同光照条件下，同一物体的特征表达可能会有较大差异，固定阈值难以适应这种变化，导致误识别或漏识别。

3、此外，对于图像中的每个像素，其重要性（即对最终识别结果的贡献度）并非一致，固定阈值忽略了这一事实，可能使得关键信息被忽略，非关键区域却被过度重视。

4、因此，有必要提供一种基于深度学习的图像识别方法及识别系统解决上述技术问题。

技术实现思路

1、为解决上述技术问题，本专利技术提供一种基于深度学习的图像识别方法及识别系统，通过多尺度特征提取、像素级分类、特征-概率向量拼接和动态概率阈值预测，不仅能够捕捉到图像中目标物的多尺度特征，还能根据像素级别的信息动态调整分类阈值，从而实现更精准的目标物识别。

2、本专利技术提供的一种基于深度学习的图

3、利用卷积神经网络提取待识别图像的多尺度特征向量，其中，所述多尺度特征向量包括对应于所述待识别图像中每个像素的多尺度特征元素；

4、遍历所述待识别图像中每个像素，并采用softmax激活函数将像素的多尺度特征元素转换成类别概率值；

5、将每个像素的多尺度特征元素映射至特征空间，并在所述特征空间内将每个像素的多尺度特征元素与对应的类别概率值进行拼接，得到每个像素的特征-概率向量；

6、将每个像素的特征-概率向量逐一输入预训练的阈值预测网络进行预测，输出动态概率阈值；

7、通过比较每个像素的类别概率值与动态概率阈值，将高于所述动态概率阈值的像素分配给目标物的类别，得到所述目标物对应的识别结果。

8、优选的，所述利用卷积神经网络提取待识别图像的多尺度特征向量，包括：

9、构建基于u-net架构的卷积神经网络；

10、对所述待识别图像进行图像预处理，其中，所述图像预处理包括尺寸调整和归一化；

11、通过基于u-net架构的卷积神经网络中具有不同大小卷积核的卷积层提取预处理后的所述待识别图像的不同尺度的特征；

12、通过上采样将不同尺度的特征进行融合，得到所述待识别图像的多尺度特征向量；

13、对所述待识别图像的多尺度特征向量进行像素级分割，得到所述待识别图像中每个像素的多尺度特征元素。

14、优选的，所述遍历所述待识别图像中每个像素，并采用softmax激活函数将像素的多尺度特征元素转换成类别概率值，包括：

15、对每个像素的多尺度特征元素进行平坦化处理，得到每个像素的一维向量；

16、通过全连接层将每个像素的一维向量映射到类别空间，得到每个像素的类别向量；

17、利用softmax函数将每个像素的类别向量转换为类别概率值。

18、优选的，所述将每个像素的多尺度特征元素映射至特征空间，并在所述特征空间内将每个像素的多尺度特征元素与对应的类别概率值进行拼接，包括：

19、将每个像素的多尺度特征元素通过非线性变换映射至预先定义的高维特征空间，以在所述高维特征空间将每个像素的多尺度特征元素表示为特定向量；

20、在所述高维特征空间中，采用串联方式对每个像素的特定向量与对应的类别概率值的类别向量进行拼接，形成包含特定向量与类别向量的特征-概率向量。

21、优选的，所述阈值预测网络的构建步骤包括：

22、收集包括样本特征-概率向量及相应的样本阈值标签的数据集，并分为训练集和验证集；

23、利用所述训练集通过反向传播算法优化基于神经网络的阈值预测网络的网络权重，直至所述阈值预测网络收敛；

24、利用所述验证集评估所述阈值预测网络，并根据评估结果调整所述阈值预测网络的参数，以得到训练好的阈值预测网络。

25、优选的，所述将每个像素的特征-概率向量逐一输入预训练的阈值预测网络进行预测，输出动态概率阈值，包括：

26、将每个像素的特征-概率向量依次输入到预训练的阈值预测网络中；

27、通过所述阈值预测网络对输入的特征-概率向量进行前向传播，最终输出动态概率阈值。

28、优选的，所述通过比较每个像素的类别概率值与动态概率阈值，将高于所述动态概率阈值的像素分配给目标物的类别，得到所述目标物对应的识别结果，包括：

29、遍历所述待识别图像中的每一个像素，将每个像素的类别概率值与动态概率阈值进行比较，若类别概率值大于或等于动态概率阈值，则认为像素属于目标物的类别；否则，认为像素不属于目标物的类别；

30、根据比较的结果，将高于动态概率阈值的像素分配给目标物的类别；

31、汇总所有像素的分配结果，得到所述待识别图像的目标物识别结果。

32、本专利技术还提供了一种基于深度学习的图像识别系统，用于执行一种基于深度学习的图像识别方法，识别系统包括：

33、多尺度特征提取模块，用于利用卷积神经网络提取待识别图像的多尺度特征向量，其中，所述多尺度特征向量包括对应于所述待识别图像中每个像素的多尺度特征元素；

34、概率预测模块，用于遍历所述待识别图像中每个像素，并采用softmax激活函数将像素的多尺度特征元素转换成类别概率值；

35、特征-概率融合模块，用于将每个像素的多尺度特征元素映射至特征空间，并在所述特征空间内将每个像素的多尺度特征元素与对应的类别概率值进行拼接，得到每个像素的特征-概率向量；

36、动态阈值预测模块，用于将每个像素的特征-概率向量逐一输入预训练的阈值预测网络进行预测，输出动态概率阈值；

37、结果生成模块，用于通过比较每个像素的类别概率值与动态概率阈值，将高于所述动态概率阈值的像素分配给目标物的类别，得到所述目标物对应的识别结果。

38、与相关技术相比较，本专利技术提供的一种基于深度学习的图像识别方法及识别系统具有如下有益效果：

39、本专利技术通过利用卷积神经网络提取待识别图像的多尺度特征向量，并通过softmax激活函数将像素的多尺度特征元素转换成类别概率值，随后，将特征元素与类别概率值在特征空间内进行拼接，形成特征-概率向量，最后，通过预训练的阈值预测网络生成动态概率阈值，并与类别概率值进行比较，实本文档来自技高网...

【技术保护点】

1.一种基于深度学习的图像识别方法，其特征在于，识别方法包括以下步骤：

2.根据权利要求1所述的一种基于深度学习的图像识别方法，其特征在于，所述利用卷积神经网络提取待识别图像的多尺度特征向量，包括：

3.根据权利要求2所述的一种基于深度学习的图像识别方法，其特征在于，所述遍历所述待识别图像中每个像素，并采用Softmax激活函数将像素的多尺度特征元素转换成类别概率值，包括：

4.根据权利要求3所述的一种基于深度学习的图像识别方法，其特征在于，所述将每个像素的多尺度特征元素映射至特征空间，并在所述特征空间内将每个像素的多尺度特征元素与对应的类别概率值进行拼接，包括：

5.根据权利要求4所述的一种基于深度学习的图像识别方法，其特征在于，所述阈值预测网络的构建步骤包括：

6.根据权利要求5所述的一种基于深度学习的图像识别方法，其特征在于，所述将每个像素的特征-概率向量逐一输入预训练的阈值预测网络进行预测，输出动态概率阈值，包括：

7.根据权利要求6所述的一种基于深度学习的图像识别方法，其特征在于，所述通过比较每个像

8.一种基于深度学习的图像识别系统，执行如权利要求1至7任意一项所述的一种基于深度学习的图像识别方法，其特征在于，识别系统包括：

...

【技术特征摘要】

1.一种基于深度学习的图像识别方法，其特征在于，识别方法包括以下步骤：

2.根据权利要求1所述的一种基于深度学习的图像识别方法，其特征在于，所述利用卷积神经网络提取待识别图像的多尺度特征向量，包括：

3.根据权利要求2所述的一种基于深度学习的图像识别方法，其特征在于，所述遍历所述待识别图像中每个像素，并采用softmax激活函数将像素的多尺度特征元素转换成类别概率值，包括：

5.根...

【专利技术属性】
技术研发人员：丁犇，化雪荟，赵雪章，张玉，赖华景，李颖，柳淦元，连佳生，
申请(专利权)人：佛山职业技术学院，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人