一种用于模式识别的深度学习网络训练方法及系统技术方案

技术编号：43123798 阅读：12 留言：0更新日期：2024-10-26 10:03

本发明专利技术提供一种用于模式识别的深度学习网络训练方法及系统，涉及深度学习领域；方法包括数据准备阶段、模型初始化阶段、前向传播阶段、损失计算阶段、反向传播阶段、模型评估阶段和结果分析阶段，损失计算阶段通过计算类内分类损失、最小化训练样本与类均值之间类内损失和最近对手类类间损失、最大化样本与最近对手类间损失，优化类内距离和类间距离；本方案解决现有深度神经网络特征提取时缺乏获取判别特征的能力，显著提升用于模式识别的深度卷积神经网络模型的判别特征提取能力。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及深度学习，具体涉及一种用于模式识别的深度学习网络训练方法及系统。

技术介绍

1、模式识别相关技术广泛应用于安防、身份验证、智能设备用户交互、人们的日常生活等。随着深度学习的迅猛发展，卷积神经网络(cnn)因其强大的特征学习能力成为模式识别的主流方法之一。cnn识别模型通常使用归一化指数(softmax)交叉熵损失函数以及中心损失(centerloss)函数等，此类损失函数缺乏类间信息，无法扩大类间差异，限制了识别模型判别特征提取能力。

2、在现有技术中，模式识别方法主要依赖于特征提取和分类算法的结合。传统的特征提取方法包括手工设计的特征和自动学习的特征两类。手工设计的特征如尺度不变特征转换(sift)、方向梯度直方图(hog)等，需要结合领域知识精心设计，十分繁琐，此类人工设计的特征逐渐被深度神经网络模型代替。自动学习的特征，如卷积神经网络(cnn)提取的特征，具有更强的表达能力和适应性。然而，现有的损失函数在处理类间相似性问题方面存在不足；softmax、centerloss等交叉熵损失函数主要通过最小化类内差异获取特征，不具有类间信息，无法获取类间判别特征。

3、即在传统的深度学习模型中，softmax、centerloss等交叉熵损失函数主要关注类内紧缩，无类间信息，缺乏判别特征提取能力，从而限制了分类模型在处理相似类别时的性能。

技术实现思路

1、本专利技术目的在于提供一种用于模式识别的深度学习网络训练方法及系统，在softmax交叉熵

2、为达成上述目的，本专利技术提出如下技术方案：

3、第一方面，提出一种用于模式识别的深度学习网络训练方法，包括：

4、获取数据并进行预处理获得训练数据，构建训练数据集，并划分为训练集和验证集；其中，所述训练数据包括特征数据、标签和均值点数据；

5、构建用于模式识别的深度卷积神经网络模型，配置类内分类损失函数和类间分类损失函数提取判别特征；其中，所述深度卷积神经网络模型采用多层卷积神经网络架构，包括多个卷积层、批量规范化层、激活函数、残差模块、全局平均池化层和全连接层；

6、根据所述训练集，采用前向传播算法训练所述深度卷积神经网络模型，评估用于所述判别特征提取的损失函数的性能；

7、根据所述损失函数的性能的评估结果，采用反向传播算法，基于损失函数计算参数梯度，更新所述深度卷积神经网络模型的参数；

8、根据所述验证集，计算所述深度卷积神经网络模型的分类准确率，评估所述深度卷积神经网络模型的性能；

9、根据所述深度卷积神经网络模型的评估结果，优化所述深度卷积神经网络模型的配置和训练策略。

10、进一步的，所述类内分类损失函数通过最小化样本特征与其对应类别均值之间的欧几里得距离，使得类内特征紧凑；

11、所述类内分类损失函数的具体公式为：

12、

13、其中，xi表示第i个训练样本的特征向量，表示第yi类的均值向量，m为训练样本总数。

14、进一步的，所述类内分类损失函数的实现步骤如下：

15、初始化每个类别的所有训练样本的均值向量；

16、在每次模型训练过程中，计算每个训练样本的样本特征与其对应类别均值向量之间的欧几里得距离；

17、通过反向传播优化均值向量和样本特征，使得特征距离最小化；

18、更新均值向量。

19、进一步的，所述类间分类损失函数通过比较训练样本与其最近的对手类的均值向量之间的距离，增加类间特征的差异性；

20、所述类间分类损失函数的具体公式为：

21、

22、其中，xi表示第i个训练样本的特征向量，cni表示与xi最近的对手类的均值向量，m为训练样本总数。

23、进一步的，所述类间分类损失函数的实现步骤如下：

24、对每个训练样本，通过所述深度卷积神经网络模型计算其分类概率，确定其最近的对手类；

25、对任一训练样本，计算该训练样本的样本特征与其最近的对手类均值向量之间的距离；

26、在总损失函数中引入所述距离，通过反向传播最小化该距离的差异，使得不同类别的特征在特征空间中分离。

27、进一步的，所述深度卷积神经网络模型的总损失函数由类内分类损失函数和类间分类损失函数共同组成，通过调整权重参数，平衡分类准确率和特征分布的优化；

28、所述总损失函数l的具体公式为：

29、l＝lsoftmax+λ1lc-λ2lr

30、其中，lsoftmax表示传统的softmax函数损失，lc表示类内分类损失，lr表示类间分类损失，λ1和λ2为权重参数，并且权重参数λ1和λ2的值通过交叉验证确定。

31、进一步的，所述均值向量的更新策略为采用滑动平均动态更新策略，实现步骤如下：

32、在模型训练开始时，随机初始化类别均值向量；

33、在每个训练批次中，计算当前批次训练样本的特征均值，将其作为类别均值的更新值；

34、在每次迭代中，通过滑动平均的方法，平滑地更新该类别的均值向量；其中，所述均值向量更新公式如下：

35、

36、其中，m为训练样本总数，α为更新权重，α取值范围为0.01至1。

37、第二方面，提出一种用于模式识别的深度学习网络训练系统，包括：

38、获取构建模块，用于获取数据并进行预处理获得训练数据，构建训练数据集，并划分为训练集和验证集；其中，所述训练数据包括特征数据、标签和均值点数据；

39、构建配置模块，用于构建用于模式识别的深度卷积神经网络模型，配置类内分类损失函数和类间分类损失函数提取判别特征；其中，所述深度卷积神经网络模型采用多层卷积神经网络架构，包括多个卷积层、批量规范化层、激活函数、残差模块、全局平均池化层和全连接层；

40、训练计算模块，用于根据所述训练集，采用前向传播算法训练所述深度卷积神经网络模型，评估用于所述判别特征提取的损失函数的性能；

41、更新模块，用于根据所述损失函数的性能的评估结果，采用反向传播算法，基于损失函数计算参数梯度，更新所述深度卷积神经网络模型的参数；

42、计算评估模块，用于根据所述验证集，计算所述深度卷积神经网络模型的分类准确率，评估所述深度卷积神经网络模型的性能；

43、优化模块，用于根据所述深度卷积神经网络模型的评估结果，优化所述深度卷积神经网络模型的配置和训练策略。

44、进一步的，所述深度学习网络训练系统中深度卷积神经网络模型的总损失函数由类内分类损失函数和类间分类损失函数共同组成，通过调本文档来自技高网...

【技术保护点】

1.一种用于模式识别的深度学习网络训练方法，其特征在于，包括：

2.根据权利要求1所述的用于模式识别的深度学习网络训练方法，其特征在于，所述类内分类损失函数通过最小化样本特征与其对应类别均值之间的欧几里得距离，使得类内特征紧凑；

3.根据权利要求2所述的用于模式识别的深度学习网络训练方法，其特征在于，所述类内分类损失函数的实现步骤如下：

4.根据权利要求1所述的用于模式识别的深度学习网络训练方法，其特征在于，所述类间分类损失函数通过比较训练样本与其最近的对手类的均值向量之间的距离，增加类间特征的差异性；

5.根据权利要求4所述的用于模式识别的深度学习网络训练方法，其特征在于，所述类间分类损失函数的实现步骤如下：

6.根据权利要求1所述的用于模式识别的深度学习网络训练方法，其特征在于，所述深度卷积神经网络模型的总损失函数由类内分类损失函数和类间分类损失函数共同组成，通过调整权重参数，平衡分类准确率和特征分布的优化；

7.根据权利要求3所述的用于模式识别的深度学习网络训练方法，其特征在于，所述均值向量的更新策略为

8.一种用于模式识别的深度学习网络训练系统，其特征在于，包括：

9.根据权利要求8所述的用于模式识别的深度学习网络训练系统，其特征在于，所述深度卷积神经网络模型的总损失函数由类内分类损失函数和类间分类损失函数共同组成，通过调整权重参数，平衡分类准确率和特征分布的优化；

10.一种电子设备，包括计算机程序，所述计算机程序存储在计算机可读存储介质中；当电子设备的处理器从所述计算机可读存储介质读取所述计算机程序时，所述处理器执行所述计算机程序，使得所述电子设备执行以实现权利要求1～7中任一项所述的用于模式识别的深度学习网络训练方法的步骤。

...

【技术特征摘要】

1.一种用于模式识别的深度学习网络训练方法，其特征在于，包括：

3.根据权利要求2所述的用于模式识别的深度学习网络训练方法，其特征在于，所述类内分类损失函数的实现步骤如下：

5.根据权利要求4所述的用于模式识别的深度学习网络训练方法，其特征在于，所述类间分类损失函数的实现步骤如下：

6.根据权利要求1所述的用于模式识别的深度学习网络训练方法，其特征在于，所述深度卷积神经网络模型的总损失函数由类内分类损失函数...

【专利技术属性】
技术研发人员：屈喜文，邓虎，陈锋，程泽凯，
申请(专利权)人：安徽工业大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人