一种深度学习模型的训练方法及装置制造方法及图纸

技术编号:37797689 阅读:13 留言:0更新日期:2023-06-09 09:27
本发明专利技术公开了一种深度学习模型的训练方法及装置,所述方法包括:向深度学习模型输入N批mini

【技术实现步骤摘要】
一种深度学习模型的训练方法及装置


[0001]本专利技术涉及深度学习
,尤其涉及一种深度学习模型的训练方法及装置。

技术介绍

[0002]目前,智能机器人在商场、机场、车站等公共场所的应用日益广泛,对建筑物、绿化带、行人、车辆等进行分割和识别已经成为其必不可少的功能。这些功能的实现都依赖于ResNet、YOLO等复杂深度神经网络及其配套学习算法。目标检测就是找出图像中所有感兴趣的物体,包含物体定位和物体分类两个子任务,同时确定物体的类别和位置。
[0003]目前大多数的深度学习任务的尺度一般为224*224,检测任务coco数据集则是640*640,在许多真实情况下存在一些1280*960分辨率的训练任务,虽然可以在输入深度模型前降低图片的分辨率从而提高batch size,但是在某些实际项目中(电路板缺陷检测,真实场景垃圾分类和某些高精度工业级项目),降低输入图片的分辨率会在训练过程中损失部分特征,且违背使用高分辨率相机的初衷造成浪费,在这种情况下,batch size的设置受限于计算机算力和实际任务,数据存在局部过拟合的问题,导致训练过程无法良好的提取特征最终导致训练出的模型不能落地。
[0004]由上述可得,现有的深度学习模型的训练方法在batch size设置受限的情况下,导致特征提取过程中数据局部过拟合的问题,最终会造成训练模型鲁棒性不高的问题。

技术实现思路

[0005]本专利技术实施例提供一种深度学习模型的训练方法及装置,能够在batch size设置受限的情况下解决数据局部过拟合的问题,从而提高了训练深度学习模型的鲁棒性。
[0006]本申请实施例的第一方面提供了一种深度学习模型的训练方法,包括:
[0007]向深度学习模型输入N批mini

batch,以使深度学习模型根据N批mini

batch计算出相应的N个均值和N个方差;
[0008]根据N个均值计算全局均值后,根据N个均值以及全局均值计算得到权重系数;
[0009]根据N个方差计算标准差后,根据N个方差以及标准差计算得到偏差;
[0010]根据权重系数对N个均值进行线性变换,生成第一数据特征;
[0011]根据偏差对N个方差进行线性变换,生成第二数据特征;
[0012]根据第一数据特征和第二数据特征训练深度学习模型。
[0013]在第一方面的一种可能的实现方式中,根据N个均值以及全局均值计算得到权重系数,具体为:
[0014][0015][0016]σ

σ+α(σ
b

σ);
[0017]其中,r为权重系数,σ
b
表示当前训练迭代过程中的实际统计到的均值标准差,σ表示网络推理时的标准差,r
max
一般取1

10。
[0018]在第一方面的一种可能的实现方式中,根据N个方差计算标准差后,根据N个方差以及标准差计算得到偏差,具体为:
[0019][0020][0021]μ

μ+α(μ
b

μ);
[0022]其中,d为偏差,μ
b
表示当前训练迭代过程中的实际统计到的均值。
[0023]在第一方面的一种可能的实现方式中,根据N个均值计算全局均值,具体为:
[0024]根据指数滑动平均方法,结合N个均值,计算得到全局均值。
[0025]在第一方面的一种可能的实现方式中,根据N个方差计算标准差,具体为:
[0026]根据指数滑动平均方法,结合N个方差,计算得到标准差。
[0027]本申请实施例的第二方面提供了一种深度学习模型的训练,包括:输入模块、第一计算模块、第二计算模块、第一变换模块、第二变换模块和训练模块;
[0028]其中,输入模块用于向深度学习模型输入N批mini

batch,以使深度学习模型根据N批mini

batch计算出相应的N个均值和N个方差;
[0029]第一计算模块用于根据N个均值计算全局均值后,根据N个均值以及全局均值计算得到权重系数;
[0030]第二计算模块用于根据N个方差计算标准差后,根据N个方差以及标准差计算得到偏差;
[0031]第一变换模块用于根据权重系数对N个均值进行线性变换,生成第一数据特征;
[0032]第二变换模块用于根据偏差对N个方差进行线性变换,生成第二数据特征;
[0033]训练模块用于根据第一数据特征和第二数据特征训练深度学习模型。
[0034]在第二方面的一种可能的实现方式中,根据N个均值以及全局均值计算得到权重系数,具体为:
[0035][0036][0037]σ

σ+α(σ
b

σ);
[0038]其中,r为权重系数,σ
b
表示当前训练迭代过程中的实际统计到的均值标准差,σ表示网络推理时的标准差,r
max
一般取1

10。
[0039]在第二方面的一种可能的实现方式中,根据N个方差计算标准差后,根据N个方差
以及标准差计算得到偏差,具体为:
[0040][0041][0042]μ

μ+α(μ
b

μ);
[0043]其中,d为偏差,μ
b
表示当前训练迭代过程中的实际统计到的均值。
[0044]在第二方面的一种可能的实现方式中,根据N个均值计算全局均值,具体为:
[0045]根据指数滑动平均方法,结合N个均值,计算得到全局均值。
[0046]本申请实施例的第三方面提供了一种基于深度学习模型的目标检测系统,包括:摄像头、通信装置、数据存储装置、中央控制装置以及深度学习模型;
[0047]其中,摄像头用于根据中央控制装置所发送的第一指令,设置相机设备的参数,获取图像数据;
[0048]通信装置用于实现中央控制装置与外界设备的双向通信;
[0049]数据存储装置用于根据中央控制装置所发送的第二指令,向中央控制装置反馈系统当前工作状态信息;
[0050]中央控制模块用于向摄像头发送第一指令,以获得图像数据并发送至深度学习模型;用于向数据存储装置发送第二指令,以获得系统当前工作状态信息;
[0051]深度学习模型用于根据中央控制装置发送的图像数据进行目标检测。
[0052]相比于现有技术,本专利技术实施例提供的一种深度学习模型的训练方法及装置,所述方法包括:向深度学习模型输入N批mini

batch,以使深度学习模型根据N批mini

batch计算出相应的N个均值和N个方差;根据N个均值计算全局均值后,根据N个均值以及全局均值计算得到权重系数;根据本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种深度学习模型的训练方法,其特征在于,包括::向深度学习模型输入N批mini

batch,以使所述深度学习模型根据所述N批mini

batch计算出相应的N个均值和N个方差;根据所述N个均值计算全局均值后,根据所述N个均值以及所述全局均值计算得到权重系数;根据所述N个方差计算标准差后,根据所述N个方差以及所述标准差计算得到偏差;根据所述权重系数对所述N个均值进行线性变换,生成第一数据特征;根据所述偏差对所述N个方差进行线性变换,生成第二数据特征;根据所述第一数据特征和所述第二数据特征训练所述深度学习模型。2.根据权利要求1所述的一种深度学习模型的训练方法,其特征在于,所述根据所述N个均值以及所述全局均值计算得到权重系数,具体为:个均值以及所述全局均值计算得到权重系数,具体为:σ

σ+α(σ
b

σ);其中,r为所述权重系数,σ
b
表示当前训练迭代过程中的实际统计到的均值标准差,σ表示网络推理时的标准差,r
max
一般取1

10。3.根据权利要求2所述的一种深度学习模型的训练方法,其特征在于,所述根据所述N个方差计算标准差后,根据所述N个方差以及所述标准差计算得到偏差,具体为:个方差计算标准差后,根据所述N个方差以及所述标准差计算得到偏差,具体为:μ

μ+α(μ
b

μ);其中,d为所述偏差,μ
b
表示当前训练迭代过程中的实际统计到的均值。4.根据权利要求3所述的一种深度学习模型的训练方法,其特征在于,所述根据所述N个均值计算全局均值,具体为:根据指数滑动平均方法,结合所述N个均值,计算得到所述全局均值。5.根据权利要求4所述的一种深度学习模型的训练方法,其特征在于,所述根据所述N个方差计算标准差,具体为:根据指数滑动平均方法,结合所述N个方差,计算得到所述标准差。6.一种深度学习模型的训练装置,其特征在于,包括::输入模块、第一计算模块、第二计算模块、第一变换模块、第二变换模块和训练模块;其中,所述输入模块用于向深度学习模型输入N批mini

batch,以使所述深度学习模型根据所述N批mini

batch计算出相应的N个均值和N个方差;

【专利技术属性】
技术研发人员:万里红吴国栋袁野
申请(专利权)人:中原动力智能机器人有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1