【技术实现步骤摘要】
一种深度学习模型的训练方法及装置
[0001]本专利技术涉及深度学习
,尤其涉及一种深度学习模型的训练方法及装置。
技术介绍
[0002]目前,智能机器人在商场、机场、车站等公共场所的应用日益广泛,对建筑物、绿化带、行人、车辆等进行分割和识别已经成为其必不可少的功能。这些功能的实现都依赖于ResNet、YOLO等复杂深度神经网络及其配套学习算法。目标检测就是找出图像中所有感兴趣的物体,包含物体定位和物体分类两个子任务,同时确定物体的类别和位置。
[0003]目前大多数的深度学习任务的尺度一般为224*224,检测任务coco数据集则是640*640,在许多真实情况下存在一些1280*960分辨率的训练任务,虽然可以在输入深度模型前降低图片的分辨率从而提高batch size,但是在某些实际项目中(电路板缺陷检测,真实场景垃圾分类和某些高精度工业级项目),降低输入图片的分辨率会在训练过程中损失部分特征,且违背使用高分辨率相机的初衷造成浪费,在这种情况下,batch size的设置受限于计算机算力和实际任务,数据存在局部过拟合的问题,导致训练过程无法良好的提取特征最终导致训练出的模型不能落地。
[0004]由上述可得,现有的深度学习模型的训练方法在batch size设置受限的情况下,导致特征提取过程中数据局部过拟合的问题,最终会造成训练模型鲁棒性不高的问题。
技术实现思路
[0005]本专利技术实施例提供一种深度学习模型的训练方法及装置,能够在batch size设置受限的情况下解 ...
【技术保护点】
【技术特征摘要】
1.一种深度学习模型的训练方法,其特征在于,包括::向深度学习模型输入N批mini
‑
batch,以使所述深度学习模型根据所述N批mini
‑
batch计算出相应的N个均值和N个方差;根据所述N个均值计算全局均值后,根据所述N个均值以及所述全局均值计算得到权重系数;根据所述N个方差计算标准差后,根据所述N个方差以及所述标准差计算得到偏差;根据所述权重系数对所述N个均值进行线性变换,生成第一数据特征;根据所述偏差对所述N个方差进行线性变换,生成第二数据特征;根据所述第一数据特征和所述第二数据特征训练所述深度学习模型。2.根据权利要求1所述的一种深度学习模型的训练方法,其特征在于,所述根据所述N个均值以及所述全局均值计算得到权重系数,具体为:个均值以及所述全局均值计算得到权重系数,具体为:σ
←
σ+α(σ
b
‑
σ);其中,r为所述权重系数,σ
b
表示当前训练迭代过程中的实际统计到的均值标准差,σ表示网络推理时的标准差,r
max
一般取1
‑
10。3.根据权利要求2所述的一种深度学习模型的训练方法,其特征在于,所述根据所述N个方差计算标准差后,根据所述N个方差以及所述标准差计算得到偏差,具体为:个方差计算标准差后,根据所述N个方差以及所述标准差计算得到偏差,具体为:μ
←
μ+α(μ
b
‑
μ);其中,d为所述偏差,μ
b
表示当前训练迭代过程中的实际统计到的均值。4.根据权利要求3所述的一种深度学习模型的训练方法,其特征在于,所述根据所述N个均值计算全局均值,具体为:根据指数滑动平均方法,结合所述N个均值,计算得到所述全局均值。5.根据权利要求4所述的一种深度学习模型的训练方法,其特征在于,所述根据所述N个方差计算标准差,具体为:根据指数滑动平均方法,结合所述N个方差,计算得到所述标准差。6.一种深度学习模型的训练装置,其特征在于,包括::输入模块、第一计算模块、第二计算模块、第一变换模块、第二变换模块和训练模块;其中,所述输入模块用于向深度学习模型输入N批mini
‑
batch,以使所述深度学习模型根据所述N批mini
‑
batch计算出相应的N个均值和N个方差;
【专利技术属性】
技术研发人员:万里红,吴国栋,袁野,
申请(专利权)人:中原动力智能机器人有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。