神经网络模型的训练和应用方法、装置、及存储介质制造方法及图纸

技术编号：41742224 阅读：16 留言：0更新日期：2024-06-19 13:02

本发明专利技术提供神经网络模型的训练和应用方法、装置、及存储介质。神经网络模型包括M个卷积层，其中M为大于等于1的整数，该方法包括：a)获取目标数据集、神经网络的M个卷积层中N个卷积层中每个卷积层的卷积核和每个卷积核的掩模，其中N为大于或等于1、并且小于或等于M的整数，其中，掩模与卷积核具有相同的空间形状；b)对目标数据集中的训练样本进行一次或多次迭代以训练神经网络和掩模，每次迭代包括：b1)根据神经网络的预测结果和掩模中的值，计算损失值；b2)根据损失值，计算神经网络参数的梯度和掩模的梯度；b3)根据神经网络参数的梯度和掩模的梯度，更新神经网络参数和掩模中的值；c)根据掩模中的更新值更新卷积核形状。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及一种神经网络模型的训练和应用方法、装置、及存储介质，尤其涉及一种适用于卷积神经网络模型的训练方法。

技术介绍

1、深度神经网络是人工智能领域中一种具有复杂网络架构的模型，也是当前使用最广泛的网络架构之一。卷积神经网络(convolutional neural networks,cnn)是深度学习(deep learning)的典型代表之一。在现有技术中，卷积神经网络中的卷积核的形状通常是由人为设定的，例如，可以设定为3x3卷积、1x1卷积等。多样的卷积核形状能丰富神经网络的特征表达从而提升神经网络的性能。然而，人为定义的卷积核形状会限制神经网络的特征表达能力。

2、已知现有技术中存在一种使用非对称卷积来提升标准方形卷积的表达能力的方法，该方法主要包含两个阶段：训练阶段，本论文将网络中的所有3x3标准卷积换成一个非对称卷积块，其中包含三种卷积核：3x3卷积核、1x3卷积核和3x1卷积核，从而提升神经网络的特征表达能力。然后将这三种卷积核的输出相加得到结果。推理阶段，当训练完成后，将一个非对称卷积块中的三种不同卷积核相融合得到原始标准的卷积核，然后用融合之后的卷积核进行网络的推理。

3、现有技术使用非对称卷积块来提升传统标准卷积的特征表达能力，然而，整个网络都使用相同的非对称卷积块，这使得神经网络具有相似的特征提取模式，从而限制了特征表达的多样性。此外，在神经网络中，不同深度的特征表达其实是不一样的(浅层特征更多是表达结构特征，例如：纹理，边缘)而深层特征趋向于表达语义信息。所以，相同的卷积块可

技术实现思路

1、由于已知的方法存在上述问题，本公开提出了一种神经网络的训练方法，特别涉及卷积神经网络卷积核的搜索。在该方法中，首先为神经网络中每一个卷积核设置初始掩模，该掩模的形状与卷积核的形状一致。然后在神经网络训练的过程中，除了更新神经网络的参数，同时还更新掩模。之后，根据训练的掩模采样卷积核的有效位置。然后，基于采样后的卷积核对神经网络进行重新训练得到最终的神经网络模型，并用于推理。这样，自适应地为卷积神经网络的每一层搜索合适的卷积核形状，增强了网络特征表达能力，从而进一步提升了网络的性能。

2、根据本专利技术的一个方面，提供了一种神经网络模型的训练方法，其特征在于，所述神经网络包括m个卷积层，其中m为大于等于1的整数，所述方法包括：a)获取目标数据集、神经网络的m个卷积层中n个卷积层中每个卷积层的卷积核和每个卷积核的掩模，其中n为大于或等于1、并且小于或等于m的整数，其中，掩模与卷积核具有相同的空间形状；b)对目标数据集中的训练样本进行一次或多次迭代以训练神经网络和掩模，每次迭代包括以下步骤：b1)根据神经网络的预测结果和掩模中的值，计算损失值；b2)根据损失值，计算神经网络参数的梯度和掩模的梯度；b3)根据神经网络参数的梯度和掩模的梯度，更新神经网络参数和掩模中的值；c)根据掩模中的更新值更新卷积核形状。

3、从以下参照附图对示例性实施例的描述，本专利技术的其它特征将变得清楚。

本文档来自技高网...

【技术保护点】

1.一种神经网络模型的训练方法，其特征在于，所述神经网络模型包括M个卷积层，其中M为大于等于1的整数，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，在所述步骤c)中，根据所述掩模中的更新值基于从所述卷积核中采样的至少一个位置来更新所述卷积核的形状。

3.根据权利要求1所述的方法，其特征在于，在所述步骤b3)中，根据所述N个卷积层中的一个卷积层的卷积核的掩模的更新值和所述N个卷积层中的与所述一个卷积层相邻的至少一个卷积层的卷积核的掩模的更新值来更新所述N个卷积层中的所述一个卷积层的卷积核的形状。

4.根据权利要求2所述的方法，其特征在于，在所述步骤b1中，根据所述掩模中的值对所述卷积核中的至少一个位置进行采样。

5.根据权利要求2所述的方法，其中，在步骤b1中，为卷积核中的所有位置分配重要性，其中重要性由掩模中的值确定。

6.根据权利要求4所述的方法，其特征在于，所述卷积核中的位置根据掩模的值进行排序，并按照一定的比率和排序位置的顺序对所述位置进行采样。

7.根据权利要求5所述的方法，其特征在于，所

8.根据权利要求2所述的方法，其中，忽略两个卷积层中的具有与其中一个卷积层中的卷积核的位置相同空间位置的另一个的卷积层的卷积核的位置中的至少一个位置，基于所述一个卷积层的掩模所述另一个卷积层中的掩模中的更新值来确定被忽略的位置。

9.根据权利要求2所述的方法，其中，在步骤b中，忽略所述N个卷积层中的具有与一个卷积层中的卷积核的位置相同空间位置的另一个的卷积层的卷积核的位置中的至少一个位置，其中，基于所述一个卷积层的掩模和所述另一卷积层中的掩模中的更新值来确定被忽略的位置。

10.根据权利要求2所述的方法，其中，在步骤b1中，在每个训练迭代中，为所述N个卷积层中的一个卷积层中的卷积核中的所有位置以及与所述一个卷积层相邻的所述N卷积层的至少一个卷积层中的卷积核的所有位置分配重要性，其中，所述一个卷积层的卷积核中的位置的重要性由所述一个卷积层的掩模中的值和所述至少一个相邻卷积层的掩模中的值确定。

11.根据权利要求10所述的方法，其中，根据所述一个卷积层和所述至少一个相邻卷积层的掩模中的值，对所述一个卷积层与所述至少一个相邻卷积层的卷积核中的相同空间位置进行排序，并且通过所排序的位置的顺序的比率来确定忽略的位置。

12.根据权利要求10所述的方法，其中，所述掩模中的值越高，所述卷积核中的位置的重要性越高。

13.根据权利要求3所述的方法，其特征在于，所述一个卷积层的卷积核和所述形状被更新的至少一个卷积层的卷积核可以合并为单个核。

14.根据权利要求1所述的方法，其中，在步骤a中，卷积层中的所有卷积核共享相同的掩模。

15.根据权利要求1所述的方法，其中，在步骤a中，针对卷积层中的每个卷积核获得的掩模是不同的掩模。

16.根据权利要求1所述的方法，其中，在步骤a中，掩模的形状是预定义的。

17.一种神经网络模型的应用方法，其特征在于，所述应用方法包括：

18.一种神经网络模型的应用装置，其特征在于，所述应用装置包括：

19.一种存储指令的非暂时性计算机可读存储介质，所述指令在由计算机执行时使所述计算机进行基于所述权利要求1至16任一项的神经网络的训练方法。

...

【技术特征摘要】

1.一种神经网络模型的训练方法，其特征在于，所述神经网络模型包括m个卷积层，其中m为大于等于1的整数，所述方法包括：

3.根据权利要求1所述的方法，其特征在于，在所述步骤b3)中，根据所述n个卷积层中的一个卷积层的卷积核的掩模的更新值和所述n个卷积层中的与所述一个卷积层相邻的至少一个卷积层的卷积核的掩模的更新值来更新所述n个卷积层中的所述一个卷积层的卷积核的形状。

4.根据权利要求2所述的方法，其特征在于，在所述步骤b1中，根据所述掩模中的值对所述卷积核中的至少一个位置进行采样。

5.根据权利要求2所述的方法，其中，在步骤b1中，为卷积核中的所有位置分配重要性，其中重要性由掩模中的值确定。

6.根据权利要求4所述的方法，其特征在于，所述卷积核中的位置根据掩模的值进行排序，并按照一定的比率和排序位置的顺序对所述位置进行采样。

7.根据权利要求5所述的方法，其特征在于，所述位置在所述掩模中的值越大，则相同位置在所述卷积核中的重要性越高。

9.根据权利要求2所述的方法，其中，在步骤b中，忽略所述n个卷积层中的具有与一个卷积层中的卷积核的位置相同空间位置的另一个的卷积层的卷积核的位置中的至少一个位置，其中，基于所述...

【专利技术属性】
技术研发人员：汪德宇，陶玮，陈则玮，尹凌霄，赵东悦，
申请(专利权)人：佳能株式会社，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人