本申请公开了一种神经网络架构搜索方法、装置及一种电子设备和计算机可读存储介质,该方法包括:获取图像分类任务的数据集;其中,数据集包含图像和对应的类别标签;构建图像分类任务的神经网络;其中,神经网络包括依次连接的多个结构单元,每个结构单元包括待搜索结构单元和梯度传输单元,待搜索结构单元包括多个内部节点,梯度传输单元包括跳转连接操作或1
【技术实现步骤摘要】
一种神经网络架构搜索方法、装置及电子设备和存储介质
[0001]本申请涉及图像分类
,更具体地说,涉及一种神经网络架构搜索方法、装置及一种电子设备和一种计算机可读存储介质。
技术介绍
[0002]在深度学习领域神经网络架构不断演化,神经网络架构搜索也即确定神经网络的最佳拓扑结构成为神经网络架构设计的主流方法,自动神经网络架构搜索(英文全称:Neural Architecture Search,英文简称:NAS)成为当前的热点研究方向。
[0003]在相关技术中,可微分网络架构搜索方法(英文全称:Differentiable ARchiTecture Search,英文简称:DARTS)使用梯度下降方法在可微分搜索空间进行架构搜索。但是,随着搜索迭代次数逐渐增加,DARTS在搜索的过程中会倾向于从搜索空间中优先选择跳转连接(skip connection)。当深度神经网络中包含很多的跳转连接的时候,神经网络的精度会降低,也即导致神经网络的崩塌。
[0004]因此,如何提高搜索到的神经网络的最佳架构精度是本领域技术人员需要解决的技术问题。
技术实现思路
[0005]本申请的目的在于提供一种神经网络架构搜索方法、装置及一种电子设备和一种计算机可读存储介质,提高了搜索到的图像分类的神经网络的最佳架构精度。
[0006]为实现上述目的,本申请提供了一种神经网络架构搜索方法,包括:
[0007]获取图像分类任务的数据集;其中,所述数据集包含图像和对应的类别标签;
[0008]构建图像分类任务的神经网络;其中,所述神经网络包括依次连接的多个结构单元,每个所述结构单元包括待搜索结构单元和梯度传输单元,所述待搜索结构单元包括多个内部节点,所述梯度传输单元包括跳转连接操作或1
×
1的卷积操作;
[0009]定义所述待搜索结构单元中内部节点之间的操作集合;其中,所述操作集合不包含跳转连接;
[0010]利用所述数据集搜索每个所述结构单元中待搜索结构单元的每两个内部节点之间的最佳操作,并确定所述梯度传输单元的结构。
[0011]其中,所述待搜索结构单元的输出为所述待搜索结构单元中所有内部节点的可分离拼接。
[0012]其中,所述确定所述梯度传输单元的结构,包括:
[0013]若输入所述结构单元的特征图的维度与所述结构单元中待搜索结构单元输出的特征图的维度相同,则所述结构单元中梯度传输单元具体为跳转连接;
[0014]若输入所述结构单元的特征图的维度与所述结构单元中待搜索结构单元输出的特征图的维度不同,则所述结构单元中梯度传输单元具体为1
×
1的卷积操作。
[0015]其中,所述结构单元的输出为所述结构单元中待搜索结构单元的输出和梯度传输
单元的输出之和。
[0016]其中,所述神经网络中第和个结构单元为降分辨率结构单元,N为所述神经网络中结构单元的数量,所述降分辨率结构单元的步幅为2,其余结构单元的步幅为1。
[0017]其中,所述数据集包括训练集和验证集;利用所述数据集搜索每个所述结构单元中待搜索结构单元的每两个内部节点之间的最佳操作,包括:
[0018]利用所述训练集确定所述操作集合中每个操作的权重参数;
[0019]利用所述验证集确定每个所述结构单元中待搜索结构单元的每两个内部节点之间每个操作对应的架构参数;
[0020]将每两个内部节点之间架构参数最大的操作确定为最佳操作。
[0021]其中,所述利用所述验证集确定每个所述结构单元中待搜索结构单元的每两个内部节点之间每个操作对应的架构参数,包括:
[0022]将所述验证集的图像输入所述神经网络中,利用架构损失函数基于所述神经网络的输出和所述图像对应的类别标签计算每个所述结构单元中待搜索结构单元的每两个内部节点之间每个操作对应的架构损失,并基于所述架构损失计算每个所述结构单元中待搜索结构单元的每两个内部节点之间每个操作对应的架构损失梯度,基于所述架构损失梯度更新每个所述结构单元中待搜索结构单元的每两个内部节点之间每个操作对应的架构参数;
[0023]其中,所述架构损失函数为:其中,ω
*
(α)为在训练集合上得到的最优权重参数,α为架构参数集合,L
val
()为在验证集合上的损失值,ω0‑1为预定义的超参数,M为神经网络中全部待搜索结构单元中的全部待搜索连接总数,定义包含待搜索操作的两个内部节点为一个待搜索连接,N为第m个待搜索连接的操作总数,σ()为softmax函数,α
n
为第m个待搜索连接的第n个操作的架构参数,O为操作集合,o
i,j
和o
′
i,j
为中间节点i与中间节点j之间的操作的输出。
[0024]为实现上述目的,本申请提供了一种神经网络架构搜索装置,包括:
[0025]获取模块,用于获取图像分类任务的数据集;其中,所述数据集包含图像和对应的类别标签;
[0026]构建模块,用于构建图像分类任务的神经网络;其中,所述神经网络包括依次连接的多个结构单元,每个所述结构单元包括待搜索结构单元和梯度传输单元,所述待搜索结构单元包括多个内部节点,所述梯度传输单元包括跳转连接操作或1
×
1的卷积操作;
[0027]定义模块,用于定义所述待搜索结构单元中内部节点之间的操作集合;其中,所述操作集合不包含跳转连接;
[0028]搜索模块,用于利用所述数据集搜索每个所述结构单元中待搜索结构单元的每两个内部节点之间的最佳操作,并确定所述梯度传输单元的结构。
[0029]为实现上述目的,本申请提供了一种电子设备,包括:
[0030]存储器,用于存储计算机程序;
[0031]处理器,用于执行所述计算机程序时实现如上述神经网络架构搜索方法的步骤。
[0032]为实现上述目的,本申请提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如上述神经网络架构搜索方法的步骤。
[0033]通过以上方案可知,本申请提供的一种神经网络架构搜索方法,包括:获取图像分类任务的数据集;其中,所述数据集包含图像和对应的类别标签;构建图像分类任务的神经网络;其中,所述神经网络包括依次连接的多个结构单元,每个所述结构单元包括待搜索结构单元和梯度传输单元,所述待搜索结构单元包括多个内部节点,所述梯度传输单元包括跳转连接操作或1
×
1的卷积操作;定义所述待搜索结构单元中内部节点之间的操作集合;其中,所述操作集合不包含跳转连接;利用所述数据集搜索每个所述结构单元中待搜索结构单元的每两个内部节点之间的最佳操作,并确定所述梯度传输单元的结构。
[0034]本申请为图像分类任务设计了新的神经网络,其包含多个结构单元,每个结构单元包括待搜索结构单元和梯度传输单元,待搜索结构单元中内本文档来自技高网...
【技术保护点】
【技术特征摘要】
1.一种神经网络架构搜索方法,其特征在于,包括:获取图像分类任务的数据集;其中,所述数据集包含图像和对应的类别标签;构建图像分类任务的神经网络;其中,所述神经网络包括依次连接的多个结构单元,每个所述结构单元包括待搜索结构单元和梯度传输单元,所述待搜索结构单元包括多个内部节点,所述梯度传输单元包括跳转连接操作或1
×
1的卷积操作;定义所述待搜索结构单元中内部节点之间的操作集合;其中,所述操作集合不包含跳转连接;利用所述数据集搜索每个所述结构单元中待搜索结构单元的每两个内部节点之间的最佳操作,并确定所述梯度传输单元的结构。2.根据权利要求1所述神经网络架构搜索方法,其特征在于,所述待搜索结构单元的输出为所述待搜索结构单元中所有内部节点的可分离拼接。3.根据权利要求1所述神经网络架构搜索方法,其特征在于,所述确定所述梯度传输单元的结构,包括:若输入所述结构单元的特征图的维度与所述结构单元中待搜索结构单元输出的特征图的维度相同,则所述结构单元中梯度传输单元具体为跳转连接;若输入所述结构单元的特征图的维度与所述结构单元中待搜索结构单元输出的特征图的维度不同,则所述结构单元中梯度传输单元具体为1
×
1的卷积操作。4.根据权利要求2所述神经网络架构搜索方法,其特征在于,所述结构单元的输出为所述结构单元中待搜索结构单元的输出和梯度传输单元的输出之和。5.根据权利要求1所述神经网络架构搜索方法,其特征在于,所述神经网络中第和个结构单元为降分辨率结构单元,N为所述神经网络中结构单元的数量,所述降分辨率结构单元的步幅为2,其余结构单元的步幅为1。6.根据权利要求1所述神经网络架构搜索方法,其特征在于,所述数据集包括训练集和验证集;利用所述数据集搜索每个所述结构单元中待搜索结构单元的每两个内部节点之间的最佳操作,包括:利用所述训练集确定所述操作集合中每个操作的权重参数;利用所述验证集确定每个所述结构单元中待搜索结构单元的每两个内部节点之间每个操作对应的架构参数;将每两个内部节点之间架构参数最大的操作确定为最佳操作。7.根据权利要求6所述神经网络架构搜索方法,其特征在于,所述利用所述验证集确定每个所述结构单元中待搜索结构单元的每两个内部节点之间每个操作对应的架构参数,包括:将...
【专利技术属性】
技术研发人员:温东超,赵雅倩,史宏志,崔星辰,葛沅,赵健,张英杰,尹云峰,
申请(专利权)人:浪潮北京电子信息产业有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。