一种改进的可微分网络结构搜索的方法技术

技术编号:23445756 阅读:20 留言:0更新日期:2020-02-28 19:57
本发明专利技术涉及一种改进的可微分的网络结构搜索方法,步骤为:处理训练语料并对可微分网络结构搜索的方法进行建模并训练,在训练过程中对元结构进行选择;对训练过程中元结构的结构参数数值进行全局归一化操作;对元结构中的网络参数与结构参数进行双层优化,以训练集与校验集的损失值为优化过程的目标函数,通过反向传播梯度数值对网络参数与结构参数进行调整;对训练结束后的元结构的结构参数进行排序,保留权重最大的操作,该搜索结果作为搜索的元结构;对搜索得到的元结构进行循环展开进而生成模型,使用训练数据对模型进行训练直至收敛。本发明专利技术减少网络中局部偏置的影响,增大了搜索覆盖度,相较于现有的可微分结构搜索方法均取得了较好的结果。

An improved search method of differential network structure

【技术实现步骤摘要】
一种改进的可微分网络结构搜索的方法
本专利技术涉及一种神经结构搜索技术,具体为一种改进的可微分网络结构搜索的方法。
技术介绍
深度学习在自然语言处理、图像识别、语音识别等多个领域中都取得的巨大成功。这与深度神经网络结构的设计有着密不可分的关系,目前绝大多数网络结构的设计都是根据先验知识进行人工设计的。在这种情况下,自动生成神经网络结构的方法引起了大量研究人员的关注。人们通常把自动生成神经网络结构的方法叫做网络结构搜索,它也是自动机器学习领域中的一个研究课题,与超参数学习和元学习有一定的关联。结构搜索的研究大致可以分为搜索空间、搜索策略以及结构性能的质量评价三个方面。搜索空间指的是网络结构搜索中结构的候选集合。通常来说,搜索空间越大,搜索过程越慢。人们可以通过外部先验知识指导搜索空间的设计,从而减小搜索空间,简化搜索过程。但是由于人类认知的限制,这样做也可能对发现新的网络结构造成限制。搜索策略是指如何在庞大的搜索空间中进行有效快速的搜索。在搜索的过程中,人们需要考虑如何快速的搜索到最优的网络结构,同时需要避免在搜索过程中搜到局部最优的网络结构。网络结构搜索的目的是要搜到一个性能优异的结构,评价一个结构的性能,最常用的方法就是使用这个结构,在标准的数据集上进行训练,收敛之后使用校验集来进行评价。但是对于搜索过程中的每一个结构都进行上述流程,需要耗费大量的计算资源。如何降低结构质量评价过程中的资源消耗,同时保证质量评价结果的可参考性也是人们正在研究的课题。而进行结构搜索的方法也可以大致分为三种方法:基于强化学习的结构搜索方法、基于进化算法的结构搜索方法以及基于梯度的结构搜索方法。基于强化学习的结构搜索算法将神经网络结构设计看作一个强化学习问题,学习得到一个产生网络结构的最优策略。其中智能体是设计神经网络结构的算法,用于输出神经网络结构描述,强化学习算法使得生成的神经网络的性能最优化。为了用强化学习求解,可以将神经网络的设计看做一个动作序列,每次执行动作确定网络的一部分结构如层。神经网络在验证集上的性能值是强化学习中的奖励值。使用进化算法求解结构搜索的思路是将子网络结构编码成二进制串,运行进化算法得到适应度函数值(神经网络在验证集上的性能)最大的网络结构,即为最优解。首先随机初始化若干个子网络作为初始解。进化算法在每次迭代时首先训练所有子网络,然后计算适应度值。接下来随机选择一些子网络进行交叉操作或者突变操作,变异生成下一代子网络,然后训练这些子网络,重复这一过程,最后找到最优子网络。基于梯度的结构搜索方法同样也被称为可微分的结构搜索方法,与上述的基于强化学习的结构搜索方法和基于进化算法的结构搜索方法不同,该方法针对上述两种方法的黑箱优化问题进行了调整。基于梯度的结构搜索方法将网络结构搜索转化为连续空间的优化问题,采用梯度下降法求解,可高效地搜索神经网络架构,同时得到网络的权重参数。对结构搜索问题进行松弛,转化为连续变量优化问题。目标函数是可导的,能够用梯度下降法求解,同时得到网络结构和权重等参数。算法寻找计算单元,作为最终网络结构的基本构建块。这些单元可以堆积形成卷积神经网络,递归连接形成循环神经网络。尽管可微分的网络结构搜索在保证网络性能的前提下,大大提高了搜索效率,但该方法仍存在一定的问题。由于该方法搜索空间的定义,把搜索的单元看作是一个有向无环图,图中包含多个节点,每两个节点之间又包含多种线性变换、非线性变换,导致搜索中的网络结构异常复杂。因此,可微分的网络结构搜索方法表现不稳定,在联合训练过程中收敛速度较慢,甚至无法收敛,同时使用该方法搜索得到多个网络结构,性能差距较大。
技术实现思路
针对现有技术中网络结构异常复杂、可微分的网络结构搜索方法表现不稳定,在联合训练过程中收敛速度较慢,甚至无法收敛等不足,本专利技术要解决的技术问题是提供一种改进的可微分网络结构搜索的方法。为解决上述技术问题,本专利技术采用的技术方案是:本专利技术一种改进的可微分的网络结构搜索方法,包括以下步骤:1)处理训练语料并对可微分网络结构搜索的方法进行建模,利用单语语料生成单语词表,使用处理后的语料对结构搜索模型进行训练,在训练过程中对元结构进行选择;2)对训练过程中元结构的结构参数数值进行全局归一化操作;3)对元结构中的网络参数与结构参数进行双层优化,以训练集与校验集的损失值作为优化过程的目标函数,通过反向传播梯度数值对网络参数与结构参数进行调整;4)对训练结束后的元结构的结构参数进行排序,保留权重最大的操作,以此搜索结果作为搜索的元结构;5)对搜索得到的元结构进行循环展开进而生成模型,使用训练数据对模型进行训练直至收敛。步骤1)中,采用机器自主学习的方式对训练过程中的元结构进行选择,同时对元结构内部的离散操作赋予结构参数,使其性质由离散变为可微分,元结构内部节点输出结果计算公式为:其中为第i个节点与第j个节点间的第k个操作的结构权重,为第i个节点与第j个节点间的第k个操作,sj为第j个节点的输出,Wj为第j个节点的节点参数,si为第i个节点的输出结果。步骤2)中对训练过程中元结构的结构参数数值进行全局归一化操作为:对所有节点先前的节点输出与其对应的操作进行全局归一化操作,其归一化结果计算公式如下:步骤3)中,对元结构中的网络参数与结构参数进行双层优化为:计算元结构在训练数据与校验数据上的损失值,并以此对网络参数与结构参数使用梯度下降的方式进行双层优化,具体为:301)根据节点输出计算公式,使用交叉熵公式计算元结构在训练数据上的损失值,交叉熵公式为:其中p(i)为当前元结构的输出分布,q(i)为真实分布;302)根据元结构的在训练数据集上的损失值对网络参数与结构参数进行双层优化,其中对于网络参数的优化公式为:其中w为元结构的网络参数,α为元结构的结构参数;在训练数据集中对w进行调整,使训练集损失值最小的w作为元结构的网络参数的最优值,在第一轮训练过程中,各个节点间的结构权重平均分配,即:其中为第t个节点与第j个节点间的第k个操作的结构权重,n为当前节点与之前所有节点间的操作总数;303)根据元结构的在训练数据集上的损失值对网络参数与结构参数进行双层优化,其中对于结构参数的优化公式为:其中w为元结构的网络参数,α为元结构的结构参数;在训练数据集中对w进行调整,使训练集损失值最小的w作为元结构的网络参数的最优值;然后固定网络参数w,在校验数据集上计算元结构的损失值以此调整结构参数α使元结构在校验数据集上的损失值最小。步骤4)中,对训练结束后的元结构的结构参数进行排序,在任意两个连接的节点间选择权重最大的操作,最终确定该搜索结构为神经网络搜索出的元结构。步骤5)中,对搜索得到的结构进行循环展开进而生成模型,使用训练数据集对模型进行训练直至收敛,步骤为:501)根据步骤4)中神经网络结构本文档来自技高网
...

【技术保护点】
1.一种改进的可微分的网络结构搜索方法,其特征在于包括以下步骤:/n1)处理训练语料并对可微分网络结构搜索的方法进行建模,利用单语语料生成单语词表,使用处理后的语料对结构搜索模型进行训练,在训练过程中对元结构进行选择;/n2)对训练过程中元结构的结构参数数值进行全局归一化操作;/n3)对元结构中的网络参数与结构参数进行双层优化,以训练集与校验集的损失值作为优化过程的目标函数,通过反向传播梯度数值对网络参数与结构参数进行调整;/n4)对训练结束后的元结构的结构参数进行排序,保留权重最大的操作,以此搜索结果作为搜索的元结构;/n5)对搜索得到的元结构进行循环展开进而生成模型,使用训练数据对模型进行训练直至收敛。/n

【技术特征摘要】
1.一种改进的可微分的网络结构搜索方法,其特征在于包括以下步骤:
1)处理训练语料并对可微分网络结构搜索的方法进行建模,利用单语语料生成单语词表,使用处理后的语料对结构搜索模型进行训练,在训练过程中对元结构进行选择;
2)对训练过程中元结构的结构参数数值进行全局归一化操作;
3)对元结构中的网络参数与结构参数进行双层优化,以训练集与校验集的损失值作为优化过程的目标函数,通过反向传播梯度数值对网络参数与结构参数进行调整;
4)对训练结束后的元结构的结构参数进行排序,保留权重最大的操作,以此搜索结果作为搜索的元结构;
5)对搜索得到的元结构进行循环展开进而生成模型,使用训练数据对模型进行训练直至收敛。


2.按权利要求1所述的改进的可微分网络结构搜索的方法,其特征在于:步骤1)中,采用机器自主学习的方式对训练过程中的元结构进行选择,同时对元结构内部的离散操作赋予结构参数,使其性质由离散变为可微分,元结构内部节点输出结果计算公式为:



其中为第i个节点与第j个节点间的第k个操作的结构权重,为第i个节点与第j个节点间的第k个操作,sj为第j个节点的输出,Wj为第j个节点的节点参数,si为第i个节点的输出结果。


3.按权利要求1所述的改进的可微分网络结构搜索的方法,其特征在于步骤2)中对训练过程中元结构的结构参数数值进行全局归一化操作为:对所有节点先前的节点输出与其对应的操作进行全局归一化操作,其归一化结果计算公式如下:





4.按权利要求1所述的改进的可微分网络结构搜索的方法,其特征在于步骤3)中,对元结构中的网络参数与结构参数进行双层优化为:计算元结构在训练数据与校验数据上的损失值,并以此对网络参数与结构参数使用梯度下降的方式进行双层优化,具体为:
301)根据节点输出计算公式,使用交叉熵公式计算...

【专利技术属性】
技术研发人员:杜权许诺朱靖波肖桐张春良
申请(专利权)人:沈阳雅译网络技术有限公司
类型:发明
国别省市:辽宁;21

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1