网络结构搜索的方法及装置、计算机存储介质和计算机程序产品制造方法及图纸

技术编号:25696731 阅读:44 留言:0更新日期:2020-09-18 21:08
一种网络结构搜索的方法包括:定义搜索空间步骤:(步骤S12)确定待进行网络结构搜索的神经网络模型的搜索空间,搜索空间定义了神经网络模型中每两个节点之间的操作层上的多种操作;预训练步骤:(步骤S14)根据第一网络结构以第一网络结构的预设参数训练搜索空间的总图以得到具有预训练参数的总图,总图由操作构成;训练步骤:(步骤S16)根据第一网络结构训练具有预训练参数的总图和根据第一网络结构的反馈量更新第一网络结构。本申请还公开了一种网络结构搜索的装置、计算机存储介质和计算机程序产品。

【技术实现步骤摘要】
【国外来华专利技术】网络结构搜索的方法及装置、计算机存储介质和计算机程序产品
本申请涉及机器学习领域,特别涉及一种网络结构搜索的方法及装置、计算机存储介质和计算机程序产品。
技术介绍
相关技术中,机器学习算法尤其深度学习算法近年来得到快速发展与广泛应用。随着应用场景和模型结构变得越来越复杂,在应用场景中得到最优模型的难度越来越大,其中,可以使用基于权值分享的高效网络结构搜索(EfficientNeuralArchitectureSearchviaParameterSharing,ENAS)来提高网络结构搜索(NeuralArchitectureSearch,NAS)的效率。然而,通过ENAS搜索到的网络结构经常出现较大的偏见(bias),即,通过ENAS搜索到的网络结构总会倾向于卷积核尺寸(kernelsize)较大的操作。这导致搜索到的模型参数较大,不易调试训练。另外,控制器带有偏见就意味着控制器收敛到的局部最优解,无法充分探索(explore)搜索空间。这样的控制器不具有较高的可信度,不能保证搜索到的模型就是全局最优。
技术实现思路
本申请的实施方式提供一种网络结构搜索的方法及装置、计算机存储介质和计算机程序产品。本申请实施方式的网络结构搜索的方法包括:定义搜索空间步骤:确定待进行网络结构搜索的神经网络模型的搜索空间,所述搜索空间定义了所述卷积神经网络中每两个节点之间的操作层上的多种操作;预训练步骤:根据第一网络结构以所述第一网络结构的预设参数训练所述搜索空间的总图以得到具有预训练参数的所述总图,所述总图由所述操作构成;训练步骤:根据所述第一网络结构训练具有所述预训练参数的所述总图和根据所述第一网络结构的反馈量更新所述第一网络结构。本申请实施方式的网络结构搜索的装置包括处理器和存储器,所述存储器存储有一个或多个程序,所述处理器用于定义搜索空间:确定待进行网络结构搜索的神经网络模型的搜索空间,所述搜索空间定义了所述卷积神经网络中每两个节点之间的操作层上的多种操作;及用于预训练:根据第一网络结构以所述第一网络结构的预设参数训练所述搜索空间的总图以得到具有预训练参数的所述总图,所述总图由所述操作构成;以及用于训练:根据所述第一网络结构训练具有所述预训练参数的所述总图和根据所述第一网络结构的反馈量更新所述第一网络结构。本申请实施方式的计算机存储介质,其上存储有计算机程序,所述计算机程序被计算机执行时使得,所述计算机执行上述的方法。本申请实施方式的包含指令的计算机程序产品,所述指令被计算机执行时使得计算机执行上述的方法。本申请实施方式的网络结构搜索的方法及装置、计算机存储介质和计算机程序产品,在对总图和第一网络结构进行优化前,先以固定的第一网络结构的预设参数对总图进行预训练,使得具有预训练参数的总图得到充分的训练。预训练完成后,放开第一网络结构的参数对总图和第一网络结构进行训练,从而对网络结构和第一网络结构进行优化,避免从头开始训练时优化第一网络结构导致的偏见,提高第一网络结构的可信度,保证搜索到的模型是全局最优。本申请的实施方式的附加方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本申请的实施方式的实践了解到。附图说明本申请的上述和/或附加的方面和优点从结合下面附图对实施方式的描述中将变得明显和容易理解,其中:图1是本申请实施方式的网络结构搜索的方法的流程示意图;图2是本申请实施方式的网络结构搜索的装置的模块示意图;图3是相关技术的网络结构搜索的方法的原理示意图;图4是本申请实施方式的网络结构搜索的方法的总图示意图;图5是本申请另一实施方式的网络结构搜索的方法的流程示意图;图6是本申请另一实施方式的网络结构搜索的方法的流程示意图;图7是本申请又一实施方式的网络结构搜索的方法的流程示意图;图8是本申请又一实施方式的网络结构搜索的方法的原理示意图;图9是本申请再一实施方式的网络结构搜索的方法的流程示意图;图10是本申请再一实施方式的网络结构搜索的方法的流程示意图;图11是本申请再一实施方式的网络结构搜索的方法的流程示意图;图12是本申请实施方式的网络结构搜索的方法的惩罚效果的示意图。主要元件符号说明:网络结构搜索的装置10、存储器102、处理器104、通信接口106。具体实施方式下面详细描述本申请的实施方式,所述实施方式的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施方式是示例性的,仅用于解释本申请,而不能理解为对本申请的限制。在本申请的描述中,需要理解的是,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个所述特征。在本申请的描述中,“多个”的含义是两个或两个以上,除非另有明确具体的限定。在本申请的描述中,需要说明的是,除非另有明确的规定和限定,术语“安装”、“相连”、“连接”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接或可以相互通信;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通或两个元件的相互作用关系。对于本领域的普通技术人员而言,可以根据具体情况理解上述术语在本申请中的具体含义。下文的公开提供了许多不同的实施方式或例子用来实现本申请的不同结构。为了简化本申请的公开,下文中对特定例子的部件和设置进行描述。当然,它们仅仅为示例,并且目的不在于限制本申请。此外,本申请可以在不同例子中重复参考数字和/或参考字母,这种重复是为了简化和清楚的目的,其本身不指示所讨论各种实施方式和/或设置之间的关系。下面详细描述本申请的实施方式,所述实施方式的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施方式是示例性的,仅用于解释本申请,而不能理解为对本申请的限制。请参阅图1和图2,本申请实施方式提供一种网络结构搜索的方法及装置10。本申请实施方式的网络结构搜索的方法包括:定义搜索空间步骤S12:确定待进行网络结构搜索的神经网络模型的搜索空间,搜索空间定义了神经网络模型中每两个节点之间的操作层上的多种操作;预训练步骤S14:根据第一网络结构以第一网络结构的预设参数训练搜索空间的总图(wholegraph)以得到预训练参数的总图,总图由操作构成;训练步骤S16:根据第一网络结构训练具有预训练参数的总图和根据第一网络结构的反馈量(ACC)更新第一网络结构。本申请实施方式的网络结构搜索的装置10包括处理器104和存储器102,存储器102存储有一个或多个程序,在程序被处理器执行的情况下,使得本文档来自技高网...

【技术保护点】
1.一种网络结构搜索的方法,其特征在于,包括:/n定义搜索空间步骤:确定待进行网络结构搜索的神经网络模型的搜索空间,所述搜索空间定义了所述神经网络模型中每两个节点之间的操作层上的多种操作;/n预训练步骤:根据第一网络结构以所述第一网络结构的预设参数训练所述搜索空间的总图以得到具有预训练参数的所述总图,所述总图由所述操作构成;/n训练步骤:根据所述第一网络结构训练具有所述预训练参数的所述总图和根据所述第一网络结构的反馈量更新所述第一网络结构。/n

【技术特征摘要】
【国外来华专利技术】1.一种网络结构搜索的方法,其特征在于,包括:
定义搜索空间步骤:确定待进行网络结构搜索的神经网络模型的搜索空间,所述搜索空间定义了所述神经网络模型中每两个节点之间的操作层上的多种操作;
预训练步骤:根据第一网络结构以所述第一网络结构的预设参数训练所述搜索空间的总图以得到具有预训练参数的所述总图,所述总图由所述操作构成;
训练步骤:根据所述第一网络结构训练具有所述预训练参数的所述总图和根据所述第一网络结构的反馈量更新所述第一网络结构。


2.根据权利要求1所述的网络结构搜索的方法,其特征在于,所述预训练步骤,包括:
根据所述第一网络结构以所述第一网络结构的预设参数在所述搜索空间的每个所述操作层采样一个所述操作以得到所述总图的一个子图;
利用训练集的一批训练数据训练所述总图的子图以得到具有所述预训练参数的所述总图。


3.根据权利要求1所述的网络结构搜索的方法,其特征在于,所述训练步骤包括:
训练总图步骤:根据所述第一网络结构训练具有所述预训练参数的所述总图;
训练第一网络结构步骤:确定所述反馈量并根据所述反馈量更新所述第一网络结构。


4.根据权利要求3所述的网络结构搜索的方法,其特征在于,所述训练总图步骤和所述训练第一网络结构步骤迭代进行。


5.根据权利要求3所述的网络结构搜索的方法,其特征在于,所述训练总图步骤包括:
根据所述第一网络结构在所述搜索空间的每个所述操作层采样一个所述操作以得到具有所述预训练参数的所述总图的一个子图;
利用训练集的一批训练数据训练所述子图。


6.根据权利要求3所述的网络结构搜索的方法,其特征在于,所述训练第一网络结构步骤循环预设次数,根据所述反馈量更新所述第一网络结构,包括:
利用每次循环确定的所述反馈量更新所述第一网络结构,每次循环确定的所述反馈量的数量为预设数量。


7.根据权利要求6所述的网络结构搜索的方法,其特征在于,确定所述反馈量,包括:
根据所述第一网络结构在所述搜索空间的每个所述操作层采样一个所述操作以得到第二网络结构;
利用测试集的一批测试数据预测所述第二网络结构以确定所述反馈量。


8.根据权利要求6所述的网络结构搜索方法,其特征在于,所述第一网络结构是根据长短期记忆网络模型来构建,根据所述反馈量更新所述第一网络结构,通过以下条件式实现:



其中,Rk为第k个所述反馈量,θc为所述长短期记忆网络模型的参数,at为在第t个所述操作层采样到的所述操作,P(at|a(t-1):1;θc)为采样到所述操作的概率,m为所述反馈量的总数,T为所述第一网络结构预测的超参数的数量。


9.一种网络结构搜索的装置,其特征在于,包括处理器和存储器,所述存储器存储有一个或多个程序,在所述程序被处理器执行的情况下,使得所述处理器用于执行:
定义搜索空间...

【专利技术属性】
技术研发人员:蒋阳庞磊胡湛
申请(专利权)人:深圳市大疆创新科技有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1