一种改进的可微分网络结构搜索的方法技术

技术编号：23445756 阅读：20 留言：0更新日期：2020-02-28 19:57

本发明专利技术涉及一种改进的可微分的网络结构搜索方法，步骤为：处理训练语料并对可微分网络结构搜索的方法进行建模并训练，在训练过程中对元结构进行选择；对训练过程中元结构的结构参数数值进行全局归一化操作；对元结构中的网络参数与结构参数进行双层优化，以训练集与校验集的损失值为优化过程的目标函数，通过反向传播梯度数值对网络参数与结构参数进行调整；对训练结束后的元结构的结构参数进行排序，保留权重最大的操作，该搜索结果作为搜索的元结构；对搜索得到的元结构进行循环展开进而生成模型，使用训练数据对模型进行训练直至收敛。本发明专利技术减少网络中局部偏置的影响，增大了搜索覆盖度，相较于现有的可微分结构搜索方法均取得了较好的结果。

An improved search method of differential network structure

全部详细技术资料下载

【技术实现步骤摘要】
一种改进的可微分网络结构搜索的方法
本专利技术涉及一种神经结构搜索技术，具体为一种改进的可微分网络结构搜索的方法。
技术介绍
深度学习在自然语言处理、图像识别、语音识别等多个领域中都取得的巨大成功。这与深度神经网络结构的设计有着密不可分的关系，目前绝大多数网络结构的设计都是根据先验知识进行人工设计的。在这种情况下，自动生成神经网络结构的方法引起了大量研究人员的关注。人们通常把自动生成神经网络结构的方法叫做网络结构搜索，它也是自动机器学习领域中的一个研究课题，与超参数学习和元学习有一定的关联。结构搜索的研究大致可以分为搜索空间、搜索策略以及结构性能的质量评价三个方面。搜索空间指的是网络结构搜索中结构的候选集合。通常来说，搜索空间越大，搜索过程越慢。人们可以通过外部先验知识指导搜索空间的设计，从而减小搜索空间，简化搜索过程。但是由于人类认知的限制，这样做也可能对发现新的网络结构造成限制。搜索策略是指如何在庞大的搜索空间中进行有效快速的搜索。在搜索的过程中，人们需要考虑如何快速的搜索到最优的网络结构，同时需要避免在搜索过程中搜到局部最优的网络结构。网络结构搜索的目的是要搜到一个性能优异的结构，评价一个结构的性能，最常用的方法就是使用这个结构，在标准的数据集上进行训练，收敛之后使用校验集来进行评价。但是对于搜索过程中的每一个结构都进行上述流程，需要耗费大量的计算资源。如何降低结构质量评价过程中的资源消耗，同时保证质量评价结果的可参考性也是人们正在研究的课题。而进行结构搜索的方法也可以大致分为三...

【技术保护点】
1.一种改进的可微分的网络结构搜索方法，其特征在于包括以下步骤：/n1)处理训练语料并对可微分网络结构搜索的方法进行建模，利用单语语料生成单语词表，使用处理后的语料对结构搜索模型进行训练，在训练过程中对元结构进行选择；/n2)对训练过程中元结构的结构参数数值进行全局归一化操作；/n3)对元结构中的网络参数与结构参数进行双层优化，以训练集与校验集的损失值作为优化过程的目标函数，通过反向传播梯度数值对网络参数与结构参数进行调整；/n4)对训练结束后的元结构的结构参数进行排序，保留权重最大的操作，以此搜索结果作为搜索的元结构；/n5)对搜索得到的元结构进行循环展开进而生成模型，使用训练数据对模型进行训练直至收敛。/n

【技术特征摘要】
1.一种改进的可微分的网络结构搜索方法，其特征在于包括以下步骤：
1)处理训练语料并对可微分网络结构搜索的方法进行建模，利用单语语料生成单语词表，使用处理后的语料对结构搜索模型进行训练，在训练过程中对元结构进行选择；
2)对训练过程中元结构的结构参数数值进行全局归一化操作；
3)对元结构中的网络参数与结构参数进行双层优化，以训练集与校验集的损失值作为优化过程的目标函数，通过反向传播梯度数值对网络参数与结构参数进行调整；
4)对训练结束后的元结构的结构参数进行排序，保留权重最大的操作，以此搜索结果作为搜索的元结构；
5)对搜索得到的元结构进行循环展开进而生成模型，使用训练数据对模型进行训练直至收敛。

2.按权利要求1所述的改进的可微分网络结构搜索的方法，其特征在于：步骤1)中，采用机器自主学习的方式对训练过程中的元结构进行选择，同时对元结构内部的离散操作赋予结构参数，使其性质由离散变为可微分，元结构内部节点输出结果计算公式为：

其中为第i个节点与第j个节点间的第k个操作的结构权重，为第i个节点与第j个节点间的第k个操作，sj为第j个节点的输出，Wj为第j个节点的节点参数，si为第i个节点的输出结果。

3.按权利要求1所述的改进的可微分网络结构搜索的方法，其特征在于步骤2)中对训练过程中元结构的结构参数数值进行全局归一化操作为：对所有节点先前的节点输出与其对应的操作进行全局归一化操作，其归一化结果计算公式如下：

4.按权利要求1所述的改进的可微分网络结构搜索的方法，其特征在于步骤3)中，对元结构中的网络参数与结构参数进行双层优化为：计算元结构在训练数据与校验数据上的损失值，并以此对网络参数与结构参数使用梯度下降的方式进行双层优化，具体为：
301)根据节点输出计算公式，使用交叉熵公式计算...

【专利技术属性】
技术研发人员：杜权，许诺，朱靖波，肖桐，张春良，
申请(专利权)人：沈阳雅译网络技术有限公司，
类型：发明
国别省市：辽宁;21

全部详细技术资料下载我是这个专利的主人