基于差分进化算法的神经架构搜索方法和系统技术方案

技术编号：41744049 阅读：21 留言：0更新日期：2024-06-19 13:05

本发明专利技术提供了基于差分进化算法的神经架构搜索方法和系统，所述方法首先定义了一个搜索空间，将所有候选操作糅合在一起构建超网，并使用连续数值进行编码。接着，利用训练数据及其标签来训练超网的网络权重。然后，我为超网内的每个子网设计了唯一的编码方式，并直接从超网获得网络权重。随后，使用差分进化算法优化子网的编码。最后，交替执行超网的网络权重优化和子网的编码优化。与使用梯度下降方法和遗传算法优化子网编码的方式不同，本发明专利技术的差分进化算法能够更充分地利用连续编码的矢量化信息。这种方法相比传统的优化方法具有更高的效率和更好的搜索性能，能够更快地找到适合任务的最优神经网络架构。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及深度神经网络，具体涉及基于差分进化算法的神经架构搜索方法和系统。

技术介绍

1、深度学习是机器学习领域的一个分支，它通过构建深层神经网络来模拟和学习复杂的非线性关系。由于深度学习模型在图像识别、自然语言处理等任务上取得了卓越的成绩，它在科学研究和工业应用中引起了广泛关注。传统的神经网络架构是由专家手工设计，再根据网络效果不断调整架构，这种方式需要大量的人力和专家经验。为了适应深度神经网络技术的发展，自动得到一个适合目标数据分布的网络架构，神经网络架构搜索技术应运而生。神经网络架构搜索是一种自动化设计神经网络架构的方法，该技术利用搜索算法来自动发现预先定义的搜索空间内高性能的神经网络架构，这使得即使是非神经网络专业的人也可以在其从事的领域很好地利用神经网络技术。这种方法的出现不仅使神经网络的设计和优化变得更加高效，还为各行各业的研究人员和工程师提供了更广阔的应用前景和机会。

2、神经网络架构搜索是一种重要的研究领域，旨在自动发现最优的神经网络结构，以满足特定任务的需求。在这个过程中，需要从庞大的搜索空间中找到一种有效的组合方式，使得网络能够充分地学习并表现出色。在早期，神经网络架构搜索算法主要依赖于强化学习和演化计算等方法。这些方法需要在每次采样新的架构后进行完整的训练，并将其真实的精度作为优化的依据。尽管这些算法在提升网络性能方面取得了显著成绩，但由于每次训练都需要大量时间和计算资源，因此效率并不理想。

3、为了解决这一问题，近年来出现了可微分架构搜索框架。这种方法通过给每个候选操作赋予一个

技术实现思路

1、专利技术目的：本专利技术所要解决的技术问题是针对现有技术的不足，提供基于差分进化算法的神经架构搜索方法和系统。

2、所述方法包括：

3、步骤1，构建一个包含m条连接边和n个操作的超网，每个子网使用到范围内的连续数值为每条连接边上的每个操作赋予一个权重，所述权重作为编码来唯一地表示一个种群内的个体；

4、步骤2，使用训练数据及其标签训练超网的网络权重；

5、步骤3，使用差分进化算法对子网编码进行优化；

6、步骤4，交替执行步骤2和步骤3，直至种群内网络架构错误率收敛。

7、步骤1中，所述超网中的每条连接边上含有n种候选操作，n取值为自然数；m和超网中设置的内部节点对应，设定内部节点是h个，则；

8、所述超网包括x个子网，x的值为，在使用梯度下降方法训练网络权重的阶段需要使用到超网，即使得搜索空间内所有候选操作的参数都得到训练。子网表示所有连接边上仅有一个候选操作的网络，它是超网的一部分，本专利技术使用差分进化算法对子网的编码进行优化，以确保在搜索过程中找到最好的子网架构。超网的主要功能是训练所有候选操作的网络权重，以便直接提供评估子网性能所需的网络权重。

9、超网是囊括搜索空间内所有候选操作和拓扑连接方式的混合网络的总称。一般来说，输入的信息往往是经过单个操作，如一个3*3卷积的处理得到新的特征图，但是在超网中输入信息会经过多种操作的处理，如3*3动态可分离卷积、3*3空洞卷、跳跃连接等一系列操作，并将各自得到的特征图按对应元素位相加的方式得到新的混合特征图信息。

10、本专利技术中，使用0到1范围内的连续数值为每条连接边上的每个操作赋予一个权重，这样的编码方式使得子网可以根据这个权重的大小被离散化为常规的神经网络，即去掉权重较小的候选操作与连接边。

11、在本专利技术中，超网包括m条连接边，超网中的每条连接边上含有n种候选操作，包含3*3动态可分离卷积、5*5动态可分离卷积、3*3空洞卷积、5*5空洞卷积、3*3最大池化、3*3平均池化、跳跃连接和空操作等，空操作代表连接边不存在；

12、根据上面的描述已知本专利技术中的超网是一种混合多种操作的网络结构，但本专利技术的目的是通过算法搜索到一个经历单一操作处理的子网，例如m条连接边需要在每条连接边上确定唯一的一个操作；

13、为了表示出需要的子网，需要一个0到1范围内的数字来代表每条连接边上的重要性，例如采用了一种m*n的矩阵形式。所以超网的目的是用来存储各类操作训练好的网络权重，而编码则是针对子网，在演化计算这种群体优化方法中，子网也被视作种群内的个体，当编码展现出不同的数值时，就可以按照数值大小得到多种神经网络。此外需要注意的是n并没有限定范围，理论上任意一种卷积、池化操作均可加入到该模式中，m和设置的内部节点对应，设定内部节点是h个，则。

14、步骤1中，具体来说，编码的形式是一种14*8的矩阵，分别代表超网内的14条候选连接边，和连接边上的8个候选操作，随着后续搜索空间的扩大，矩阵的维度也可随之增大，即包含更多的连接边和候选操作。

15、步骤2中，超网需要先进行训练，其内部各类操作的权重才可以去使用；

16、超网初始化时，为了确保一条连接边上的所有候选操作的数值之和为1，并且每个操作同等重要，矩阵内的每一个元素值为，确保超网内每个操作的参数都得到训练，后续优化过程中，在生成子网编码后，将子网内较优个体的编码赋值给超网，来引导超网优化网络权重，编码的内部数值会有所倾向，架构权重更大的操作往往能训练的更充分，具体包括：在优化超网时，不同连接边上的特征图信息在汇聚到同一个节点时，将在通道维度上进行拼接，表示为，其中，concat代表拼接函数，它对输入的不同特征图和实现通道维度上的拼接，每条连接边上的特征图均由候选操作对输入数据处理后得到的特征图混合而成，表示为，其中，表示第i个操作对应的架构权重，input表示输入数据，则表示第i个操作提取输入信息特征的过程；经过这样的处理，神经网络反向传播更新算法优化时得以覆盖整个网络架构内的所有候选操作。

17、所述输入数据是经过stem layer（名为初始层，包括一个二维卷积和批量正则化，其主要功能是对一般图像的输入数据做预处理，提取特征并转换为适合后续处理的特征表示形式）处理得到的图像信息。对于一般的图像来说，直接作为输入会让神经网络难以提取共有的抽象化信息，所以本专利技术使用由卷积操作构成的stem layer得到更具表征性的图像信息。

18、所述训练数据来源于现实生活中的应用场景，以医学领域为例，如果需本文档来自技高网...

【技术保护点】

1.基于差分进化算法的神经架构搜索方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，步骤1中，所述超网中的每条连接边上含有N种候选操作，N取值为自然数；M和超网中设置的内部节点对应，设定内部节点是H个，则；

3.根据权利要求2所述的方法，其特征在于，步骤2中，超网初始化时，为了确保一条连接边上的所有候选操作的数值之和为1，并且每个操作同等重要，矩阵内的每一个元素值为，后续优化过程中，在生成子网编码后，将子网内较优个体的编码赋值给超网，来引导超网优化网络权重，具体包括：在优化超网时，不同连接边上的特征图信息在汇聚到同一个节点时，将在通道维度上进行拼接，表示为，其中，concat代表拼接函数，它对输入的不同特征图和实现通道维度上的拼接，每条连接边上的特征图均由候选操作对输入数据处理后得到的特征图混合而成，表示为，其中，表示第i个操作对应的架构权重，input表示输入数据，则表示第i个操作提取输入信息特征的过程。

4.根据权利要求3所述的方法，其特征在于，步骤3包括：

5.根据权利要求4所述的方法，其特征在于，步骤3.1包括：

6.根据权利要求5所述的方法，其特征在于，步骤3.2包括：

7.根据权利要求6所述的方法，其特征在于，步骤3.3包括：

8.根据权利要求7所述的方法，其特征在于，步骤3.4包括：

9.根据权利要求8所述的方法，其特征在于，步骤4中，采取了网络权重和子网编码交替优化的方式，直至种群内网络架构错误率收敛，用公式表示为：

10.根据权利要求1~9任一项所述的基于差分进化算法的神经架构搜索方法的系统，其特征在于，包括：

...

【技术特征摘要】

1.基于差分进化算法的神经架构搜索方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，步骤1中，所述超网中的每条连接边上含有n种候选操作，n取值为自然数；m和超网中设置的内部节点对应，设定内部节点是h个，则；

【专利技术属性】
技术研发人员：韩小龙，薛羽，田青，蒲勇霖，项正龙，王修来，
申请(专利权)人：南京信息工程大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人