当前位置: 首页 > 专利查询>之江实验室专利>正文

面向边缘计算的重参数神经网络架构搜索方法技术

技术编号:30180094 阅读:18 留言:0更新日期:2021-09-25 15:42
本发明专利技术公开了面向边缘计算的重参数神经网络架构搜索方法,包括如下步骤:步骤一:设计线性算子与多支路块结构;步骤二:通过堆叠多支路块结构构建超级网络;步骤三:通过基于梯度的一阶段搜索算法训练超级网络;步骤四:删除超级网络中多余的支路构建最佳子网络;步骤五:多分支的最佳子网络转化成单支路网络;步骤六:使用单支路网络完成任务推理。本发明专利技术用于搜索可进行重参数的神经网络结构,在保证推理精度的同时,确保了推理的实时性以及模型运算的高效率。算的高效率。算的高效率。

【技术实现步骤摘要】
面向边缘计算的重参数神经网络架构搜索方法


[0001]本专利技术涉及神经网络架构搜索
,尤其是涉及面向边缘计算的重参数神经网络架构搜索方法。

技术介绍

[0002]神经网络架构搜索是近年来机器学习领域中的研究热门,这种技术包括对搜索算子和空间的设计,搜索算法的设计等。目前,神经网络架构搜索技术可用于自动化的设计各种大小的神经网络模型,避免人工进行复杂的参数调整。其中,最具潜力的应用之一在设计轻量化的神经网络模型,提高神经网络在移动设备上的应用能力。
[0003]在移动设备中,神经网络推理的实时性和准确性是两大要考虑的因素。在早期人工设计的轻量化神经网络模型中,Howard等人提出了MobileNet,该神经网络是单支路的结构,通过1
×
1的点卷积和3
×
3的深度分离卷积交替运算大大降低了网络的参数量,从而提升了推理速度(Howard, A.G., Zhu, M., Chen, B., Kalenichenko, D., Wang, W., Weyand, T., Andreetto, M., Adam, H.: Mobilenets: Efficient convolutional neural networks for mobile vision applications. In ArXiv abs/1704.04861, 2017.)。但是由于该模型是单支路结构,很难得到较高的准确性。同时,在人工设计轻量化模型时,许多工作往往把网络的参数量或浮点数运算量作为衡量模型快慢的指标。然而类似跳跃连接等无参数且低浮点数运算的操作仍会导致推理速度变慢。
[0004]为了缓解深度单支路结构网络准确性低和多支路网络结构推理慢的问题,Ding等人提出了利用结构重参数技术训练神经网络,即在网络训练时网络为多分支结构,而在网络推理时网络为单支路结构(Xiaohan Ding and Xiangyu Zhang and Ningning Ma and Jungong Han and Guiguang Ding and Jian Sun.: RepVGG: Making VGG

style ConvNets Great Again. In CVPR, 2021)。此外,大多数的深度学习推理框架都对3
×
3卷积有优化,因此全部都由3
×
3组成的单支路结构可以获得非常快的推理速度。
[0005]虽然RepVGG系列模型已经大大提高了模型的实际推理速度,但因为支路的结构是人为固定的,所以网络模型的准确性仍有非常大的提升空间。此外,过多的支路会导致训练网络模型需要的显存空间大大增加。因此,如何高效的通过重参数技术提升模型性能成为时下需要解决的问题。

技术实现思路

[0006]为解决现有技术的不足,出一种易实现、适用性高的,可搜索出部署在边缘计算情况下的重参数神经网络模型,实现保证网络高精度的同时,提高实时检测速度的目的,本专利技术采用如下的技术方案:面向边缘计算的重参数神经网络架构搜索方法,包括如下步骤:S1,设计各个支路的算子以及搜索空间,为了加强K
×
K卷积提取特征的能力,每个原始K
×
K卷积设置支路,包括其他尺度的卷积和捷径short cut,构成多分支块,用于提取
不同视野下的图片特征;S2,构建包含所有支路的超级网络,借鉴VGG网络中的直筒设计,通过不断堆叠K
×
K卷积的多分支块,构建一个单支路冗余的网络结构;S3,通过离散神经网络架构搜索方法,在给定显存限制下,训练超级网络,包括如下步骤:S31,给定显存最大限制C,初始化每条支路的结构参数
ɑ
和权重参数θ;S32,计算每条支路的重要性:
ꢀꢀꢀꢀ
(1)其中,Z
i,j
表示第i个多分支块中第j条支路的重要性,exp( )表示指数e,α
i,j
表示第i个多分支块中第j条支路的结构参数,ζ
i,j
表示第i个多分支块中第j条支路的采样噪声,λ
i,j
表示第i个多分支块中第j条支路的温度系数,在此处其初始值为1;S33,计算每条支路是否激活:
ꢀꢀꢀꢀ
(2)其中R
i,j

i,j

i,j
,Rank(R
i,j
)表示第i个多分支块中第j条支路在所有支路中的重要性排名,s表示排名阈值,通过调整s的大小来满足所述显存最大限制C,低于该排名阈值的支路不激活;S34,获取一批训练数据,多分支块中的每条支路获取不同的图像特征,激活公式(2)中值为1的支路,进行前向推理,之后计算预测的图像分类标签与真实的图像分类标签的损失函数L(交叉熵);S35,通过反向传播,分别计算权重参数θ和激活参数Z在损失函数L上的梯度,所述激活参数Z是由Z
i,j
组成的向量,同时计算结构参数
ɑ
在logp(Z)上的梯度,Z是离散后的
ɑ
,p(
ɑ
)是结构参数
ɑ
经过如下公式概率化后的结果
ꢀꢀꢀꢀ
(3)S36,根据对L的梯度,更新权重参数θ,同时根据如下公式更新结构参数
ɑ
(当不是随机采样时,根据如下公式计算结构参数
ɑ
的梯度)
ꢀꢀꢀꢀ
(4)
其中E
Z~p(Zi,j)
表示在Z采样于p(Z
i,j
)概率分布下的期望,

α
i,j 是第i个多分支块中第j条支路的结构参数α在logp(Z)上的梯度;S37,回到S32,直至超级网络中的权重参数和结构参数训练到收敛;S4,将训练后多余的支路从超级网络中去除,得到最佳子网络,根据公式(2)去除经过步骤3训练的超级网络中未激活的支路,剩余支路的权重参数直接从超级网络中继承,不需要重新训练或者微调;S5,将多支路的最佳子网络融合成单支路的最佳子网络;S6,使用单支路的最佳子网络获取图像特征,进行实时推理,将融合后的单支路网络进行图像分类,融合前和融合后的网络在准确性上无任何差别,但大大降低了网络的参数量和推理时间。
[0007]进一步地,所述S5,通过重参数方法将多支路的最佳子网络融合成单支路的最佳子网络,包括如下步骤:S51,将保留下来的每条支路中的卷积层和BN层权重参数进行重参数融合;S52,将各支路重参数融合为与原始卷积相同尺度的卷积,再分别与原始K
×
K卷积融合成一个卷积F
j
;S53,将同一个多分支块中的多分支K
×
K卷积F
j
融合成一个K
×
K卷积。
[0008]进一步地,所述S51中重参数融合公式如下
ꢀꢀꢀꢀ
(5)其中,γ表示BN层的缩放参数、μ表示BN层特征的均本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.面向边缘计算的重参数神经网络架构搜索方法,其特征在于包括如下步骤:S1,设计各个支路的算子以及搜索空间,为原始卷积设置支路,构成多分支块,用于提取不同视野下的图片特征;S2,构建包含所有支路的超级网络,通过不断堆叠多分支块,构建支路的网络结构;S3,通过离散神经网络架构搜索方法,在给定显存限制下,训练超级网络,包括如下步骤:S31,给定显存最大限制C,初始化每条支路的结构参数α和权重参数θ;S32,计算每条支路的重要性:
ꢀꢀꢀꢀ
(1)其中,Z
i,j
表示第i个多分支块中第j条支路的重要性,exp( )表示指数e,α
i,j
表示第i个多分支块中第j条支路的结构参数,ζ
i,j
表示第i个多分支块中第j条支路的采样噪声,λ
i,j
表示第i个多分支块中第j条支路的温度系数;S33,计算每条支路是否激活:
ꢀꢀꢀꢀ
(2)其中R
i,j

i,j

i,j
,Rank(R
i,j
)表示第i个多分支块中第j条支路在所有支路中的重要性排名,s表示排名阈值,通过调整s的大小来满足所述显存最大限制C,低于该排名阈值的支路不激活;S34,获取训练数据,多分支块中的每条支路获取不同的图像特征,激活公式(2)中值为1的支路,进行前向推理,之后计算预测的图像分类标签与真实的图像分类标签的损失函数L;S35,通过反向传播,分别计算权重参数θ和激活参数Z在损失函数L上的梯度,所述激活参数Z是由Z
i,j
组成的向量,同时计算结构参数
ɑ
在logp(Z)上的梯度,p(
ɑ
)是结构参数
ɑ
经过如下公式概率化后的结果
ꢀꢀꢀꢀ
(3)S36,根据对L的梯度,更新权重参数θ,同时根据如下公式更新结构参数
ɑ

ꢀꢀꢀꢀ
(4)其中E
Z~p(Zi,j)
表示在Z采样于p(Z
i,j
)概率分布下的期望,

α
i,j
是第i个多分支块中第j
条支路的结构参数α在logp(Z)上的梯度;S37,回到S32,直至超级网络中的权重参数和结构参数训练到收敛;S4,将训练后多余的支路从超级网络中去除,得到最佳子网络,根据公式(2)去除经过步骤3训练的超级网络中未激活的支路;S5,将多支路的最佳子网络融合成单支路的最佳子网络;S6,使用单支路的最佳子网络获取图像特征,进行实时推理,将融合后的单支路网络进行图像分类。2.根据权利要求1所述的面向边缘计算的重参数神经网络架构搜索方法,其特征在于所述S5,通过重参数方法将多支路的最佳子网络融合成单支路的最佳子网络,包括如下步骤:S51,将保留下来的每条支路中的卷积层和BN层权重参数进行重参数融合;S52,将各支路重参数融合为与原始卷积相同尺度的卷积,再分别与原始卷积融合成一个卷积F
j
;S53,将同一个多分支块中的多分支卷积F
j
融合成一个卷积。3.根据权利要求2所述的面向边缘计算的重参数神经网络架构搜索方法,其特征在于所述S51中重参数融合公式如下
ꢀꢀ...

【专利技术属性】
技术研发人员:张铭扬高丰汤志航杨涛郑欢欢王晓江郁善金
申请(专利权)人:之江实验室
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1