一种应用于边缘设备的模型训练方法及系统技术方案

技术编号:31320069 阅读:28 留言:0更新日期:2021-12-13 00:03
本发明专利技术公开了一种应用于边缘设备的模型训练方法及系统,属于模型压缩和迁移学习领域,包括:在边缘设备中加载预训练好的原模型,并识别出其中由Point

【技术实现步骤摘要】
一种应用于边缘设备的模型训练方法及系统


[0001]本专利技术属于模型压缩和迁移学习领域,更具体地,涉及一种应用于边缘设备的模型训练方法及系统。

技术介绍

[0002]随着智能化的普及,个人的智能设备大部分时间都处于闲置状态。将训练任务从云端迁移到边缘上可以充分利用边缘设备的算力。边缘上的数据量远少于云端,训练模型所需时间通常不会很长。减少需要上传的数据,训练效率也能得到提高。同时个人敏感数据不用再上传到云端,隐私问题能够很好的得到解决。
[0003]边缘设备上的存储和计算资源是有限的,如何在资源受限的设备上有效的训练神经网络模型需要解决二个问题:其一是,硬件的发展速度不再遵循摩尔定律,逐渐趋于平缓,而模型大小以及数据规模却在持续增长;为了减轻云的计算负载,训练需要从云平台转移到边缘平台,而个人闲置设备(边缘设备)硬件资源相较于云更少,因此需要解决在资源受限的边缘设备上不能训练日益增大的模型的问题。其二则是,在边缘设备上,数据的分布以及种类较为贫瘠,而模型要取得好的效果一般需要较多的数据用来训练,所以需要解决在边缘设备上模型效果不好的问题。
[0004]针对问题一,可以利用模型压缩技术对现有的效果好的模型进行压缩,将参数量庞大且冗余的模型架构压缩成参数量少且精巧的模型架构,使得压缩后的模型能够在边缘设备上进行训练。目前模型压缩算法主要有:模型量化、模型剪枝(或模型稀疏化)以及模型结构设计三种方法。
[0005]针对问题二,迁移学习是一个很好的解决方案。迁移学习可以帮助提升模型效果,模型首先在较大的数据集上进行训练,然后将训练好的模型迁移到较小的数据集进行再训练(通常只需要微调),最后达成提升模型训练效果的目的。如在ImageNet上训练后的模型再迁移到小数据集如CIFAR

10效果通常会更好。迁移学习的方法主要由基于数据的方法和基于模型的方法两大类所组成。
[0006]基于数据的迁移学习方法专注于调整和转化数据,然后将修正后的数据作用于模型。基于模型的迁移学习,认为模型在训练阶段可以通过一些控制策略来提升训练效果,控制策略主要有模型控制策略和参数控制策略。模型控制策略主要思想是,在源数据集训练过的模型可以帮助目标模型在目标数据集的进行训练。参数控制策略关注的对象主要是模型的参数。
[0007]因此研究如何在资源受限的设备上有效的训练神经网络模型,以有效解决大模型在边缘设备上训练效率差和无法训练(训练内存不足)的问题,对人工智能的发展具有重要的意义。

技术实现思路

[0008]针对现有技术的缺陷和改进需求,本专利技术提供了一种应用于边缘设备的模型训练
方法及系统,旨在解决大模型在资源受限的边缘设备上训练效率差和无法训练的问题。
[0009]为实现上述目的,按照本专利技术的一个方面,提供了一种应用于边缘设备的模型训练方法,包括:
[0010]在边缘设备中加载预训练好的原模型,并识别出其中由Point

wise卷积层、Depth

wise卷积层和Point

wise卷积层依次连接构成的残差块;在残差块的基础上加入对应的轻架构,以将原模型转换为目标模型;轻架构包括相连接的Group

wise卷积层和Point

wise卷积层;
[0011]利用目标任务数据集对目标模型进行训练,并通过两步压缩的方式对先后对目标模型中的共享参数和非共享参数进行压缩,从而完成对目标模型的训练和压缩;
[0012]其中,共享参数为目标模型中属于原模型的参数,非共享参数为属于目标模型中属于轻架构的参数。
[0013]模型在训练过程中占用主存的瓶颈在于模型产生的中间数据,因此,在实际训练中,如何减少模型计算产生的数据(即模型中的激活值)的大小是减少模型训练实际所需内存(显存)的关键;本专利技术在边缘设备记载预训练好的原模型后,在其中残差块的基础上引入轻架构,具体为由Point

wise卷积层和Depth

wise卷积层相连构成的两层结构,该轻架构是一种轻量级的模块,其利用了分组卷积、1*1的卷积等较优的结构设计策略,相比于残差块的三层结构,其直接减少了一层中间层的输出数据,生成的参数较少且产生的中间数据也较少;通过在原模型中引入轻架构,将原模型转换为目标模型,能够帮助减少训练时所需要的计算资源以及存储等资源,优化新模型在边缘设备上的训练过程。
[0014]参数共享是指迁移学习的基于模型的参数共享方法,参数共享可以帮助模型快速的在目标数据集上进行训练,也能利用已经学习到的特征提升模型的训练效果;本专利技术采用参数共享的方法,将目标模型中属于原模型的参数作为共享参数,使得加入轻架构后的模型可以利用原来的网络保留学习到的特征,并利用轻架构来对目标任务进行“个性化”训练,即只对轻架构进行训练,参数共享的网络则冻结,以保留原始特征。参数共享后,训练过程的共享参数的部分参数不需要梯度的反向传播来更新,即模型中的原网络中参数共享了源模型(即非轻架构的模型部分)中对应网络的参数,共享后的网络只提供特征提取功能而不再参与到训练过程。
[0015]由于轻架构的方法从本质上是额外增加了网络的结构,所以模型在前向传播过程中会使用更多的资源,两步压缩的思想主要来源于迁移学习的参数共享方法,迁移学习的参数共享方法中模型从源任务迁移到目标任务时,共享的参数的值在目标任务上通常不会再训练。共享的参数只需在特征提取阶段(即前向传播中)作为一个固定的参数矩阵参与计算,而不会在反向传播过程中计算其梯度,因此对这部分共享的参数采用合理的压缩方法,可以使得压缩后的参数对于激活值的计算影响较小,模型的整体效果也能够达到压缩前的水平,针对于压缩后的参数,也能够应用移位运算来加速计算过程。模型训练完后,非共享的全精度参数不再进行更新,此时,其他这些未经过压缩的参数(网络)也可以像共享参数一般再次压缩,进一步来对模型进行压缩。对改造后的模型在训练中及训练后两个阶段分别进行压缩,使得模型在训练过程中以及训练完成后的推理过程中占用的存储空间和计算复杂度大幅得到减少。
[0016]总体而言,本专利技术在预训练好的原模型中引入与残差块对应的轻架构,将原模型
转换为目标模型,并将目标模型中属于原模型的参数作为共享参数,在训练过程中不做更新,能够帮助减少训练时所需要的计算资源以及存储等资源,优化新模型在边缘设备上的训练过程,提高模型训练效率,在此基础上,通过两步压缩的方式,先后对目标模型中的共享参数和非共享参数进行压缩,使得模型在训练过程中以及训练完成后占用的存储空间和计算复杂度大幅得到减少。
[0017]在一些可选的实施例中,两步压缩包括:
[0018]在对目标模型进行训练之前,对共享参数进行压缩;
[0019]对目标模型训练结束后,对非共享参数进行压缩。
[0020]上述两步压缩方法为一种常规的两步压缩方法,仅对共享参数和模型训练结束后的非共本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种应用于边缘设备的模型训练方法,其特征在于,包括:在边缘设备中加载预训练好的原模型,并识别出其中由Point

wise卷积层、Depth

wise卷积层和Point

wise卷积层依次连接构成的残差块;在残差块的基础上加入对应的轻架构,以将所述原模型转换为目标模型;所述轻架构包括相连接的Group

wise卷积层和Point

wise卷积层;利用目标任务数据集对所述目标模型进行训练,并通过两步压缩的方式对先后对所述目标模型中的共享参数和非共享参数进行压缩,从而完成对所述目标模型的训练和压缩;其中,所述共享参数为所述目标模型中属于所述原模型的参数,所述非共享参数为属于所述目标模型中属于轻架构的参数。2.如权利要求1所述的应用于边缘设备的模型训练方法,其特征在于,所述两步压缩包括:在对所述目标模型进行训练之前,对所述共享参数进行压缩;对所述目标模型训练结束后,对所述非共享参数进行压缩。3.如权利要求1所述的应用于边缘设备的模型训练方法,其特征在于,所述两步压缩包括:在对所述目标模型进行训练之前,对所述共享参数进行压缩,并利用压缩后的共享参数对所述目标模型中属于所述原模型、但不与轻架构接壤的部分的激活值,压缩后再传入下一层网络;对所述目标模型训练结束后,对所述非共享参数进行压缩。4.如权利要求1所述的应用于边缘设备的模型训练方法,其特征在于,所述两步压缩包括:在对所述目标模型进行训练之前,对所述共享参数进行压缩;在对所述目标模型的每一轮训练中,先对所述非...

【专利技术属性】
技术研发人员:李瑞轩辜希武高鑫李玉华王号召
申请(专利权)人:华中科技大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1