网络模型压缩方法、装置、电子设备和可读介质制造方法及图纸

技术编号:38925301 阅读:31 留言:0更新日期:2023-09-25 09:33
本公开提供一种网络模型压缩方法、装置、电子设备和可读介质,其中,网络模型压缩方法包括:通过标注后的样本数据集对教师模型进行训练,以得到样本数据集的样本分布的预测结果;对具有预测结果的样本数据集中的样本向量进行特征交互;根据特征交互后的样本对学生模型进行多任务训练;基于多任务训练得到的损失函数对学生模型进行参数优化至收敛为止,以得到优化后的学生模型。通过本公开实施例,在保证网络模型的识别可靠性和准确性的前提下,实现了网络模型的压缩,降低了网络模型的体量,降低了网络模型的延时。降低了网络模型的延时。降低了网络模型的延时。

【技术实现步骤摘要】
网络模型压缩方法、装置、电子设备和可读介质


[0001]本公开涉及机器识别
,具体而言,涉及一种网络模型压缩方法、装置、电子设备和可读介质。

技术介绍

[0002]目前,在自然语言处理领域,随着预训练语言模型的快速发展,模型的参数量达到上亿级别。日益庞大的网络模型虽然能够提高机器识别方案的准确率和可靠性,但是,也带来了昂贵的硬件资源消耗,而且网络模型的延时大,且数据维护成本高昂。
[0003]需要说明的是,在上述
技术介绍
部分公开的信息仅用于加强对本公开的背景的理解,因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。

技术实现思路

[0004]本公开的目的在于提供一种网络模型压缩方法、装置、电子设备和可读介质,用于至少在一定程度上克服由于相关技术的限制和缺陷而导致的网络模型体量大的问题。
[0005]根据本公开实施例的第一方面,提供一种网络模型压缩方法,包括:通过标注后的样本数据集对教师模型进行训练,以得到所述样本数据集的样本分布的预测结果;对具有所述预测结果的样本数据集中的样本向量进行特征交互;根据特征交互后的样本对学生模型进行多任务训练;基于所述多任务训练得到的损失函数对所述学生模型进行参数优化至收敛为止,以得到优化后的学生模型。
[0006]在本公开的一种示例性实施例中,在通过标注后的样本数据集对教师模型进行训练前,还包括:
[0007]对采集的语言样本数据进行聚类处理;
[0008]对聚类后的语言样本数据进行两两组合以生成样本对,并根据所述样本对的向量表示生成标注后的所述样本数据集。
[0009]在本公开的一种示例性实施例中,对聚类后的语言样本数据进行两两组合以生成样本对,并根据所述样本对的向量表示生成标注后的所述样本数据集包括:
[0010]确定聚类后的每个聚类集合中的语言样本数据;
[0011]对任两个聚类集合中的语言样本数据进行两两组合,以生成所述样本对;
[0012]计算任一所述样本对中两个语言样本数据的向量值的均值;
[0013]比较所述均值与预设向量均值之间的大小关系;
[0014]根据所述大小关系将所述样本标注为正样本对或负样本对;
[0015]根据所述正样本对和所述负样本对生成所述样本数据集。
[0016]在本公开的一种示例性实施例中,对具有所述预测结果的样本数据集中的样本向量进行特征交互包括:
[0017]对具有所述预测结果的样本数据集中的任两个样本向量进行指定运算;
[0018]对所述指定运算后的结果进行拼接处理;
[0019]根据所述拼接处理确定所述特征交互的结果,
[0020]其中,所述指定运算包括差值运算、乘积运算和相似度计算中的至少一种。
[0021]在本公开的一种示例性实施例中,根据特征交互后的样本对学生模型进行多任务训练包括:
[0022]根据所述样本数据集的属性信息向所述学生模型的底层输入训练信息执行第一训练任务,所述训练信息包括所述样本位置信息、字符信息和语句信息中的至少一种;
[0023]在所述学生模型的顶层基于所述特征交互的结果执行第二训练任务。
[0024]在本公开的一种示例性实施例中,基于所述多任务训练得到的损失函数对所述学生模型进行参数优化至收敛为止,以得到优化后的学生模型包括:
[0025]根据所述第一训练任务确定所述样本数据集对应的标注损失函数;
[0026]根据所述第二训练任务确定所述样本数据集对应的预测损失函数;
[0027]根据预设权重系数、所述标注损失函数和所述预测损失函数确定所述学生模型的损失函数;
[0028]对所述学生模型进行参数优化至所述损失函数收敛为止,以得到优化后的学生模型。
[0029]在本公开的一种示例性实施例中,所述学生模型的特征编码器包括四层transformer网络的albert_tiny层。
[0030]根据本公开实施例的第二方面,提供一种网络模型压缩装置,包括:
[0031]第一训练模块,设置为通过标注后的样本数据集对教师模型进行训练,以得到所述样本数据集的样本分布的预测结果;
[0032]第二训练模块,设置为对具有所述预测结果的样本数据集中的样本向量进行特征交互;
[0033]第三训练模块,设置为根据特征交互后的样本对学生模型进行多任务训练;
[0034]第四训练模块,设置为基于所述多任务训练得到的损失函数对所述学生模型进行参数优化至收敛为止,以得到优化后的学生模型。
[0035]根据本公开的第三方面,提供一种电子设备,包括:存储器;以及耦合到所述存储器的处理器,所述处理器被配置为基于存储在所述存储器中的指令,执行如上述任意一项所述的方法。
[0036]根据本公开的第四方面,提供一种计算机可读存储介质,其上存储有程序,该程序被处理器执行时实现如上述任意一项所述的网络模型压缩方法。
[0037]本公开实施例,通过标注后的样本数据集对教师模型进行训练,以得到所述样本数据集的样本分布的预测结果,并对具有所述预测结果的样本数据集中的样本向量进行特征交互,进而根据特征交互后的样本对学生模型进行多任务训练,最终基于所述多任务训练得到的损失函数对所述学生模型进行参数优化至收敛为止,以得到优化后的学生模型,在保证网络模型的识别可靠性和准确性的前提下,实现了网络模型的压缩,降低了网络模型的体量,降低了网络模型的延时。
[0038]应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。
附图说明
[0039]此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理。显而易见地,下面描述中的附图仅仅是本公开的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0040]图1示出了可以应用本专利技术实施例的网络模型压缩方案的示例性系统架构的示意图;
[0041]图2是本公开示例性实施例中一种网络模型压缩方法的流程图;
[0042]图3是本公开示例性实施例中另一种网络模型压缩方法的流程图;
[0043]图4是本公开示例性实施例中另一种网络模型压缩方法的流程图;
[0044]图5是本公开示例性实施例中另一种网络模型压缩方法的流程图;
[0045]图6是本公开示例性实施例中另一种网络模型压缩方法的流程图;
[0046]图7是本公开示例性实施例中另一种网络模型压缩方法的流程图;
[0047]图8是本公开示例性实施例中一种网络模型压缩方案的数据交互示意图;
[0048]图9是本公开示例性实施例中另一种网络模型压缩方案的数据交互示意图;
[0049]图10是本公开示例性实施例中另一种网络模型压缩方案的数据交互示意图;
[0050]图11是本公开示例性实施例本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种网络模型压缩方法,其特征在于,包括:通过标注后的样本数据集对教师模型进行训练,以得到所述样本数据集的样本分布的预测结果;对具有所述预测结果的样本数据集中的样本向量进行特征交互;根据特征交互后的样本对学生模型进行多任务训练;基于所述多任务训练得到的损失函数对所述学生模型进行参数优化至收敛为止,以得到优化后的学生模型。2.如权利要求1所述的网络模型压缩方法,其特征在于,在通过标注后的样本数据集对教师模型进行训练前,还包括:对采集的语言样本数据进行聚类处理;对聚类后的语言样本数据进行两两组合以生成样本对,并根据所述样本对的向量表示生成标注后的所述样本数据集。3.如权利要求2所述的网络模型压缩方法,其特征在于,对聚类后的语言样本数据进行两两组合以生成样本对,并根据所述样本对的向量表示生成标注后的所述样本数据集包括:确定聚类后的每个聚类集合中的语言样本数据;对任两个聚类集合中的语言样本数据进行两两组合,以生成所述样本对;计算任一所述样本对中两个语言样本数据的向量值的均值;比较所述均值与预设向量均值之间的大小关系;根据所述大小关系将所述样本标注为正样本对或负样本对;根据所述正样本对和所述负样本对生成所述样本数据集。4.如权利要求1所述的网络模型压缩方法,其特征在于,对具有所述预测结果的样本数据集中的样本向量进行特征交互包括:对具有所述预测结果的样本数据集中的任两个样本向量进行指定运算;对所述指定运算后的结果进行拼接处理;根据所述拼接处理确定所述特征交互的结果,其中,所述指定运算包括差值运算、乘积运算和相似度计算中的至少一种。5.如权利要求1

4中任一项所述的网络模型压缩方法,其特征在于,根据特征交互后的样本对学生模型进行多任务训练包括:根据所述样本数据集的属性信息向所述学生模型的底...

【专利技术属性】
技术研发人员:彭郴俞晓光
申请(专利权)人:京东科技信息技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1