网络模型压缩方法、装置、电子设备和可读介质制造方法及图纸

技术编号：38925301 阅读：31 留言：0更新日期：2023-09-25 09:33

本公开提供一种网络模型压缩方法、装置、电子设备和可读介质，其中，网络模型压缩方法包括：通过标注后的样本数据集对教师模型进行训练，以得到样本数据集的样本分布的预测结果；对具有预测结果的样本数据集中的样本向量进行特征交互；根据特征交互后的样本对学生模型进行多任务训练；基于多任务训练得到的损失函数对学生模型进行参数优化至收敛为止，以得到优化后的学生模型。通过本公开实施例，在保证网络模型的识别可靠性和准确性的前提下，实现了网络模型的压缩，降低了网络模型的体量，降低了网络模型的延时。降低了网络模型的延时。降低了网络模型的延时。

全部详细技术资料下载

【技术实现步骤摘要】
网络模型压缩方法、装置、电子设备和可读介质

[0001]本公开涉及机器识别
，具体而言，涉及一种网络模型压缩方法、装置、电子设备和可读介质。

技术介绍

[0002]目前，在自然语言处理领域，随着预训练语言模型的快速发展，模型的参数量达到上亿级别。日益庞大的网络模型虽然能够提高机器识别方案的准确率和可靠性，但是，也带来了昂贵的硬件资源消耗，而且网络模型的延时大，且数据维护成本高昂。
[0003]需要说明的是，在上述
技术介绍
部分公开的信息仅用于加强对本公开的背景的理解，因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。

技术实现思路

[0004]本公开的目的在于提供一种网络模型压缩方法、装置、电子设备和可读介质，用于至少在一定程度上克服由于相关技术的限制和缺陷而导致的网络模型体量大的问题。
[0005]根据本公开实施例的第一方面，提供一种网络模型压缩方法，包括：通过标注后的样本数据集对教师模型进行训练，以得到所述样本数据集的样本分布的预测结果；对具有所述预测结果的样本数据集中的样本向量进行特征交互；根据特征交互后的样本对学生模型进行多任务训练；基于所述多任务训练得到的损失函数对所述学生模型进行参数优化至收敛为止，以得到优化后的学生模型。
[0006]在本公开的一种示例性实施例中，在通过标注后的样本数据集对教师模型进行训练前，还包括：
[0007]对采集的语言样本数据进行聚类处理；
[0008]对聚类后的语言样本数据进行两两组合以生成样本对，并根据所述...

【技术保护点】

【技术特征摘要】
1.一种网络模型压缩方法，其特征在于，包括：通过标注后的样本数据集对教师模型进行训练，以得到所述样本数据集的样本分布的预测结果；对具有所述预测结果的样本数据集中的样本向量进行特征交互；根据特征交互后的样本对学生模型进行多任务训练；基于所述多任务训练得到的损失函数对所述学生模型进行参数优化至收敛为止，以得到优化后的学生模型。2.如权利要求1所述的网络模型压缩方法，其特征在于，在通过标注后的样本数据集对教师模型进行训练前，还包括：对采集的语言样本数据进行聚类处理；对聚类后的语言样本数据进行两两组合以生成样本对，并根据所述样本对的向量表示生成标注后的所述样本数据集。3.如权利要求2所述的网络模型压缩方法，其特征在于，对聚类后的语言样本数据进行两两组合以生成样本对，并根据所述样本对的向量表示生成标注后的所述样本数据集包括：确定聚类后的每个聚类集合中的语言样本数据；对任两个聚类集合中的语言样本数据进行两两组合，以生成所述样本对；计算任一所述样本对中两个语言样本数据的向量值的均值；比较所述均值与预设向量均值之间的大小关系；根据所述大小关系将所述样本标注为正样本对或负样本对；根据所述正样本对和所述负样本对生成所述样本数据集。4.如权利要求1所述的网络模型压缩方法，其特征在于，对具有所述预测结果的样本数据集中的样本向量进行特征交互包括：对具有所述预测结果的样本数据集中的任两个样本向量进行指定运算；对所述指定运算后的结果进行拼接处理；根据所述拼接处理确定所述特征交互的结果，其中，所述指定运算包括差值运算、乘积运算和相似度计算中的至少一种。5.如权利要求1
‑
4中任一项所述的网络模型压缩方法，其特征在于，根据特征交互后的样本对学生模型进行多任务训练包括：根据所述样本数据集的属性信息向所述学生模型的底...

【专利技术属性】
技术研发人员：彭郴，俞晓光，
申请(专利权)人：京东科技信息技术有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人