模型训练的方法、系统、设备及存储介质技术方案

技术编号:35517566 阅读:10 留言:0更新日期:2022-11-09 14:35
本申请提出一种模型训练的方法、系统、设备及存储介质,该方法包括:通过应用本申请的技术方案,需要首先确定针对同一处理单元的识别结果而言,教师模型的识别结果与学生模型的识别结果中,识别结果更优的教师识别结果。并在后续利用该识别结果更优的教师识别结果对学生模型进行模型训练,从而实现一种利用识别结果更准确的训练方式来对学生模型进行训练的目的。进而避免了相关技术中出现的,采用教师模型对处理单元的所有识别结果来对学生模型进行蒸馏所导致的训练结果不理想的问题。型进行蒸馏所导致的训练结果不理想的问题。型进行蒸馏所导致的训练结果不理想的问题。

【技术实现步骤摘要】
模型训练的方法、系统、设备及存储介质


[0001]本申请属于计算机
,具体涉及一种模型训练的方法、系统、设备及存储介质。

技术介绍

[0002]相关技术中,知识蒸馏是一种模型压缩的方法。其思想是通过使用一个较大的已经训练好的教师模型来教导一个较小的学生模型从而取得学生模型性能的提升。
[0003]一种方式中,知识蒸馏的目的是使学生模型的预测结果与教师模型的预测结果尽量接近。其中,传统的知识蒸馏方法认为教师模型的预测结果全部优于学生模型的预测结果,因此需要采用教师模型对待识别对象的所有识别结果来对学生模型进行蒸馏。
[0004]然而,相关技术中的方式存在一个问题,即当教师模型在某些识别结果中并不准确的情况下,依然采用上述方式对学生模型进行训练会导致训练结果不理想的问题。

技术实现思路

[0005]本申请提出一种模型训练的方法、系统、设备及存储介质,可以解决相关技术中出现的,采用教师模型对待识别对象的所有识别结果来对学生模型进行蒸馏所导致的训练结果不理想的问题。
[0006]本申请第一方面实施例提出了一种模型训练的方法,所述方法包括:
[0007]利用教师模型对至少一个处理单元进行识别,得到每个处理单元对应的教师识别结果,以及,利用学生模型对所述至少一个处理单元进行识别,得到每个处理单元对应的学生识别结果;
[0008]将所述教师识别结果与所述学生识别结果中,与真值结果的差异值较小的教师训练识别结果作为训练识别结果;
[0009]基于训练识别结果对所述学生模型进行模型训练。
[0010]本申请第二方面实施例提出了一种模型训练的装置,所述装置包括:
[0011]识别模块,被配置为利用教师模型对至少一个处理单元进行识别,得到每个处理单元对应的教师识别结果,以及,利用学生模型对所述至少一个处理单元进行识别,得到每个处理单元对应的学生识别结果;
[0012]生成模块,被配置为将所述教师识别结果与所述学生识别结果中,与真值结果的差异值较小的教师训练识别结果作为训练识别结果;
[0013]训练模块,被配置为基于训练识别结果对所述学生模型进行模型训练。
[0014]本申请第三方面的实施例提供了一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器运行所述计算机程序以实现上述第一方面所述的方法。
[0015]本申请第四方面的实施例提供了一种计算机可读存储介质,其上存储有计算机程序,所述程序被处理器执行实现上述第一方面所述的方法。
[0016]本申请实施例中提供的技术方案,至少具有如下技术效果或优点:
[0017]在本申请实施例中,可以利用教师模型对至少一个处理单元进行识别,得到每个处理单元对应的教师识别结果,以及,利用学生模型对至少一个处理单元进行识别,得到每个处理单元对应的学生识别结果;将教师识别结果与学生识别结果中,与真值结果的差异值较小的教师训练识别结果作为训练识别结果;基于训练识别结果对学生模型进行模型训练。通过应用本申请的技术方案,需要首先确定针对同一处理单元的识别结果而言,教师模型的识别结果与学生模型的识别结果中,识别结果更优的教师识别结果。并在后续利用该识别结果更优的教师识别结果对学生模型进行模型训练,从而实现一种利用识别结果更准确的训练方式来对学生模型进行训练的目的。进而避免了相关技术中出现的,采用教师模型对处理单元的所有识别结果来对学生模型进行蒸馏所导致的训练结果不理想的问题。
[0018]本申请附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变的明显,或通过本申请的实践了解到。
附图说明
[0019]通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本申请的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
[0020]图1示出了本申请一实施例所提供的一种模型训练的方法的示意图;
[0021]图2示出了本申请一实施例所提供的一种模型训练的系统架构示意图;
[0022]图3示出了本申请一实施例所提供的一种对比掩膜图像的示意图;
[0023]图4示出了本申请一实施例所提供的一种模型训练的流程示意图;
[0024]图5示出了本申请一实施例所提供的一种模型训练的装置的结构示意图;
[0025]图6示出了本申请一实施例所提供的一种电子设备的结构示意图;
[0026]图7示出了本申请一实施例所提供的一种存储介质的示意图。
具体实施方式
[0027]下面将参照附图更详细地描述本申请的示例性实施方式。虽然附图中显示了本申请的示例性实施方式,然而应当理解,可以以各种形式实现本申请而不应被这里阐述的实施方式所限制。相反,提供这些实施方式是为了能够更透彻地理解本申请,并且能够将本申请的范围完整的传达给本领域的技术人员。
[0028]需要注意的是,除非另有说明,本申请使用的技术术语或者科学术语应当为本申请所属领域技术人员所理解的通常意义。
[0029]下面结合附图来描述根据本申请实施例提出的一种模型训练的方法、系统、设备及存储介质。
[0030]本申请实施例提供了一种模型训练的方法,该方法可以利用教师模型对至少一个处理单元进行识别,得到每个处理单元对应的教师识别结果,以及,利用学生模型对至少一个处理单元进行识别,得到每个处理单元对应的学生识别结果;将教师识别结果与学生识别结果中,与真值结果的差异值较小的教师训练识别结果作为训练识别结果;基于训练识别结果对学生模型进行模型训练。
[0031]参见图1,该方法具体包括以下步骤:
[0032]步骤101:利用教师模型对至少一个处理单元进行识别,得到每个处理单元对应的教师识别结果,以及,利用学生模型对至少一个处理单元进行识别,得到每个处理单元对应的学生识别结果。
[0033]一种方式中,本申请不对处理单元进行具体限定,例如可以为图像数据中的某一个像素点、也可以为文本数据某一个字符、也可以为语音数据中的某一个语音字节等等。
[0034]一种方式中,如果处理单元对应于图像数据,则教师模型以及学生模型可以为图像分类模型,也即利用教师模型对处理单元进行识别,得到教师识别结果为利用教师分类模型对某个图像数据进行分类识别(例如为前景背景分类),得到每一像素点对应的识别结果(识别结果即为该像素点为前景还是背景等等)。
[0035]另一种方式中,如果处理单元对应于文字数据,则教师模型以及学生模型可以为文本分类模型,也即利用教师模型对处理单元进行识别,得到教师识别结果为利用教师分类模型对某个文本数据进行分类识别(例如为对文本所属领域进行分类),得到每一文本字段对应的识别结果(识别结果即为该字段为第一文本领域还是第二文本领域等等)。
[0036]再一种方式中,如果处理单元对应于语音数据,则教本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种模型训练的方法,其特征在于,包括:利用教师模型对至少一个处理单元进行识别,得到每个处理单元对应的教师识别结果,以及,利用学生模型对所述至少一个处理单元进行识别,得到每个处理单元对应的学生识别结果;将所述教师识别结果与所述学生识别结果中,与真值结果的差异值较小的教师训练识别结果作为训练识别结果;基于训练识别结果对所述学生模型进行模型训练。2.根据权利要求1所述的方法,其特征在于,所述将所述教师识别结果与所述学生识别结果中,与真值结果的差异值较小的教师训练识别结果作为训练识别结果,包括:分别计算每个所述教师识别结果与对应真值结果的第一差异值;以及,分别计算每个所述学生识别结果与对应真值结果的第二差异值;将每个所述第一差异值与所述第二差异值中,数值较小的差异值对应的识别结果作为待分类识别结果;将对应于教师识别结果的所述待分类识别结果作为所述训练识别结果。3.根据权利要求1所述的方法,其特征在于,所述基于训练识别结果对所述学生模型进行模型训练,包括:基于所述训练识别结果以及对应的所述真值结果,构建损失函数;利用所述处理单元以及所述损失函数,对所述学生模型进行模型训练。4.根据权利要求1所述的方法,其特征在于,所述利用教师模型对至少一个处理单元进行识别,得到每个处理单元对应的教师识别结果,以及,利用学生模型对所述至少一个处理单元进行识别,得到每个处理单元对应的学生识别结果,包括:若所述处理单元为像素点,利用所述教师模型对图像数据中的至少一个像素点进行识别,得到每一像素点对应的教师像素识别结果;以及,利用所述学生模型对所述图像数据中的至少一个像素点进行识别,得到每一像素点对应的学生像素识别结果。5.根据权利要求4所述的方法,其特征在于,在所述得到每一像素点对应的学生像素识别结果之后,还包括:获取每一像素点对应的真值像素结果;利用预设损失函数,计算每一个所述教师像素识别结果与对应的所述真值像素结果的第一像素差异值;以及,利用预设损失函数,计算每一个所述学生像素识别结果与对应的所述真值像素结果的第二像素差异值;基于所述第一像素差异值以及所述第二像素差异值,生成所述训练识别结果。6.根据权利要求5所述的方法,其特征在于,所述基于所述第一像素差异值以及所述第二像素差异...

【专利技术属性】
技术研发人员:肖育豪杨凤海
申请(专利权)人:阿里巴巴中国有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1