一种模型训练方法、装置和电子设备制造方法及图纸

技术编号:31834804 阅读:13 留言:0更新日期:2022-01-12 13:12
本申请提供了一种模型训练方法、装置和电子设备,所述模型训练方法包括:获取未标注数据集,所述未标注数据集包括多个未标注数据;将多个未标注数据输入分类模型,得到分类模型输出的多个分类结果,其中,每个未标注数据对应一个分类结果,分类结果用于表征对应的未标注数据的预测类别;基于多个分类结果,获取第一数据集;获取与第一数据集对应的第一目标数据集,第一目标数据集为对第一数据集中的每个未标注数据标注真实类别之后,得到的数据集;基于第一目标数据集,对分类模型进行迭代训练,得到目标分类模型。本申请提供的一种模型训练方法、装置和电子设备,可以解决由于样本数量不平衡而导致的模型精度较低的问题。数量不平衡而导致的模型精度较低的问题。数量不平衡而导致的模型精度较低的问题。

【技术实现步骤摘要】
一种模型训练方法、装置和电子设备


[0001]本申请涉及数据处理领域,具体涉及一种模型训练方法、装置和电子设备。

技术介绍

[0002]目前,在对分类模型进行训练过程中,在某些场景下,所能获取到的不同类别的训练数据的数量之间可能差别相当大。例如,在银行信用欺诈交易识别中,所获取到的历史交易数据中,属于欺诈交易的样本通常仅占很少一部分,绝大部分为正常交易的样本。在此情况下,由于训练数据中各类型的样本数量不平衡,所训练得到的模型倾向于将待识别数据分类至样本数量较多的类别,从而可能导致模型精度较低的问题。

技术实现思路

[0003]本申请提供的一种模型训练方法、装置和电子设备,可以解决由于样本数量不平衡而导致的模型精度较低的问题。
[0004]第一方面,本申请实施例提供了一种模型训练方法,包括:
[0005]获取未标注数据集,所述未标注数据集包括多个未标注数据;
[0006]将所述多个未标注数据输入分类模型,得到所述分类模型输出的多个分类结果,其中,每个所述未标注数据对应一个所述分类结果,所述分类结果用于表征对应的所述未标注数据的预测类别,所述预测类别为预设类别中的类别;
[0007]基于所述多个分类结果,获取第一数据集,其中,所述第一数据集包括至少两个未标注数据组,且未标注数据组中的未标注数据的预测类别为未标注数据组对应的预设类别;
[0008]获取与所述第一数据集对应的第一目标数据集,所述第一目标数据集为对所述第一数据集中的每个未标注数据标注真实类别之后,得到的数据集;
[0009]基于所述第一目标数据集,对所述分类模型进行迭代训练,得到目标分类模型。
[0010]第二方面,本申请实施例提供了一种模型训练装置,包括:
[0011]第一获取模块,用于获取未标注数据集,所述未标注数据集包括多个未标注数据;
[0012]预测模块,用于将所述多个未标注数据输入分类模型,得到所述分类模型输出的多个分类结果,其中,每个所述未标注数据对应一个所述分类结果,所述分类结果用于表征对应的所述未标注数据的预测类别,所述预测类别为预设类别中的类别;
[0013]第二获取模块,用于基于所述多个分类结果,获取第一数据集,其中,所述第一数据集包括至少两个未标注数据组,且未标注数据组中的未标注数据的预测类别为未标注数据组对应的预设类别;
[0014]第三获取模块,用于获取与所述第一数据集对应的第一目标数据集,所述第一目标数据集为对所述第一数据集中的每个未标注数据标注真实类别之后,得到的数据集;
[0015]训练模块,用于基于所述第一目标数据集对所述分类模型进行迭代训练,得到目标分类模型。
[0016]第三方面,本申请实施例还提供了一种电子设备,包括处理器、存储器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述计算机程序被所述处理器执行时实现如上述第一方面所述的方法步骤。
[0017]第四方面,本申请实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如上述第一方面所述的方法步骤。
[0018]本申请实施例中,通过基于分类模型对未标注数据进行分类,从而得到每个未标注数据的预测类别,这样,可以根据预测类别对未标注数据集中的未标注数据进行分类,然后,从每个类别中获取未标注数据形成第一数据集,并在确定第一数据集中每个未标注数据的真实类别之后,得到第一目标数据集,最后,基于第一目标数据集对分类模型进行迭代训练,以得到目标分类模型。该过程中,通过先对未标注数据进行分类,这样,在获取第一目标数据集时,可以相对均衡的从各个类别中获取对应数量的未标注数据进行标注,从而可以使得所获取到的第一目标数据集中各个类别的训练数据的数量相对均衡,进而可以有效的缓解样本数量不平衡的问题,进而可以提高训练得到的目标分类模型的精度。
附图说明
[0019]为了更清楚地说明本申请实施例的技术方案,下面将对本申请实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
[0020]图1是本申请实施例提供的模型训练方法的流程图之一;
[0021]图2是本申请实施例提供的模型训练方法的流程图之二;
[0022]图3是本申请实施例提供的模型训练装置的结构示意图之一;
[0023]图4是本申请实施例提供的模型训练装置的结构示意图之二。
具体实施方式
[0024]下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
[0025]针对
技术介绍
中的由于各类型的样本数量不平衡,而导致的训练得到的模型的精度较低的问题。相关技术中主要存在过采样法和欠采样法两种手段,对训练数据中各类型的样本进行平衡。其中,所述过采样法是根据样本标签少的样本的规律去生成更多该标签样本,这样使得数据趋向于平衡。然而,采用过采样法平衡样本存在如下缺陷:因为其是用少量样本生成更多的样本,或者不断使用少量样本。会导致模型对这部分少量样本过拟合。所述欠采用法是通过减少类别中数据较多的数据,从而让类别平衡。然而,采用欠采样法平衡样本存在如下缺陷:由于没有利用到数据集中的所有数据,有信息损失,有欠拟合的风险。可见,现有的样本平衡方法均存在各自的缺陷。
[0026]基于此,本申请实施例提供的模型训练方法通过先基于分类模型对待标注数据集
中的待标注数据进行分类,然后,从每个类别中获取n个待标注数据,以获得训练数据集。该过程中,包含了主动学习的思想。表现在标注过程中,就是主动去挑选“有价值”的数据进行标注。从而使最终结果优于随机选择。
[0027]本申请实施例提供的模型训练方法具体可以应用于:在分类模型的训练过程中,所能获取到的不同类别的训练数据的数量之间可能差别相当大。例如,由于在银行信用欺诈交易识别中,所获取到的历史交易数据中,属于欺诈交易的样本通常仅占很少一部分,绝大部分为正常交易的样本。因此,可以基于本申请实施例所提供的方法对训练银行信用欺诈交易识别模型进行训练。此外,还可以采用本申请实施例提供的方法对用户分类模型进行训练,其中,所述用户分类模型用于对全部用户进行分类,如分类为正常用户和非正常用户,还可包括其他分类结果。
[0028]请参见图1,为本申请实施例提供的一种模型训练方法,包括:
[0029]步骤101、获取未标注数据集,所述未标注数据集包括多个未标注数据;
[0030]步骤102、将所述多个未标注数据输入分类模型,得到所述分类模型输出的多个分类结果,其中,每个所述未标注数据对应一个所述分类结果,所述分类结果用本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种模型训练方法,其特征在于,包括:获取未标注数据集,所述未标注数据集包括多个未标注数据;将所述多个未标注数据输入分类模型,得到所述分类模型输出的多个分类结果,其中,每个所述未标注数据对应一个所述分类结果,所述分类结果用于表征对应的所述未标注数据的预测类别,所述预测类别为预设类别中的类别;基于所述多个分类结果,获取第一数据集,其中,所述第一数据集包括至少两个未标注数据组,且未标注数据组中的未标注数据的预测类别为未标注数据组对应的预设类别;获取与所述第一数据集对应的第一目标数据集,所述第一目标数据集为对所述第一数据集中的每个未标注数据标注真实类别之后,得到的数据集;基于所述第一目标数据集,对所述分类模型进行迭代训练,得到目标分类模型。2.根据权利要求1所述的方法,其特征在于,所述基于所述多个分类结果,获取第一数据集,包括:基于所述分类结果对所述多个未标注数据进行分类,得到至少两个子集合,其中,一个子集合对应一个预设类别;从每个子集合中,获取m个第一未标注数据和k个第二未标注数据,所述第一未标注数据为所述分类结果预测的准确率小于第一阈值的未标注数据,所述第二未标注数据为所述分类结果预测的准确率大于或等于所述第一阈值的未标注数据;将每个子集合中的所述m个第一未标注数据和所述k个第二未标注数据确定为所述第一数据集中的数据。3.根据权利要求2所述的方法,其特征在于,所述从每个子集合中,获取m个第一未标注数据和k个第二未标注数据之前,所述方法还包括:基于所述多个分类结果确定所述分类模型的目标准确率;在所述目标准确率小于第二阈值的情况下,所述m小于所述k;在所述目标准确率大于或等于所述第二阈值的情况下,所述m大于所述k。4.根据权利要求2所述的方法,其特征在于,所述分类结果包括目标未标注数据属于各个预设类别的概率,所述目标未标注数据为与所述分类结果对应的未标注数据,所述从每个子集合中,获取m个第一未标注数据和k个第二未标注数据之前,还包括:基于所述分类结果计算每个未标注数据的熵。5.根据权利要求1所述的方法,其特征在于,所述基于所述第一目标数据集对所述分类模型进行迭代训练,得到目标分类模型,包括:所述迭代训练共进行I次训练,其中,所述迭代训练中的第i次训练包括:取目标训练数据集与所述第一目标数据集的并集,得到第i组训练数据集;基于所述第i组训练数据集对所述分类模型进行训练...

【专利技术属性】
技术研发人员:罗奇帅蒋宁王洪斌吴海英权佳成李宽曹磊李长林
申请(专利权)人:马上消费金融股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1