一种模型训练方法、装置和电子设备制造方法及图纸

技术编号：31834804 阅读：13 留言：0更新日期：2022-01-12 13:12

本申请提供了一种模型训练方法、装置和电子设备，所述模型训练方法包括：获取未标注数据集，所述未标注数据集包括多个未标注数据；将多个未标注数据输入分类模型，得到分类模型输出的多个分类结果，其中，每个未标注数据对应一个分类结果，分类结果用于表征对应的未标注数据的预测类别；基于多个分类结果，获取第一数据集；获取与第一数据集对应的第一目标数据集，第一目标数据集为对第一数据集中的每个未标注数据标注真实类别之后，得到的数据集；基于第一目标数据集，对分类模型进行迭代训练，得到目标分类模型。本申请提供的一种模型训练方法、装置和电子设备，可以解决由于样本数量不平衡而导致的模型精度较低的问题。数量不平衡而导致的模型精度较低的问题。数量不平衡而导致的模型精度较低的问题。

全部详细技术资料下载

【技术实现步骤摘要】
一种模型训练方法、装置和电子设备

[0001]本申请涉及数据处理领域，具体涉及一种模型训练方法、装置和电子设备。

技术介绍

[0002]目前，在对分类模型进行训练过程中，在某些场景下，所能获取到的不同类别的训练数据的数量之间可能差别相当大。例如，在银行信用欺诈交易识别中，所获取到的历史交易数据中，属于欺诈交易的样本通常仅占很少一部分，绝大部分为正常交易的样本。在此情况下，由于训练数据中各类型的样本数量不平衡，所训练得到的模型倾向于将待识别数据分类至样本数量较多的类别，从而可能导致模型精度较低的问题。

技术实现思路

[0003]本申请提供的一种模型训练方法、装置和电子设备，可以解决由于样本数量不平衡而导致的模型精度较低的问题。
[0004]第一方面，本申请实施例提供了一种模型训练方法，包括：
[0005]获取未标注数据集，所述未标注数据集包括多个未标注数据；
[0006]将所述多个未标注数据输入分类模型，得到所述分类模型输出的多个分类结果，其中，每个所述未标注数据对应一个所述分类结果，所述分类结果用于表征对应的所述未标注数据的预测类别，所述预测类别为预设类别中的类别；
[0007]基于所述多个分类结果，获取第一数据集，其中，所述第一数据集包括至少两个未标注数据组，且未标注数据组中的未标注数据的预测类别为未标注数据组对应的预设类别；
[0008]获取与所述第一数据集对应的第一目标数据集，所述第一目标数据集为对所述第一数据集中的每个未标注数据标注真实类别之后，得到的数...

【技术保护点】

【技术特征摘要】
1.一种模型训练方法，其特征在于，包括：获取未标注数据集，所述未标注数据集包括多个未标注数据；将所述多个未标注数据输入分类模型，得到所述分类模型输出的多个分类结果，其中，每个所述未标注数据对应一个所述分类结果，所述分类结果用于表征对应的所述未标注数据的预测类别，所述预测类别为预设类别中的类别；基于所述多个分类结果，获取第一数据集，其中，所述第一数据集包括至少两个未标注数据组，且未标注数据组中的未标注数据的预测类别为未标注数据组对应的预设类别；获取与所述第一数据集对应的第一目标数据集，所述第一目标数据集为对所述第一数据集中的每个未标注数据标注真实类别之后，得到的数据集；基于所述第一目标数据集，对所述分类模型进行迭代训练，得到目标分类模型。2.根据权利要求1所述的方法，其特征在于，所述基于所述多个分类结果，获取第一数据集，包括：基于所述分类结果对所述多个未标注数据进行分类，得到至少两个子集合，其中，一个子集合对应一个预设类别；从每个子集合中，获取m个第一未标注数据和k个第二未标注数据，所述第一未标注数据为所述分类结果预测的准确率小于第一阈值的未标注数据，所述第二未标注数据为所述分类结果预测的准确率大于或等于所述第一阈值的未标注数据；将每个子集合中的所述m个第一未标注数据和所述k个第二未标注数据确定为所述第一数据集中的数据。3.根据权利要求2所述的方法，其特征在于，所述从每个子集合中，获取m个第一未标注数据和k个第二未标注数据之前，所述方法还包括：基于所述多个分类结果确定所述分类模型的目标准确率；在所述目标准确率小于第二阈值的情况下，所述m小于所述k；在所述目标准确率大于或等于所述第二阈值的情况下，所述m大于所述k。4.根据权利要求2所述的方法，其特征在于，所述分类结果包括目标未标注数据属于各个预设类别的概率，所述目标未标注数据为与所述分类结果对应的未标注数据，所述从每个子集合中，获取m个第一未标注数据和k个第二未标注数据之前，还包括：基于所述分类结果计算每个未标注数据的熵。5.根据权利要求1所述的方法，其特征在于，所述基于所述第一目标数据集对所述分类模型进行迭代训练，得到目标分类模型，包括：所述迭代训练共进行I次训练，其中，所述迭代训练中的第i次训练包括：取目标训练数据集与所述第一目标数据集的并集，得到第i组训练数据集；基于所述第i组训练数据集对所述分类模型进行训练...

【专利技术属性】
技术研发人员：罗奇帅，蒋宁，王洪斌，吴海英，权佳成，李宽，曹磊，李长林，
申请(专利权)人：马上消费金融股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人