当前位置: 首页 > 专利查询>中山大学专利>正文

账户分类模型训练方法、装置、计算机设备和存储介质制造方法及图纸

技术编号:37160094 阅读:24 留言:0更新日期:2023-04-06 22:24
本申请涉及一种账户分类模型训练方法、装置和计算机设备。所述方法包括:获取待训练账户的多视角信息对应的训练数据集;对训练数据集进行编码得到编码数据集,基于对编码数据集解码得到的解码数据集与所述训练数据集之间的差异得到重构损失;对所述编码数据集进行本质特征提取和语义特征提取,对得到的本质特征数据集和语义特征数据集分别进行视角间一致性约束,得到本质损失和语义损失;基于所述语义特征数据集和所述本质特征数据集进行语义特征预测得到的参考语义特征数据集得到自监督损失;基于所述重构损失、本质损失、语义损失和自监督损失,对初始账户分类模型进行训练,得到目标账户分类模型。采用本方法能够提高账户分类模型的准确性。户分类模型的准确性。户分类模型的准确性。

【技术实现步骤摘要】
账户分类模型训练方法、装置、计算机设备和存储介质


[0001]本申请涉及人工智能领域,特别是涉及一种账户分类模型训练方法、装置、计算机设备、存储介质和计算机程序产品。

技术介绍

[0002]随着互联网技术的发展,产品服务逐渐从线下转到了线上,用户使用账户登录线上的应用程序、网页、小程序等,在线上完成产品购买、支付等活动。但是,部分用户通过使用账户在线上完成非正常的活动,为了保证用户活动的正常进行,有必要对大量的账户进行分类,例如,分成正常账户和非正常账户。在传统技术中,通过人工识别的方法判断账户的类别,不仅存在效率低下的问题,也存在账户分类不准确的问题。

技术实现思路

[0003]基于此,有必要针对上述技术问题,提供一种能够提高账户分类模型准确率的账户分类模型训练方法、装置、计算机设备、计算机可读存储介质和计算机程序产品。
[0004]第一方面,本申请提供了一种账户分类模型训练方法。所述方法包括:
[0005]获取待训练账户的多视角信息对应的训练数据集;
[0006]对所述训练数据集进行编码得到编码数据集,对所述编码数据集进行解码得到解码数据集,基于所述解码数据集与所述训练数据集之间的差异得到重构损失;
[0007]对所述编码数据集进行本质特征提取得到本质特征数据集,对所述本质特征数据集进行视角间一致性约束,得到本质损失;
[0008]对所述编码数据集进行语义特征提取得到语义特征数据集,对所述语义特征数据集进行视角间一致性约束,得到语义损失;
[0009]对所述本质特征数据集进行语义特征预测,得到参考语义特征数据集,基于所述语义特征数据集和所述参考语义特征数据集得到自监督损失;
[0010]基于所述重构损失、本质损失、语义损失和自监督损失,对初始账户分类模型进行训练,得到目标账户分类模型。
[0011]在其中一个实施例中,所述基于所述重构损失、本质损失、语义损失和自监督损失,对初始账户分类模型进行训练,得到目标账户分类模型包括:
[0012]基于所述重构损失对所述初始账户分类模型中的自编码器进行训练,得到所述自编码器对应的第一自编码参数;
[0013]基于所述第一自编码参数、重构损失、本质损失和语义损失对所述初始账户分类模型中的自编码器、本质特征编码器和语义特征编码器进行训练,得到自编码器对应的第二自编码参数、本质特征编码器对应的第一本质编码参数和语义特征编码器对应的第一语义编码参数;
[0014]基于所述第二自编码参数、第一本质编码参数和第一语义编码参数,以及所述重构损失、本质损失、语义损失和自监督损失,对所述初始账户分类模型中的自编码器、本质
特征编码器、语义特征编码器和预测编码器进行训练,得到目标账户分类模型。
[0015]在其中一个实施例中,所述训练数据集中包括不少于两个账户的多个视角的训练数据;所述对所述训练数据集进行编码得到编码数据集,对所述编码数据集进行解码得到解码数据集,基于所述解码数据集与所述训练数据集之间的差异得到重构损失包括:
[0016]针对每一个视角,通过与视角对应的自编码器对所述视角的训练数据进行编码,得到所述视角的编码数据;
[0017]通过与所述视角对应的自编码器对所述编码数据进行解码,得到所述视角的解码数据;
[0018]统计所述视角的解码数据与训练数据之间的差异,得到所述视角的自编码损失;
[0019]基于所述多个视角对应的自编码损失,得到重构损失。
[0020]在其中一个实施例中,所述本质特征数据集中包括不少于两个账户的多个视角的本质特征数据;所述对所述本质特征数据集进行视角间一致性约束,得到本质损失包括:
[0021]针对每一个账户,计算目标账户的目标视角的本质特征数据与所述目标账户的非目标视角的本质特征数据之间的第一相似度,计算所述目标账户的目标视角的本质特征数据与非目标账户的非目标视角的本质特征数据之间的第二相似度;
[0022]基于所述第一相似度与所述第二相似度,得到所述目标视角对应的本质一致性约束;
[0023]基于各个视角对应的本质一致性约束,得到本质损失。
[0024]在其中一个实施例中,所述语义特征数据集中包括不少于两个账户的多个视角的语义特征数据,所述参考语义特征数据集中包括所述不少于两个账户的多个视角的参考语义特征数据;所述基于所述语义特征数据集和所述参考语义特征数据集得到自监督损失包括:
[0025]针对每一个视角,计算视角对应的语义特征数据与所述视角对应的参考语义特征数据之间的交叉熵;
[0026]基于各个视角对应的交叉熵,得到自监督损失。
[0027]第二方面,本申请提供了一种账户分类方法,所述方法包括:
[0028]获取待分类账户的多视角信息对应的待检测数据集;
[0029]将所述待检测数据集输入目标账户分类模型进行识别,得到待分类账户的类别;
[0030]其中,所述目标账户分类模型为第一方面中账户分类模型训练方法所得到的目标账户分类模型。
[0031]在其中一个实施例中,所述将所述待检测数据集输入目标账户分类模型进行识别,得到待分类账户的类别包括:
[0032]分别对所述待检测数据集中每个视角的待检测数据进行编码,得到每个视角对应的待检测编码数据,分别对所述每个视角对应的待检测编码数据进行解码,得到所述每个视角对应的待检测解码数据;
[0033]基于每个视角的所述待检测解码数据与待检测数据之间的差异,得到重构得分;
[0034]对所述待检测编码数据进行本质特征提取,得到待检测本质特征数据,基于各个视角的所述待检测本质特征数据之间的相似度,得到一致性得分;
[0035]基于所述重构得分与所述一致性得分,得到所述待检测账户的账户得分,基于所
述账户得分与分类阈值之间的关系,确定所述待分类账户的类别。
[0036]第三方面,本申请还提供了一种账户分类模型训练装置。所述装置包括:
[0037]获取模块,用于获取待训练账户多视角对应的训练数据集;
[0038]自编码模块,用于对所述训练数据集进行编码得到编码数据集,对所述编码数据集进行解码得到解码数据集,基于所述解码数据集与所述训练数据集之间的差异得到重构损失;
[0039]本质特征提取模块,用于对所述编码数据集进行本质特征提取得到本质特征数据集,对所述本质特征数据集进行视角间一致性约束,得到本质损失;
[0040]语义特征提取模块,用于对所述编码数据集进行语义特征提取得到语义特征数据集,对所述语义特征数据集进行视角间一致性约束,得到语义损失;
[0041]语义特征预测模块,用于对所述本质特征数据集进行语义特征预测,得到参考语义特征数据集,基于所述语义特征数据集和所述参考语义特征数据集得到自监督损失;
[0042]训练模块,用于基于所述重构损失、本质损失、语义损失和自监督损失,对初始账户分类模型进行训练,本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种账户分类模型训练方法,其特征在于,所述方法包括:获取待训练账户的多视角信息对应的训练数据集;对所述训练数据集进行编码得到编码数据集,对所述编码数据集进行解码得到解码数据集,基于所述解码数据集与所述训练数据集之间的差异得到重构损失;对所述编码数据集进行本质特征提取得到本质特征数据集,对所述本质特征数据集进行视角间一致性约束,得到本质损失;对所述编码数据集进行语义特征提取得到语义特征数据集,对所述语义特征数据集进行视角间一致性约束,得到语义损失;对所述本质特征数据集进行语义特征预测,得到参考语义特征数据集,基于所述语义特征数据集和所述参考语义特征数据集得到自监督损失;基于所述重构损失、本质损失、语义损失和自监督损失,对初始账户分类模型进行训练,得到目标账户分类模型。2.根据权利要求1所述的方法,其特征在于,所述基于所述重构损失、本质损失、语义损失和自监督损失,对初始账户分类模型进行训练,得到目标账户分类模型包括:基于所述重构损失对所述初始账户分类模型中的自编码器进行训练,得到所述自编码器对应的第一自编码参数;基于所述第一自编码参数、重构损失、本质损失和语义损失对所述初始账户分类模型中的自编码器、本质特征编码器和语义特征编码器进行训练,得到自编码器对应的第二自编码参数、本质特征编码器对应的第一本质编码参数和语义特征编码器对应的第一语义编码参数;基于所述第二自编码参数、第一本质编码参数和第一语义编码参数,以及所述重构损失、本质损失、语义损失和自监督损失,对所述初始账户分类模型中的自编码器、本质特征编码器、语义特征编码器和预测编码器进行训练,得到目标账户分类模型。3.根据权利要求1所述的方法,其特征在于,所述训练数据集中包括不少于两个账户的多个视角的训练数据;所述对所述训练数据集进行编码得到编码数据集,对所述编码数据集进行解码得到解码数据集,基于所述解码数据集与所述训练数据集之间的差异得到重构损失包括:针对每一个视角,通过与视角对应的自编码器对所述视角的训练数据进行编码,得到所述视角的编码数据;通过与所述视角对应的自编码器对所述编码数据进行解码,得到所述视角的解码数据;统计所述视角的解码数据与训练数据之间的差异,得到所述视角的自编码损失;基于所述多个视角对应的自编码损失,得到重构损失。4.根据权利要求1所述的方法,其特征在于,所述本质特征数据集中包括不少于两个账户的多个视角的本质特征数据;所述对所述本质特征数据集进行视角间一致性约束,得到本质损失包括:针对每一个账户,计算目标账户的目标视角的本质特征数据与所述目标账户的非目标视角的本质特征数据之间的第一相似度,计算所述目标账户的目标视角的本质特征数据与非目标账户的非目标视角的本质特征数据之间的第二相似度;
基于所述第一相似度与所述第二相似度,得到所述目标视角对应的本质一致性约束;基于...

【专利技术属性】
技术研发人员:陈川赖金荣陈鸿林昊郑子彬邬稳纳颖泉
申请(专利权)人:中山大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1