一种异常用户识别方法、装置、电子设备及存储介质制造方法及图纸

技术编号:36229358 阅读:13 留言:0更新日期:2023-01-04 12:29
本申请提供一种异常用户识别方法、装置、电子设备及存储介质,其中异常用户识别方法包括:将待识别样本输入自编码器基模型,获取待识别样本的基模型信息损失;判断待识别样本是否为可能异常样本,若待识别样本为可能异常样本,则将待识别样本输入自编码器次模型,获取待识别样本的次模型信息损失;获取待识别样本的组合信息损失;判断待识别样本是易被识别为异常样本的正常样本,还是异常样本。利用自编码器次模型来构建组合信息损失,通过组合信息损失来判断待识别样本是易被识别为异常样本的正常样本还是异常样本,使得上述异常用户识别方法能够实现对真实异常样本的有效识别,异常用户识别准确率高。常用户识别准确率高。常用户识别准确率高。

【技术实现步骤摘要】
一种异常用户识别方法、装置、电子设备及存储介质


[0001]本申请涉及大数据处理
,具体而言,涉及一种异常用户识别方法、装置、电子设备及存储介质。

技术介绍

[0002]现有技术中,异常用户的识别方法包括:经验规则类方法和有监督学习方法。其中经验规则类方法主要指基于传统经验,总结并形成相应的规则来防范欺诈风险;有监督学习方法主要指利用机器学习、深度学习等方法训练得到相应的模型,根据模型结果对风险进行判定。
[0003]但采用上述方法进行异常用户识别时的检测精度较低,容易将易被识别为异常用户的正常用户识别为异常用户。

技术实现思路

[0004]本申请实施例的目的在于提供一种异常用户识别方法、装置、电子设备及存储介质,用以改善异常用户识别精度。
[0005]第一方面,本申请实施例提供一种异常用户识别方法,包括:将待识别样本输入自编码器基模型,获取所述待识别样本的基模型信息损失;基于所述基模型信息损失,判断待识别样本是否为可能异常样本,若所述待识别样本为可能异常样本,则将所述待识别样本输入自编码器次模型,获取所述待识别样本的次模型信息损失;基于所述基模型信息损失和所述次模型信息损失,获取所述待识别样本的组合信息损失;基于所述组合信息损失,判断所述待识别样本是易被识别为异常样本的正常样本,还是异常样本。
[0006]在上述方案的实现过程中,利用自编码器次模型来构建组合信息损失,进而通过组合信息损失来判断待识别样本是易被识别为异常样本的正常样本,还是异常样本,使得上述异常用户识别方法能够实现对易被识别为异常样本的正常样本和真实异常样本的有效识别,提高了上述异常用户识别方法的识别准确率。
[0007]在第一方面的一种实现方式中,在所述将待识别样本输入自编码器基模型之前,还包括:获取训练样本;使用训练样本对所述自编码器基模型进行训练;将所述训练样本输入训练好的所述自编码器基模型,根据所述自编码器基模型的输出分别计算所述训练样本的基模型信息损失;采用信息损失较高的训练样本对所述自编码器次模型进行迭代训练,获取输入所述自编码器次模型的训练样本的组合信息损失,直至输入所述自编码器次模型的训练样本的组合信息损失数值稳定时,停止迭代,完成对所述自编码器次模型的训练。
[0008]在上述方案的实现过程中,采用信息损失较高的样本训练自编码器次模型,使得自编码器次模型能够在信息损失较高的样本中对易被识别为异常用户的正常用户和异常用户进行有效区分,进而使得使用组合信息损失对异常样本进行识别时,能够有效区分易被识别为异常用户的正常用户和异常用户,提高异常用户识别方法的识别准确率。
[0009]在第一方面的一种实现方式中,所述自编码器次模型的数量为一个或多个。
[0010]在上述方案的实现过程中,可以设置多个自编码器次模型来叠加获得组合信息损失,使得易被识别为异常样本的正常样本的信息损失更低,而异常样本的信息损失更高,进而使得通过组合信息损失能够更容易分辨出易被识别为异常样本的正常样本以及异常样本,提高异常用户识别准确率。
[0011]在第一方面的一种实现方式中,所述获取输入所述自编码器次模型的训练样本的组合信息损失,包括:若训练样本仅用于所述自编码器基模型的训练,则该训练样本的组合信息损失为该训练样本的基模型信息损失;若训练样本用于训练所述自编码器基模型和所述自编码器次模型,则基于该样本的基模型信息损失以及通过该样本所参加训练的自编码器次模型确定的所有次模型信息损失共同确定该训练样本的组合信息损失。
[0012]在上述方案的实现过程中,通过构建自编码器次模型获取样本的次模型信息损失,在次模型信息损失中,易被识别为异常样本的正常样本的次模型信息损失较小,而异常样本的次模型信息损失较大,将次模型信息损失加入集模型信息损失可以使得异常样本的信息损失升高,而易被识别为异常样本的正常样本的信息损失降低,从而使得易被识别为异常样本的正常样本与异常样本之间信息损失数值更容易被识别,提高了异常用户识别精度。
[0013]在第一方面的一种实现方式中,在所述完成对所述自编码器次模型的训练后,还包括:确定第一异常阈值和第二异常阈值;所述基于所述基模型信息损失,判断待识别样本是否为可能异常样本,包括:若所述基模型信息损失大于所述第一异常阈值,则将待识别样本判定为可能异常样本,否则,将所述待识别样本判定为正常样本;所述基于所述组合信息损失,判断所述待识别样本是易被识别为异常样本的正常样本,还是异常样本,包括:若所述基模型信息损失小于所述第二异常阈值,则将待识别样本确定为易被识别为异常样本的正常样本,否则,将待识别样本确定为异常样本。
[0014]在上述方案的实现过程中,通过第一异常阈值判断待识别样本是否为可能异常样本,若待识别样本为可能异常样本后再通过第二异常阈值来判断待识别样本是否为易被识别为异常样本的正常样本,最终确定待识别样本是否为异常样本,通过第一异常阈值配合第二异常阈值的分段式的筛选,有效提高了异常用户识别的效率。
[0015]在第一方面的一种实现方式中,所述确定第一异常阈值和第二异常阈值,包括:获取所述训练样本的基模型信息损失、组合信息损失及所述训练样本中异常样本的概率分布;将所述异常样本的概率分布作为第一置信度,将所述第一置信度下的基模型信息损失确定为所述第一异常阈值,将所述第一置信度下的组合信息损失确定为所述第二异常阈值。
[0016]在上述方案的实现过程中,通过概率分布所确定的置信度来确定第一异常阈值和第二异常阈值的方式,能够对易被识别为异常样本的正常杨根本与异常样本进行有效区分,提高了异常用户识别准确率。
[0017]在第一方面的一种实现方式中,在所述将待识别样本输入自编码器基模型之前,还包括:获取原始样本;对所述原始样本进行预处理;所述对所述原始样本进行预处理,包括:数据编码、统计特征计算、特征稳定性校验以及特征增强中至少一项。
[0018]在上述方案的实现过程中,通过数据编码、统计特征计算、特征稳定性校验以及特征增强等方式有效减少了原始数据中的噪音,获取了相对有效的特征,一方面提高了异常
用户识别精度,另一方面避免了后续识别方法对无效特征的无效处理,提高了异常用户的识别效率。
[0019]第二方面,本申请实施例提供一种异常用户识别装置,包括:基模型信息损失获取模块,用于将待识别样本输入自编码器基模型,获取所述待识别样本的基模型信息损失;可能异常样本判断模块,用于基于所述基模型信息损失,判断待识别样本是否为可能异常样本;次模型信息损失获取模块,用于在所述待识别样本为可能异常样本时,将所述待识别样本输入自编码器次模型,获取所述待识别样本的次模型信息损失;组合信息损失获取模块,用于基于所述基模型信息损失和所述次模型信息损失,获取所述待识别样本的组合信息损失;异常样本识别模块,用于基于所述组合信息损失,判断所述待识别样本是易被识别为异常样本的正常样本,还是异常样本。
[0020]第三方面,本申请实施例提供一种计算机可读存储介质,本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种异常用户识别方法,其特征在于,包括:将待识别样本输入自编码器基模型,获取所述待识别样本的基模型信息损失;基于所述基模型信息损失,判断待识别样本是否为可能异常样本,若所述待识别样本为可能异常样本,则将所述待识别样本输入自编码器次模型,获取所述待识别样本的次模型信息损失;基于所述基模型信息损失和所述次模型信息损失,获取所述待识别样本的组合信息损失;基于所述组合信息损失,判断所述待识别样本是易被识别为异常样本的正常样本,还是异常样本。2.根据权利要求1所述的异常用户识别方法,其特征在于,在所述将待识别样本输入自编码器基模型之前,还包括:获取训练样本;使用训练样本对所述自编码器基模型进行训练;将所述训练样本输入训练好的所述自编码器基模型,根据所述自编码器基模型的输出分别计算所述训练样本的基模型信息损失;采用信息损失较高的训练样本对所述自编码器次模型进行迭代训练,获取输入所述自编码器次模型的训练样本的组合信息损失,直至输入所述自编码器次模型的训练样本的组合信息损失数值稳定时,停止迭代,完成对所述自编码器次模型的训练。3.根据权利要求2所述的异常用户识别方法,其特征在于, 所述自编码器次模型的数量为一个或多个。4.根据权利要求2所述的异常用户识别方法,其特征在于,所述获取输入所述自编码器次模型的训练样本的组合信息损失,包括:若训练样本仅用于所述自编码器基模型的训练,则该训练样本的组合信息损失为该训练样本的基模型信息损失;若训练样本用于训练所述自编码器基模型和所述自编码器次模型,则基于该样本的基模型信息损失以及通过该样本所参加训练的自编码器次模型确定的所有次模型信息损失共同确定该训练样本的组合信息损失。5.根据权利要求2所述的异常用户识别方法,其特征在于,在所述完成对所述自编码器次模型的训练后,还包括:确定第一异常阈值和第二异常阈值;所述基于所述基模型信息损失,判断待识别样本是否为可能异常样本,包括:若所述基模型信息损失大于所述第一异常阈值,则将待识别样本判定为可能异常样本,否则,将所述待识别样本判定为正常样本;所述...

【专利技术属性】
技术研发人员:吴枭王渊汪劲松金秋吕文勇周智杰
申请(专利权)人:成都新希望金融信息有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1