【技术实现步骤摘要】
预测异常样本的方法和装置
本说明书一个或多个实施例涉及利用计算机进行样本分类领域,尤其涉及预测异常样本的方法和装置。
技术介绍
随着计算机和互联网技术的发展,产生了大量的数据和样本。在许多场景下,需要对这些数据和样本进行分类,例如区分它是正常样本还是异常样本。例如,在支付和交易业务中,经常需要区分正常交易样本和异常交易样本(例如,套现,金融欺诈类交易等),从而更好地预防支付风险。在安全访问领域,经常需要区分正常访问数据和异常访问数据,其中异常访问数据往往来源于一些用户试图通过非法访问的方式,达到入侵或获取非法数据目的。这样的异常访问数据常常具有比较大的危害,对这类数据进行识别和预测,从而阻止异常访问,对于数据安全至关重要。随着人工智能和机器学习的兴起,越来越多的业务场景开始引入机器学习来进行数据分析,包括样本的分类和预测。一般来说,机器学习需要运用大量数据来训练模型,特别是有监督的学习,需要利用已知类别的样本,或称为已标定的样本,来训练和调整分类器,然后才能用来对未知样本进行分类。然而,在许多情况下,异常样本往往难以采集和标定。一方面,异常样本本身通常数量更少,另一方面,异常样本往往非常隐蔽,难以被发现,例如异常访问的数据通常难以被察觉。因此,能够获取并识别出的异常样本的数量很少,这使得监督学习难以进行。因此,希望能有改进的方案,能够更加有效地对异常样本进行预测。
技术实现思路
本说明书一个或多个实施例描述了一种方法和装置,能够在仅获取正常历史样本集,且样本维度较高的情况下,有效地对未知样本进行预测。根据第一方面,提供了一种预测异常样本的方法,包括:获取待测样 ...
【技术保护点】
1.一种预测异常样本的方法,包括:获取待测样本,所述待测样本包括维度为第一数目的特征数据;采用多个降维方法,分别对所述待测样本进行降维处理,以获得多个处理样本,其中所述多个降维方法中的第i降维方法Pi,将所述待测样本处理为维度为Di的处理样本Si,维度Di小于所述第一数目;将所述多个处理样本分别对应输入多个处理模型,以获得各个处理样本的打分,其中所述多个处理模型中的第i处理模型Mi,基于预先采用支持向量域描述SVDD方式在对应维度Di的空间中所确定的超球面Qi,为对应的处理样本Si打分;根据所述各个处理样本的打分确定所述待测样本的综合分;根据所述综合分,确定所述待测样本是否为异常样本。
【技术特征摘要】
1.一种预测异常样本的方法,包括:获取待测样本,所述待测样本包括维度为第一数目的特征数据;采用多个降维方法,分别对所述待测样本进行降维处理,以获得多个处理样本,其中所述多个降维方法中的第i降维方法Pi,将所述待测样本处理为维度为Di的处理样本Si,维度Di小于所述第一数目;将所述多个处理样本分别对应输入多个处理模型,以获得各个处理样本的打分,其中所述多个处理模型中的第i处理模型Mi,基于预先采用支持向量域描述SVDD方式在对应维度Di的空间中所确定的超球面Qi,为对应的处理样本Si打分;根据所述各个处理样本的打分确定所述待测样本的综合分;根据所述综合分,确定所述待测样本是否为异常样本。2.根据权利要求1所述的方法,其中所述多个降维方法包括运算降维方法和特征采样降维方法中的至少一种。3.根据权利要求2所述的方法,其中所述运算降维方法包括以下中的一种或多种:主成分分析PCA方法,最小绝对收缩和选择算子LASSO方法,线性判别式分析LDA方法,小波分析方法。4.根据权利要求2所述的方法,其中所述特征采样降维方法包括以下中的一种或多种:随机采样方法,哈希采样方法,过滤式特征选择方法,包裹式特征选择方法。5.根据权利要求1所述的方法,其中所述第i处理模型Mi通过以下步骤训练:获取已知为正常的历史样本集,所述历史样本集的样本维度为所述第一数目;采用所述第i降维方法Pi,将所述历史样本集处理为样本维度为Di的低维历史样本集Li;采用支持向量域描述SVDD方式,在维度为Di的空间中确定所述超球面Qi,使得该超球面Qi所包围的低维历史样本集Li中的样本数目与该超球面的半径之间的关系满足预定条件。6.根据权利要求1中所述的方法,其中为对应的处理样本Si打分包括:确定所述处理样本Si在对应维度空间中与所述超球面Qi的相对位置;根据所述相对位置,确定处理样本Si的打分。7.根据权利要求6所述的方法,其中所述相对位置包括以下之一:所述处理样本Si位于所述超球面Qi之外、之内或之上;所述处理样本Si在对应维度空间中距离所述超球面Qi的中心的距离;所述处理样本Si在对应维度空间中距离所述超球面Qi的最近表面的距离。8.根据权利要求1所述的方法,其中根据所述各个处理样本的打分确定所述待测样本的综合分包括:对所述各个处理样本的打分进行加权求和,获得所述综合分。9.一种预测异常样本的装置,包括:获取单元,配置为获取待测样本,所述待测样本包括维度为第一数目的特征数据;多个降维单元,所述多个降维单元分别采用多个降维方法,对所述待测样本进行降维处理,以获得多个处理样本,其中所述...
【专利技术属性】
技术研发人员:张雅淋,李龙飞,
申请(专利权)人:阿里巴巴集团控股有限公司,
类型:发明
国别省市:开曼群岛,KY
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。