预测异常样本的方法和装置制造方法及图纸

技术编号:19057059 阅读:34 留言:0更新日期:2018-09-29 12:13
本说明书实施例提供一种预测异常样本的方法和装置,方法包括:首先获取待测样本,然后采用多个降维方法,分别对待测样本进行降维处理,以获得多个处理样本;接着将多个处理样本分别输入多个处理模型,以获得各个处理样本的打分,其中第i处理模型Mi,基于预先采用支持向量域描述SVDD方式在对应维度空间中所确定的超球面,为对应的处理样本打分;然后根据各个处理样本的打分确定待测样本的综合分,最后根据该综合分,确定待测样本是否为异常样本。如此,可以更加有效地预测未知样本是否为异常样本。

【技术实现步骤摘要】
预测异常样本的方法和装置
本说明书一个或多个实施例涉及利用计算机进行样本分类领域,尤其涉及预测异常样本的方法和装置。
技术介绍
随着计算机和互联网技术的发展,产生了大量的数据和样本。在许多场景下,需要对这些数据和样本进行分类,例如区分它是正常样本还是异常样本。例如,在支付和交易业务中,经常需要区分正常交易样本和异常交易样本(例如,套现,金融欺诈类交易等),从而更好地预防支付风险。在安全访问领域,经常需要区分正常访问数据和异常访问数据,其中异常访问数据往往来源于一些用户试图通过非法访问的方式,达到入侵或获取非法数据目的。这样的异常访问数据常常具有比较大的危害,对这类数据进行识别和预测,从而阻止异常访问,对于数据安全至关重要。随着人工智能和机器学习的兴起,越来越多的业务场景开始引入机器学习来进行数据分析,包括样本的分类和预测。一般来说,机器学习需要运用大量数据来训练模型,特别是有监督的学习,需要利用已知类别的样本,或称为已标定的样本,来训练和调整分类器,然后才能用来对未知样本进行分类。然而,在许多情况下,异常样本往往难以采集和标定。一方面,异常样本本身通常数量更少,另一方面,异常样本往往非常隐蔽,难以被发现,例如异常访问的数据通常难以被察觉。因此,能够获取并识别出的异常样本的数量很少,这使得监督学习难以进行。因此,希望能有改进的方案,能够更加有效地对异常样本进行预测。
技术实现思路
本说明书一个或多个实施例描述了一种方法和装置,能够在仅获取正常历史样本集,且样本维度较高的情况下,有效地对未知样本进行预测。根据第一方面,提供了一种预测异常样本的方法,包括:获取待测样本,所述待测样本包括维度为第一数目的特征数据;采用多个降维方法,分别对所述待测样本进行降维处理,以获得多个处理样本,其中所述多个降维方法中的第i降维方法Pi,将所述待测样本处理为维度为Di的处理样本Si,维度Di小于所述第一数目;将所述多个处理样本分别对应输入多个处理模型,以获得各个处理样本的打分,其中所述多个处理模型中的第i处理模型Mi,基于预先采用支持向量域描述SVDD方式在对应维度Di的空间中所确定的超球面Qi,为对应的处理样本Si打分;根据所述各个处理样本的打分确定所述待测样本的综合分;根据所述综合分,确定所述待测样本是否为异常样本。在一种可能的方案中,上述多个降维方法包括运算降维方法和特征采样降维方法中的至少一种。在一个实施例中,上述运算降维方法包括以下中的一种或多种:主成分分析PCA方法,最小绝对收缩和选择算子LASSO方法,线性判别式分析LDA方法,小波分析方法。在一个实施例中,上述特征采样降维方法包括以下中的一种或多种:随机采样方法,哈希采样方法,过滤式特征选择方法,包裹式特征选择方法。根据一个实施例,上述第i处理模型Mi通过以下步骤训练:获取已知为正常的历史样本集,所述历史样本集的样本维度为所述第一数目;采用所述第i降维方法Pi,将所述历史样本集处理为样本维度为Di的低维历史样本集Li;采用支持向量域描述SVDD方式,在维度为Di的空间中确定所述超球面Qi,使得该超球面Qi所包围的低维历史样本集Li中的样本数目与该超球面的半径之间的关系满足预定条件。根据一种实施方式,为对应的处理样本Si打分包括:确定所述处理样本Si在对应维度空间中与所述超球面Qi的相对位置;根据所述相对位置,确定处理样本Si的打分。根据可能的实施方式,上述相对位置包括以下之一:所述处理样本Si位于所述超球面Qi之外、之内或之上;所述处理样本Si在对应维度空间中距离所述超球面Qi的中心的距离;所述处理样本Si在对应维度空间中距离所述超球面Qi的最近表面的距离。在一个实施例中,确定所述待测样本的综合分包括:对所述各个处理样本的打分进行加权求和,获得所述综合分,根据第二方面,提供一种预测异常样本的装置,包括:获取单元,配置为获取待测样本,所述待测样本包括维度为第一数目的特征数据;多个降维单元,所述多个降维单元分别采用多个降维方法,对所述待测样本进行降维处理,以获得多个处理样本,其中所述多个降维方法中的第i降维方法Pi,将所述待测样本处理为维度为Di的处理样本Si,维度Di小于所述第一数目;多个打分单元,配置为通过多个处理模型对所述多个处理样本进行打分,其中所述多个处理模型中的第i处理模型Mi,基于预先采用支持向量域描述SVDD方式在对应维度Di的空间中所确定的超球面Qi,为对应的处理样本Si打分;综合单元,配置为根据所述各个处理样本的打分确定所述待测样本的综合分;确定单元,配置为根据所述综合分,确定所述待测样本是否为异常样本。根据第三方面,提供了一种计算机可读存储介质,其上存储有计算机程序,当所述计算机程序在计算机中执行时,令计算机执行第一方面的方法。根据第四方面,提供了一种计算设备,包括存储器和处理器,其特征在于,所述存储器中存储有可执行代码,所述处理器执行所述可执行代码时,实现第一方面的方法。通过本说明书实施例提供的方法和装置,针对待测样本,采用多种降维方法分别对其进行降维,然后对于降维后的多个处理样本,分别基于SVDD模型确立的超球面,对处理样本进行打分,最后根据多个打分的综合结果判定待测样本是否异常。由于采用多种不同的降维方法,每种降维方法所得到的特征可以互相补充,最大限度地避免了降维带来的信息损失。同时,由于经过降维处理,使得SVDD模型的应用变得实际可行,避免了维度“爆炸”带来的计算障碍。在此基础上,综合考虑各个SVDD模型的结果,可以对待测样本进行全面的评估,准确的预测。附图说明为了更清楚地说明本专利技术实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。图1为本说明书披露的一个实施例的实施场景示意图;图2A示出SVM模型的示意图;图2B示出SVDD模型的示意图;图3示出根据一个实施例的建立预测模型的示意图;图4示出根据一个实施例的预测异常样本的方法流程图;图5示出根据一个实施例的预测异常样本的过程示意图;图6示出根据一个实施例的预测异常样本的装置的示意性框图。具体实施方式下面结合附图,对本说明书提供的方案进行描述。图1为本说明书披露的一个实施例的实施场景示意图。如图1所示,计算平台100,例如支付宝服务器,基于正常的历史样本集(例如正常的历史交易样本集),采用支持向量域描述SVDD方式训练一个预测模型。训练过程中,为避免样本维度太高带来的计算困难,对于各个历史样本,计算平台100采用多种降维方法对其分别进行降维,得到多个降维样本集,然后采用SVDD方式分别对降维样本集进行学习,得到多个处理模型,这些处理模型可以认为是预测模型的子模型,由这些子模型的组合构成上述预测模型。如此,在获取到未知的待测样本时,将待测样本采用相同的降维方式进行降维,对应输入该预测模型中的各个子模型,通过各个子模型对待测样本进行打分,最后根据打分的综合结果来预测该待测样本是否为异常样本。下面分别描述以上两个阶段的具体实施过程。首先,描述上述预测模型的建立和训练。如前所述,对样本进行有监督的学习,从而训练预测模型的一项本文档来自技高网...

【技术保护点】
1.一种预测异常样本的方法,包括:获取待测样本,所述待测样本包括维度为第一数目的特征数据;采用多个降维方法,分别对所述待测样本进行降维处理,以获得多个处理样本,其中所述多个降维方法中的第i降维方法Pi,将所述待测样本处理为维度为Di的处理样本Si,维度Di小于所述第一数目;将所述多个处理样本分别对应输入多个处理模型,以获得各个处理样本的打分,其中所述多个处理模型中的第i处理模型Mi,基于预先采用支持向量域描述SVDD方式在对应维度Di的空间中所确定的超球面Qi,为对应的处理样本Si打分;根据所述各个处理样本的打分确定所述待测样本的综合分;根据所述综合分,确定所述待测样本是否为异常样本。

【技术特征摘要】
1.一种预测异常样本的方法,包括:获取待测样本,所述待测样本包括维度为第一数目的特征数据;采用多个降维方法,分别对所述待测样本进行降维处理,以获得多个处理样本,其中所述多个降维方法中的第i降维方法Pi,将所述待测样本处理为维度为Di的处理样本Si,维度Di小于所述第一数目;将所述多个处理样本分别对应输入多个处理模型,以获得各个处理样本的打分,其中所述多个处理模型中的第i处理模型Mi,基于预先采用支持向量域描述SVDD方式在对应维度Di的空间中所确定的超球面Qi,为对应的处理样本Si打分;根据所述各个处理样本的打分确定所述待测样本的综合分;根据所述综合分,确定所述待测样本是否为异常样本。2.根据权利要求1所述的方法,其中所述多个降维方法包括运算降维方法和特征采样降维方法中的至少一种。3.根据权利要求2所述的方法,其中所述运算降维方法包括以下中的一种或多种:主成分分析PCA方法,最小绝对收缩和选择算子LASSO方法,线性判别式分析LDA方法,小波分析方法。4.根据权利要求2所述的方法,其中所述特征采样降维方法包括以下中的一种或多种:随机采样方法,哈希采样方法,过滤式特征选择方法,包裹式特征选择方法。5.根据权利要求1所述的方法,其中所述第i处理模型Mi通过以下步骤训练:获取已知为正常的历史样本集,所述历史样本集的样本维度为所述第一数目;采用所述第i降维方法Pi,将所述历史样本集处理为样本维度为Di的低维历史样本集Li;采用支持向量域描述SVDD方式,在维度为Di的空间中确定所述超球面Qi,使得该超球面Qi所包围的低维历史样本集Li中的样本数目与该超球面的半径之间的关系满足预定条件。6.根据权利要求1中所述的方法,其中为对应的处理样本Si打分包括:确定所述处理样本Si在对应维度空间中与所述超球面Qi的相对位置;根据所述相对位置,确定处理样本Si的打分。7.根据权利要求6所述的方法,其中所述相对位置包括以下之一:所述处理样本Si位于所述超球面Qi之外、之内或之上;所述处理样本Si在对应维度空间中距离所述超球面Qi的中心的距离;所述处理样本Si在对应维度空间中距离所述超球面Qi的最近表面的距离。8.根据权利要求1所述的方法,其中根据所述各个处理样本的打分确定所述待测样本的综合分包括:对所述各个处理样本的打分进行加权求和,获得所述综合分。9.一种预测异常样本的装置,包括:获取单元,配置为获取待测样本,所述待测样本包括维度为第一数目的特征数据;多个降维单元,所述多个降维单元分别采用多个降维方法,对所述待测样本进行降维处理,以获得多个处理样本,其中所述...

【专利技术属性】
技术研发人员:张雅淋李龙飞
申请(专利权)人:阿里巴巴集团控股有限公司
类型:发明
国别省市:开曼群岛,KY

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1