本发明专利技术公开了一种基于概念漂移检测的金融交易欺诈识别方法、设备及存储介质。本发明专利技术首先将金融交易数据看作流数据,将金融交易流数据划分为等大小的数据块,在每个数据块中继续划分,得到一定量的数据子块。然后基于数据子块训练得到一个流数据快速决策树分类模型。进而,评估该模型在连续数据子块上的分类错误率。同时,数据子块中的样本均值和样本方差的稳定性被用来评估金融交易流数据分布的稳定性。最后,通过统计量在连续数据子块上的置信区间求交集,识别出金融欺诈行为。本发明专利技术通过三个统计量在连续金融交易数据上的置信区间求交集,可以有效地降低概念漂移的检测迟延,从而实时地识别出金融交易数据中的欺诈行为。从而实时地识别出金融交易数据中的欺诈行为。从而实时地识别出金融交易数据中的欺诈行为。
【技术实现步骤摘要】
一种基于概念漂移检测的金融交易欺诈识别方法、设备及存储介质
[0001]本专利技术涉及一种基于概念漂移检测的金融交易欺诈识别方法、设备及存储介质。
技术介绍
[0002]近年来,金融欺诈行为越来越多,给人们带来了巨大的经济损失,因此,如何实时有效地识别出金融欺诈行为是普遍关心的问题。金融欺诈即利用金融产品上存在的漏洞来为自身谋取利益的不正当行为。例如,非法入侵银行交易系统,通过违规操作诸如盗取银行卡信息、身份信息等,谋取不正当利益。这种金融欺诈行为往往伴随着异常特征,例如交易对象异常、交易数量巨大、资金走向异常等,金融欺诈行为需要实时地检测并有效地识别,以避免巨大的经济损失。
[0003]由于金融交易数据每天都在不断地产生,并且数据分布随着时间不断地变化。因此,金融交易数据具有流数据的海量、实时、动态等特点,又被称为金融交易流数据。其中,流数据中数据分布的动态性,被称为概念漂移问题。在金融交易欺诈识别的应用背景下,金融交易流数据中概念漂移的产生往往是由于金融交易行为的出现。因此,可利用流数据概念漂移检测技术实现对金融交易流数据中欺诈行为的识别。
[0004]目前已存在的概念漂移检测机制往往通过流数据模型对最新样本的性能的稳定性来识别,例如在流数据挖掘模型对最新数据环境的性能发生暴跌,被视作检测到概念漂移。然而,该概念漂移检测机制会存在很大的检测迟延,无法实时地检测出数据分布的变化。因此,在金融交易欺诈识别领域,无法实时准确地检测欺诈行为,从而会造成经济损失。
技术实现思路
[0005]本专利技术针对现有技术的不足,提供了一种基于概念漂移检测的金融交易欺诈识别方法、设备及存储介质。
[0006]本专利技术的一方面,提供了一种基于概念漂移检测的金融交易欺诈识别方法,包括以下步骤:
[0007]步骤1)输入金融交易数据,并基于数据到达的时间戳,划分数据为等大小的数据块,得到候选金融交易数据块D
t
。
[0008]步骤2)使用步骤1获取的候选金融交易数据块D
t
,进行连续数据子块的划分。
[0009]步骤3)使用步骤1获取的候选金融交易数据块D
t
,增量式训练得到流数据单分类器,进而得到金融交易流数据集成分类模型M。
[0010]步骤4)基于监督性信息的概念漂移检测,识别步骤2获取的连续数据子块中的概念漂移,得到概念漂移时刻t1。
[0011]步骤5)基于非监督性信息的概念漂移检测,识别步骤2)获取的连续数据子块中的概念漂移,得到概念漂移时刻t2。
[0012]步骤6)基于步骤4与步骤5得到的时刻t1、t2检测出概念漂移发生的时刻t0,从而识
别出金融交易欺诈行为。
[0013]进一步说,步骤3)中每个金融交易数据块训练得到一个基于VFDT的单分类器,从而在连续的数据块上得到金融交易流数据集成分类模型M。
[0014]进一步说,步骤4)具体是:
[0015]首先,评估步骤3)训练得到的流数据集成分类模型M在连续金融交易数据子块中分类错误率。
[0016]然后,将分类错误率作为基于监督性信息的概念漂移检测机制的监督性检测统计量。计算得到监督性检测统计量的均值与方差,从而得到其置信区间。
[0017]最后,求解相邻连续数据子块上监督性检测统计量置信区间的交集,直到找到交集为空的时刻t1。
[0018]进一步说,步骤5)具体是:
[0019]首先,评估连续数据子块中金融交易流数据的均值与方差。
[0020]然后,将均值与方差作为基于非监督性信息的概念漂移检测机制的非监督性检测统计量。计算得到非监督性检测统计量的均值与方差,从而分别得到均值与方差的置信区间。
[0021]最后,求解相邻连续数据子块上非监督性检测统计量置信区间的交集,直到找到交集为空的时刻t2。
[0022]进一步说,步骤6)具体是:若t1≤t2,则t0=t1,否则t0=t2,t0为最终识别出的金融交易欺诈的时刻。
[0023]本专利技术的另一方面,提供了一种基于概念漂移检测的金融交易欺诈识别设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其中,所述处理器执行所述程序时实现上述一种基于概念漂移检测的金融交易欺诈识别方法。
[0024]本专利技术的再一方面,提供了一种计算机可读存储介质,所述存储介质存储有计算机程序,所述计算机程序用于执行上述一种基于概念漂移检测的金融交易欺诈识别方法。
[0025]本专利技术与现有技术相比,本专利技术产生的有益效果是:本专利技术通过检测金融交易数据分布的稳定性来识别金融交易欺诈行为。为了提高识别的实时性,流数据概念漂移检测机制通过检测金融交易数据均值、方差、以及流数据分类模型对最新样本分类错误率三个统计量的稳定性,通过三个统计量在连续金融交易数据上的置信区间求交集,可以有效地降低概念漂移的检测迟延,从而实时地识别出金融交易数据中的欺诈行为。
附图说明
[0026]图1为本专利技术提出的一种基于概念漂移检测的金融交易欺诈识别方法原理图。
[0027]图2为本专利技术的设备结构图。
具体实施方式
[0028]本专利技术主要包含以下步骤:
[0029]步骤1)输入金融交易数据,基于数据的时间戳将金融交易数据划分为等大小的数据块,获得候选数据块D
t
。金融交易数据每天都在不断地产生,因此数据量巨大。同时,数据到达的速度很快,且数据分布随着时间在动态变化。因此将金融交易数据看作流数据,被称
为金融交易流数据。金融交易流数据中数据分布的变化被称为概念漂移。金融交易流数据块是等大小的,即每个数据块中具有等量的金融交易数据,且其中的数据分布通常是动态变化的。
[0030]步骤2)对步骤1)获取的候选金融交易数据块D
t
进行数据子块的划分,每个数据子块中包含等量的金融交易流数据,基于数据子块划分的概念漂移检测可以有效地提高漂移检测的实时性。
[0031]步骤2)使用步骤1)获取的候选金融交易数据块D
t
,增量式训练得到流数据单分类器,从而得到金融交易流数据集成分类模型M。其中的单分类器采用了快速决策树VFDT算法,在每个数据块上构建流数据分类模型。快速决策树模型使用金融交易流数据增量地训练决策树模型,而不采用传统的批处理方法进行模型训练,适合处理高速、海量、动态的金融交易流数据。
[0032]步骤4)基于监督性信息的概念漂移检测,识别步骤2)获取的连续数据子块中的概念漂移,得到概念漂移时刻t1。评估流数据集成分类模型M在连续数据子块中的分类错误率,并作为概念漂移检测机制的监督性统计量。分类错误率是符合二项分布的,若数据子块中金融交易流数据项足够多,根据中心极限定律,二项分布近似服从正态分布。首先,求解分类错误率统计量的均值与方差。然后,可以得到分类错误率统计量的置信区间。最后,求解相邻连续数据子块上分类错误率置信区间的交集,本文档来自技高网...
【技术保护点】
【技术特征摘要】
1.一种基于概念漂移检测的金融交易欺诈识别方法,其特征在于:包括以下步骤:步骤1)输入金融交易数据,并基于数据到达的时间戳,划分数据为等大小的数据块,得到候选金融交易数据块D
t
;步骤2)使用步骤1获取的候选金融交易数据块D
t
,进行连续数据子块的划分;步骤3)使用步骤1获取的候选金融交易数据块D
t
,增量式训练得到流数据单分类器,进而得到金融交易流数据集成分类模型M;步骤4)基于监督性信息的概念漂移检测,识别步骤2获取的连续数据子块中的概念漂移,得到概念漂移时刻t1;步骤5)基于非监督性信息的概念漂移检测,识别步骤2)获取的连续数据子块中的概念漂移,得到概念漂移时刻t2;步骤6)基于步骤4与步骤5得到的时刻t1、t2检测出概念漂移发生的时刻t0,从而识别出金融交易欺诈行为。2.根据权利要求1所述的一种基于概念漂移检测的金融交易欺诈识别方法,其特征在于:步骤3)中每个金融交易数据块训练得到一个基于VFDT的单分类器,从而在连续的数据块上得到金融交易流数据集成分类模型M。3.根据权利要求1所述的一种基于概念漂移检测的金融交易欺诈识别方法,其特征在于:步骤4)具体是:首先,评估步骤3)训练得到的流数据集成分类模型M在连续金融交易数据子块中分类错误率;然后,将分类错误率作为基于监督性信息的概念漂移检测机制的...
【专利技术属性】
技术研发人员:谢逸俊,钟蔚蔚,李伟,匡立中,张帅,
申请(专利权)人:杭州趣链科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。