确定数据异常的方法及装置制造方法及图纸

技术编号:21832957 阅读:20 留言:0更新日期:2019-08-10 18:06
本说明书实施例提供一种确定数据异常的方法和装置,方法包括:获取预定时间段内的多个数据包,所述多个数据包具有相同数据结构;获取具有所述相同数据结构的历史数据的历史分布;将所述多个数据包与所述历史分布进行比对;根据比对结果,确定是否存在数据异常。所述装置与上述方法相对应。通过上述方法和装置,可以有效地判断出当前数据包中的数据异常。

Method and Device for Determining Data Abnormality

【技术实现步骤摘要】
确定数据异常的方法及装置
本说明书一个或多个实施例涉及计算机
,尤其涉及确定数据异常的方法和装置。
技术介绍
随着互联网的升级,不同平台之间的数据交互越来越频繁。例如,用户向银行或某个金融平台提交贷款请求,银行或金融平台会将用户的请求数据发送到综合计算平台进行全面评估,来决定是否批准该用户的贷款请求,以及核准的贷款金额。然而,各个平台为了安全性和自身用户保密性的考虑,在将数据发送给其他平台处理之前,往往会对数据进行一些隐私保护处理。这样处理之后的数据会失去其业务含义。接收平台在接收到这些数据之后,很难根据业务规则对数据中是否存在异常进行判断。例如,数据传送过程中是否被攻击,是否被篡改,用户群体是否发生了偏移等。即使是在同一计算平台中,数据的处理往往要经过业务链中的多个环节。数据也有可能在某个业务环节,或者不同业务环节之间的传输过程中出现异常,例如系统被攻击、模型出现异常等等。另一方面,在大数据背景下,数据量指数增长,而业务规则又是不断变化难以穷尽的,因此仅通过业务规则来发现数据异常,工作量巨大而不够全面。因此,需要更有效的方式,对数据的异常进行判断和预警。
技术实现思路
本说明书一个或多个实施例描述了一种方法和装置,可以不依赖于数据的业务含义,对数据的异常进行判断和预警。根据第一方面,提供了一种确定数据异常的方法,包括:获取预定时间段内的多个数据包,所述多个数据包具有相同数据结构;获取具有所述相同数据结构的历史数据的历史分布;将所述多个数据包与所述历史分布进行比对;根据比对结果,确定是否存在数据异常。根据一种实施方式,将多个数据包与所述历史分布进行比对包括:通过将所述多个数据包代入所述历史分布,获取所述多个数据包在所述历史分布中的多个分布状态参数;将所述多个分布状态参数与预定的与分布状态相关的阈值进行比对,确定超出所述阈值的数据包的数目;所述根据比对结果,确定是否存在数据异常包括:根据所述超出所述阈值的数据包的数目,确定是否存在数据异常。根据一种实施方式,将所述多个数据包与所述历史分布进行比对包括:确定所述多个数据包的数据分布状态作为当前分布;将所述当前分布与所述历史分布进行比对。在一种实施例中,将所述当前分布与所述历史分布进行比对包括:确定所述当前分布的分布中心;获取所述历史分布的分布中心;确定所述当前分布的分布中心与历史分布的分布中心之间的偏移;相应地,所述根据比对结果,确定是否存在数据异常包括:响应于所述偏移超出预定偏移阈值,确定存在数据异常。在另一实施例中,将所述当前分布与所述历史分布进行比对包括:确定随机抽取的数据包在所述当前分布中的分布状态参数,即第一参数;确定该随机抽取的数据包在所述历史分布中的分布状态参数,即第二参数;确定所述第一参数和第二参数的差值;相应地,所述根据比对结果,确定是否存在数据异常包括:响应于所述差值超出预定差值阈值,确定存在数据异常。根据一种实施方式,所述历史分布是采用混合高斯模型对所述历史数据进行处理得到的历史概率分布;相应地,当前分布体现为采用混合高斯模型对当前多个数据包处理得到的当前概率分布;上述分布状态参数可以体现为概率值;分布中心体现为概率分布曲线的峰值位置。根据另一种实施方式,所述历史分布是针对所述历史数据采用聚类算法获得的历史聚类分布;相应地,当前分布体现为采用同样的聚类算法对当前多个数据包处理得到的当前聚类分布;上述分布状态参数可以体现为聚类分布空间中数据包的位置和对应聚类中心的距离;分布中心体现为聚类的中心位置。根据第二方面,提供一种确定数据异常的装置,包括:数据包获取单元,配置为获取预定时间段内的多个数据包,所述多个数据包具有相同数据结构;历史获取单元,配置为获取具有所述相同数据结构的历史数据的历史分布;比对单元,配置为将所述多个数据包与所述历史分布进行比对;确定单元,配置为根据比对结果,确定是否存在数据异常。根据第三方面,提供了一种计算机可读存储介质,其上存储有计算机程序,当所述计算机程序在计算机中执行时,令计算机执行第一方面的方法。根据第四方面,提供了一种计算设备,包括存储器和处理器,其特征在于,所述存储器中存储有可执行代码,所述处理器执行所述可执行代码时,实现第一方面的方法。通过本说明书实施例提供的方法及装置,将当前获得的数据包与基于历史数据统计获得的历史数据分布进行比对,根据比对结果确定当前数据包是否存在数据异常。如此,可以不依赖于数据的业务含义,而有效地对数据异常进行判断和预警。附图说明为了更清楚地说明本专利技术实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。图1示出本说明书披露的一个实施例的示意图;图2示出根据一个实施例的方法的流程图;图3示出根据一个实施例的比对和判断过程流程图;图4示出根据另一个实施例的比对和判断过程流程图;图5示出比对峰值位置的示意图;图6示出根据又一个实施例的比对和判断过程流程图;图7示出比对概率值的示意图;图8示出根据一个实施例的确定装置的示意框图。具体实施方式下面结合附图,对本说明书提供的方案进行描述。图1为本说明书披露的一个实施例的示意图。在图1中,计算平台(例如支付宝服务器)获取预定时间段内的多个数据包(例如,用户请求贷款的信贷请求数据包),这些数据包具有相同的数据结构(例如,具有相同的字段,字段内容可以包括用户年龄,性别,收入,贷款额等等)。另一方面,计算平台还获取具有以上相同数据结构的历史数据的历史分布,这些历史数据可以由之前一段较长时间段内接收的大量同类数据包构成。接着,计算平台将多个数据包与所述历史分布进行比对,根据比对结果,确定是否存在数据异常。如果不存在数据异常,计算平台可以继续处理这些数据,或者将这些数据发送到下一业务环节。如果确定存在数据异常,则可以启动预警,通知相关人员分析数据异常的原因,触发相关解决方案。下面描述确定数据异常的具体实施过程。图2示出根据一个实施例的方法流程图。该方法的执行主体可以是任何具有计算能力和处理能力的计算平台,例如服务器。如图2所示,该方法包括:步骤21,获取预定时间段内的多个数据包,所述多个数据包具有相同数据结构;步骤22,获取具有所述相同数据结构的历史数据的历史分布;步骤23,将所述多个数据包与所述历史分布进行比对;步骤24,根据比对结果,确定是否存在数据异常。下面结合具体例子描述以上各个步骤的执行方式。首先在步骤21,获取预定时间段内的多个数据包。在一个实施例中,所述多个数据包是从外部机构接收到的数据包,例如支付宝服务器从银行或金融机构接收到的用户的信贷请求数据包。此时,可以通过后续的步骤判断外部机构传输过来的数据包是否存在数据异常。这样的数据异常有可能是因为数据传送过程中被攻击,被篡改,或者用户群体发生偏移等原因所致。在另一实施例中,所述多个数据包是数据处理的业务链中,某个业务环节产生的数据包。例如,对于从外部机构接收到的信贷请求数据包,需要对其进行多个业务环节的处理,例如包括字段解析、降维、模型运算等等。此时,可以对任意业务环节中产生的数据包进行后续分析。通过后续分析,可以判断该本文档来自技高网...

【技术保护点】
1.一种确定数据异常的方法,包括:获取预定时间段内的多个数据包,所述多个数据包具有相同数据结构;获取具有所述相同数据结构的历史数据的历史分布;将所述多个数据包与所述历史分布进行比对;根据比对结果,确定是否存在数据异常。

【技术特征摘要】
1.一种确定数据异常的方法,包括:获取预定时间段内的多个数据包,所述多个数据包具有相同数据结构;获取具有所述相同数据结构的历史数据的历史分布;将所述多个数据包与所述历史分布进行比对;根据比对结果,确定是否存在数据异常。2.根据权利要求1所述的方法,其中将所述多个数据包与所述历史分布进行比对包括:通过将所述多个数据包代入所述历史分布,获取所述多个数据包在所述历史分布中的多个分布状态参数;将所述多个分布状态参数与预定的与分布状态相关的阈值进行比对,确定超出所述阈值的数据包的数目;所述根据比对结果,确定是否存在数据异常包括:根据所述超出所述阈值的数据包的数目,确定是否存在数据异常。3.根据权利要求1所述的方法,其中将所述多个数据包与所述历史分布进行比对包括:确定所述多个数据包的数据分布状态作为当前分布;将所述当前分布与所述历史分布进行比对。4.根据权利要求3所述的方法,其中将所述当前分布与所述历史分布进行比对包括:确定所述当前分布的分布中心;获取所述历史分布的分布中心;确定所述当前分布的分布中心与历史分布的分布中心之间的偏移;所述根据比对结果,确定是否存在数据异常包括:响应于所述偏移超出预定偏移阈值,确定存在数据异常。5.根据权利要求3所述的方法,其中将所述当前分布与所述历史分布进行比对包括:确定随机抽取的数据包在所述当前分布中的分布状态参数,即第一参数;确定该随机抽取的数据包在所述历史分布中的分布状态参数,即第二参数;确定所述第一参数和第二参数的差值;所述根据比对结果,确定是否存在数据异常包括:响应于所述差值超出预定差值阈值,确定存在数据异常。6.根据权利要求2所述的方法,其中所述历史分布是采用混合高斯模型对所述历史数据进行处理得到的历史概率分布;将所述多个数据包与所述历史分布进行比对包括:通过将所述多个数据包代入所述历史概率分布,获取所述多个数据包在所述历史概率分布中的多个概率值;将所述多个概率值与预定的概率阈值进行比对,确定小于所述概率阈值的数据包的数目,即第一数目;所述根据比对结果,确定是否存在数据异常包括:响应于所述第一数目超出预定数目阈值,或者所述第一数目与所述多个数据包的数目的比例超出预定比例阈值,确定存在数据异常。7.根据权利要求3所述的方法,其中所述历史分布是采用混合高斯模型对所述历史数据进行处理得到的历史概率分布;所述确定所述多个数据包的数据分布状态作为当前分布包括:采用混合高斯模型对所述多个数据包进行处理得到当前概率分布;将所述当前分布与所述历史分布进行比对包括:将所述当前概率分布与所述历史概率分布进行比对。8.根据权利要求7所述的方法,其中将所述当前概率分布与所述概率历史分布进行比对包括:确定第一峰值位置,所述第一峰值位置为所述当前概率分布对应的概率分布曲线的峰值位置;获取第二峰值位置,所述第二峰值位置为所述历史概率分布对应的概率分布曲线的峰值位置;确定所述第一峰值位置和第二峰值位置的位置偏移;所述根据比对结果,确定是否存在数据异常包括:响应于所述位置偏移超出预定偏移阈值,确定存在数据异常。9.根据权利要求7所述的方法,其中将所述当前概率分布与所述历史概率分布进行比对包括:确定随机抽取的数据包在所述当前概率分布中的出现概率,即第一概率;确定该随机抽取的数据包在所述历史概率分布中的出现概率,即第二概率;确定所述第一概率和第二概率的概率差值;所述根据比对结果,确定是否存在数据异常包括:响应于所述概率差值超出预定差值阈值,确定存在数据异常。10.根据权利要求2所述的方法,其中所述历史分布是针对所述历史数据采用聚类算法获得的历史聚类分布;将所述多个数据包与所述历史分布进行比对包括:确定所述多个数据包在所述历史聚类分布的分布空间中的位置,得到多个位置;确定所述多个位置与对应的聚类中心位置的距离,得到多个距离;将所述多个距离与预设距离阈值进行比对,确定超出所述预设距离阈值的数目,即第二数目;所述根据比对结果,确定是否存在数据异常包括:响应于所述第二数目超出预定数目阈值,或者所述第二数目与所述多个数据包的数目的比例超出预定比例阈值,确定存在数据异常。11.根据权利要求3所述的方法,其中所述历史分布是针对所述历史数据采用聚类算法获得的历史聚类分布;所述确定所述多个数据包的数据分布状态作为当前分布包括:采用所述聚类算法对所述多个数据包进行处理得到当前聚类分布;将所述当前分布与所述历史分布进行比对包括:将所述当前聚类分布与所述历史聚类分布进行比对。12.根据权利要求11所述的方法,其中将所述当前聚类分布与所述历史聚类分布进行比对包括:确定第一中心位置,所述第一中心位置为所述当前聚类分布对应的聚类的中心位置;获取第二中心位置,所述第二中心位置为所述历史聚类分布对应的聚类的中心位置;确定所述第一中心位置和第二中心位置的距离;所述根据比对结果,确定是否存在数据异常包括:响应于所述距离超出预定距离阈值,确定存在数据异常。13.根据权利要求11所述的方法,其中将所述当前聚类分布与所述历史聚类分布进行比对包括:确定随机抽取的数据包在所述当前聚类分布中的位置与对应聚类的中心之间的距离,即第一距离;确定该随机抽取的数据包在所述历史聚类分布中的位置与对应聚类的中心之间的距离,即第二距离;确定所述第一距离和第二距离的距离差值;所述根据比对结果,确定是否存在数据异常包括:响应于所述距离差值超出预定差值阈值,确定存...

【专利技术属性】
技术研发人员:吴岳灏解岭徐鑫
申请(专利权)人:阿里巴巴集团控股有限公司
类型:发明
国别省市:开曼群岛,KY

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1