【技术实现步骤摘要】
确定数据异常的方法及装置
本说明书一个或多个实施例涉及计算机
,尤其涉及确定数据异常的方法和装置。
技术介绍
随着互联网的升级,不同平台之间的数据交互越来越频繁。例如,用户向银行或某个金融平台提交贷款请求,银行或金融平台会将用户的请求数据发送到综合计算平台进行全面评估,来决定是否批准该用户的贷款请求,以及核准的贷款金额。然而,各个平台为了安全性和自身用户保密性的考虑,在将数据发送给其他平台处理之前,往往会对数据进行一些隐私保护处理。这样处理之后的数据会失去其业务含义。接收平台在接收到这些数据之后,很难根据业务规则对数据中是否存在异常进行判断。例如,数据传送过程中是否被攻击,是否被篡改,用户群体是否发生了偏移等。即使是在同一计算平台中,数据的处理往往要经过业务链中的多个环节。数据也有可能在某个业务环节,或者不同业务环节之间的传输过程中出现异常,例如系统被攻击、模型出现异常等等。另一方面,在大数据背景下,数据量指数增长,而业务规则又是不断变化难以穷尽的,因此仅通过业务规则来发现数据异常,工作量巨大而不够全面。因此,需要更有效的方式,对数据的异常进行判断和预警。
技术实现思路
本说明书一个或多个实施例描述了一种方法和装置,可以不依赖于数据的业务含义,对数据的异常进行判断和预警。根据第一方面,提供了一种确定数据异常的方法,包括:获取预定时间段内的多个数据包,所述多个数据包具有相同数据结构;获取具有所述相同数据结构的历史数据的历史分布;将所述多个数据包与所述历史分布进行比对;根据比对结果,确定是否存在数据异常。根据一种实施方式,将多个数据包与所述历史分布进行比对包 ...
【技术保护点】
1.一种确定数据异常的方法,包括:获取预定时间段内的多个数据包,所述多个数据包具有相同数据结构;获取具有所述相同数据结构的历史数据的历史分布;将所述多个数据包与所述历史分布进行比对;根据比对结果,确定是否存在数据异常。
【技术特征摘要】
1.一种确定数据异常的方法,包括:获取预定时间段内的多个数据包,所述多个数据包具有相同数据结构;获取具有所述相同数据结构的历史数据的历史分布;将所述多个数据包与所述历史分布进行比对;根据比对结果,确定是否存在数据异常。2.根据权利要求1所述的方法,其中将所述多个数据包与所述历史分布进行比对包括:通过将所述多个数据包代入所述历史分布,获取所述多个数据包在所述历史分布中的多个分布状态参数;将所述多个分布状态参数与预定的与分布状态相关的阈值进行比对,确定超出所述阈值的数据包的数目;所述根据比对结果,确定是否存在数据异常包括:根据所述超出所述阈值的数据包的数目,确定是否存在数据异常。3.根据权利要求1所述的方法,其中将所述多个数据包与所述历史分布进行比对包括:确定所述多个数据包的数据分布状态作为当前分布;将所述当前分布与所述历史分布进行比对。4.根据权利要求3所述的方法,其中将所述当前分布与所述历史分布进行比对包括:确定所述当前分布的分布中心;获取所述历史分布的分布中心;确定所述当前分布的分布中心与历史分布的分布中心之间的偏移;所述根据比对结果,确定是否存在数据异常包括:响应于所述偏移超出预定偏移阈值,确定存在数据异常。5.根据权利要求3所述的方法,其中将所述当前分布与所述历史分布进行比对包括:确定随机抽取的数据包在所述当前分布中的分布状态参数,即第一参数;确定该随机抽取的数据包在所述历史分布中的分布状态参数,即第二参数;确定所述第一参数和第二参数的差值;所述根据比对结果,确定是否存在数据异常包括:响应于所述差值超出预定差值阈值,确定存在数据异常。6.根据权利要求2所述的方法,其中所述历史分布是采用混合高斯模型对所述历史数据进行处理得到的历史概率分布;将所述多个数据包与所述历史分布进行比对包括:通过将所述多个数据包代入所述历史概率分布,获取所述多个数据包在所述历史概率分布中的多个概率值;将所述多个概率值与预定的概率阈值进行比对,确定小于所述概率阈值的数据包的数目,即第一数目;所述根据比对结果,确定是否存在数据异常包括:响应于所述第一数目超出预定数目阈值,或者所述第一数目与所述多个数据包的数目的比例超出预定比例阈值,确定存在数据异常。7.根据权利要求3所述的方法,其中所述历史分布是采用混合高斯模型对所述历史数据进行处理得到的历史概率分布;所述确定所述多个数据包的数据分布状态作为当前分布包括:采用混合高斯模型对所述多个数据包进行处理得到当前概率分布;将所述当前分布与所述历史分布进行比对包括:将所述当前概率分布与所述历史概率分布进行比对。8.根据权利要求7所述的方法,其中将所述当前概率分布与所述概率历史分布进行比对包括:确定第一峰值位置,所述第一峰值位置为所述当前概率分布对应的概率分布曲线的峰值位置;获取第二峰值位置,所述第二峰值位置为所述历史概率分布对应的概率分布曲线的峰值位置;确定所述第一峰值位置和第二峰值位置的位置偏移;所述根据比对结果,确定是否存在数据异常包括:响应于所述位置偏移超出预定偏移阈值,确定存在数据异常。9.根据权利要求7所述的方法,其中将所述当前概率分布与所述历史概率分布进行比对包括:确定随机抽取的数据包在所述当前概率分布中的出现概率,即第一概率;确定该随机抽取的数据包在所述历史概率分布中的出现概率,即第二概率;确定所述第一概率和第二概率的概率差值;所述根据比对结果,确定是否存在数据异常包括:响应于所述概率差值超出预定差值阈值,确定存在数据异常。10.根据权利要求2所述的方法,其中所述历史分布是针对所述历史数据采用聚类算法获得的历史聚类分布;将所述多个数据包与所述历史分布进行比对包括:确定所述多个数据包在所述历史聚类分布的分布空间中的位置,得到多个位置;确定所述多个位置与对应的聚类中心位置的距离,得到多个距离;将所述多个距离与预设距离阈值进行比对,确定超出所述预设距离阈值的数目,即第二数目;所述根据比对结果,确定是否存在数据异常包括:响应于所述第二数目超出预定数目阈值,或者所述第二数目与所述多个数据包的数目的比例超出预定比例阈值,确定存在数据异常。11.根据权利要求3所述的方法,其中所述历史分布是针对所述历史数据采用聚类算法获得的历史聚类分布;所述确定所述多个数据包的数据分布状态作为当前分布包括:采用所述聚类算法对所述多个数据包进行处理得到当前聚类分布;将所述当前分布与所述历史分布进行比对包括:将所述当前聚类分布与所述历史聚类分布进行比对。12.根据权利要求11所述的方法,其中将所述当前聚类分布与所述历史聚类分布进行比对包括:确定第一中心位置,所述第一中心位置为所述当前聚类分布对应的聚类的中心位置;获取第二中心位置,所述第二中心位置为所述历史聚类分布对应的聚类的中心位置;确定所述第一中心位置和第二中心位置的距离;所述根据比对结果,确定是否存在数据异常包括:响应于所述距离超出预定距离阈值,确定存在数据异常。13.根据权利要求11所述的方法,其中将所述当前聚类分布与所述历史聚类分布进行比对包括:确定随机抽取的数据包在所述当前聚类分布中的位置与对应聚类的中心之间的距离,即第一距离;确定该随机抽取的数据包在所述历史聚类分布中的位置与对应聚类的中心之间的距离,即第二距离;确定所述第一距离和第二距离的距离差值;所述根据比对结果,确定是否存在数据异常包括:响应于所述距离差值超出预定差值阈值,确定存...
【专利技术属性】
技术研发人员:吴岳灏,解岭,徐鑫,
申请(专利权)人:阿里巴巴集团控股有限公司,
类型:发明
国别省市:开曼群岛,KY
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。