一种异常数据的分析方法、装置、电子设备及存储介质制造方法及图纸

技术编号:26170496 阅读:55 留言:0更新日期:2020-10-31 13:38
本发明专利技术实施例提供了一种异常数据的分析方法、装置、电子设备及存储介质,上述方法包括:获取业务应用运行过程中预设时长内产生的业务数据;基于该业务数据的预设的数据维度分别对业务数据不同数据维度的数据进行统计,得到不同数据维度的统计结果;针对每种数据维度检测各个预设维度值的统计结果是否发生异常变化;获得发生异常变化的预设维度值作为待分析预设维度值;根据预先确定的各个预设维度值之间的关联关系,获得与该待分析预设维度值关联的其他预设维度值的统计结果的变化情况,将变化情况作为该待分析预设维度值的统计结果发生异常变化的原因。采用本发明专利技术实施例提供的方法在进行数据分析时可以减少人力资源的消耗,提高数据分析的效率。

【技术实现步骤摘要】
一种异常数据的分析方法、装置、电子设备及存储介质
本专利技术涉及数据分析
,特别是涉及一种异常数据的分析方法、装置、电子设备及存储介质。
技术介绍
在很多网络业务应用中,需要对数据进行分析。例如:视频网站,当统计的用户数据或视频数据等数据出现异常波动时,需要对数据进行分析,如对用户数据的折线图、柱状图、饼图等形式的数据产生波动的原因进行分析。目前,当数据发生波动时,主要是通过人工排查,确定引起当前数据产生波动的原因。例如,当某些业务应用软件的DAU(DailyActiveUser,日活跃用户数量)报表数据产生波动,可以通过排查该应用软件的用户类型、用户来源类型以及该应用软件的内容等级,确定出DAU报表数据发生波动的原因。然而,现有的通过人工排查分析数据产生波动的原因的方式,非常消耗人力资源,并且,在人力资源有限的情况下,通过人工排查的方式分析数据产生波动的原因的效率也比较低下。
技术实现思路
本专利技术实施例的目的在于提供一种异常数据的分析方法、装置、电子设备及存储介质,用以解决现有的分析数据产生波动的原因的方式,所存在的消耗人力资源较多以及数据分析效率低下的问题。为了达到上述目的,本专利技术实施例提供了一种异常数据的分析方法,包括:获取业务应用运行过程中,预设时长内产生的业务数据;基于该业务数据的预设的数据维度,分别对所述业务数据不同数据维度的数据进行统计,得到不同数据维度的统计结果;其中,每种数据维度具有多个预设维度值;统计结果为针对不同数据维度的各个预设维度值的统计数据;针对每种数据维度,检测各个预设维度值的统计结果是否发生异常变化;获得发生异常变化的预设维度值,作为待分析预设维度值;根据预先确定的各个预设维度值之间的关联关系,获得与该待分析预设维度值关联的其他预设维度值的统计结果的变化情况,将所述变化情况,作为该待分析预设维度值的统计结果发生异常变化的原因。进一步的,所述各个预设维度值之间的关联关系为:预先基于数据挖掘算法确定的。进一步的,预先基于数据挖掘算法确定各个预设维度值之间的关联关系,包括如下步骤:针对每种数据维度,每隔预设时间段采集该数据维度的所有预设维度值的统计结果;根据所采集的所有预设维度值的统计结果,分别生成包含1个预设维度值的统计结果的1项频繁项集,至包含k个预设维度值的统计结果的k项频繁项集;1≤k≤N,N表示该数据维度的所有预设维度值的数量;频繁项集为支持度大于等于预设支持度阈值的集合;将由各个频繁项集构成的集合作为待分析集合;所述频繁项集的支持度为:频繁项集中每次所采集得到的各个预设维度值的统计结果相比前次所采集得到的都发生特定变化的次数,除以采集次数的比值;所述采集次数为:采集所有预设维度值的统计结果的次数;特定变化为:上升变化或下降变化;针对每个m项频繁项集,将所述待分析集合中的多个m-1项频繁项集中,属于该m项频繁项集的子集的m-1项频繁项集,确定为该m项频繁项集的指定子集;m∈{2,3,...,k};针对m项频繁项集的每个指定子集,分别确定该指定子集相对该m项频繁项集的置信度;针对每个指定子集,当该指定子集相对该m项频繁项集的置信度大于等于预设置信度阈值时,确定该指定子集中相对于该m项频繁项集,所缺少一个预设维度值,与该指定子集中所有预设维度值之间具有关联关系。进一步的,所述根据所采集的所有预设维度值的统计结果,分别生成包含1个预设维度值的统计结果的1项频繁项集,至包含k个预设维度值的统计结果的k项频繁项集,包括:当n等于1时,根据所采集的所有预设维度值的统计结果,生成包含n个预设维度值的统计结果的n项候选集;针对每个n项候选集,确定该n项候选集的支持度;所述采集次数为:采集所有预设维度值的统计结果的次数;将支持度大于等于支持度阈值的n项候选集确定为n项频繁项集;当n项频繁项集的数量大于等于2时,将任意两个n项频繁项集的并集作为n+1项候选集;针对每个n+1项候选集,确定该n+1项候选集的支持度;将支持度大于等于支持度阈值的n+1项候选集确定为n+1项频繁项集;判断n+1项频繁项集的数量是否大于等于2;若判断为是,将n+1作为新的n的值,返回将任意两个n项频繁项集的并集作为n+1项候选集的步骤;若判断为否,确定n+1项频繁项集为k项频繁项集;n+1=k。进一步的,所述针对m项频繁项集的每个指定子集,分别确定该指定子集相对该m项频繁项集的置信度,包括:针对m项频繁项集的每个指定子集,计算该m项频繁项集的支持度,除以该指定子集的支持度的比值,作为该指定子集相对该m项频繁项集的置信度。进一步的,所述根据所采集的所有预设维度值的统计结果,分别生成包含1个预设维度值的统计结果的1项频繁项集,至包含k个预设维度值的统计结果的k项频繁项集,包括:当n等于1时,根据所采集的所有预设维度值的统计结果,生成包含n个预设维度值的统计结果的n项候选集;针对每个n项候选集,分别计算该n项候选集中,每次所采集得到的n个预设维度值的统计结果相比前次所采集得到的都发生上升变化的次数,除以采集次数的比值,作为该n项候选集的上升支持度;以及计算该n项候选集中,每次所采集得到的n个预设维度值的统计结果相比前次所采集得到的都发生下降变化的次数,除以采集次数的比值,作为该n项候选集的下降支持度;所述采集次数为:采集所有预设维度值的统计结果的次数;将上升支持度或下降支持度大于等于预设支持度阈值的n项候选集确定为n项频繁项集;当n项频繁项集的数量大于等于2时,将任意两个n项频繁项集的并集作为n+1项候选集;针对每个n+1项候选集,分别计算该n+1项候选集中,每次所采集得到的n+1个预设维度值的统计结果相比前次所采集得到的都发生上升变化的次数,除以采集次数的比值,作为该n+1项候选集的上升支持度;以及计算该n+1项候选集中,每次所采集得到的n+1个预设维度值的统计结果相比前次所采集得到的都发生下降变化的次数,除以采集次数的比值,作为该n+1项候选集的下降支持度;将上升支持度或下降支持度大于等于预设支持度阈值的n+1项候选集确定为n+1项频繁项集;判断n+1项频繁项集的数量是否大于等于2;若判断为是,将n+1作为新的n的值,返回将任意两个n项频繁项集的并集作为n+1项候选集的步骤;若判断为否,确定n+1项频繁项集为k项频繁项集,n+1=k。进一步的,所述针对m项频繁项集的每个指定子集,分别确定该指定子集相对该m项频繁项集的置信度,包括:针对m项频繁项集的每个指定子集,分别计算该m项频繁项集的上升支持度,除以该指定子集的上升支持度的比值,作为该指定子集相对该m项频繁项集的上升置信度;以及计算该m项频繁项集的下降支持度,除以该指定子集的下降支持度的比值,作为该指定子集相对该m项频繁项集的下降置信度;所述针对每个指定子集,当该指定子集相本文档来自技高网...

【技术保护点】
1.一种异常数据的分析方法,其特征在于,包括:/n获取业务应用运行过程中,预设时长内产生的业务数据;/n基于该业务数据的预设的数据维度,分别对所述业务数据不同数据维度的数据进行统计,得到不同数据维度的统计结果;其中,每种数据维度具有多个预设维度值;统计结果为针对不同数据维度的各个预设维度值的统计数据;/n针对每种数据维度,检测各个预设维度值的统计结果是否发生异常变化;/n获得发生异常变化的预设维度值,作为待分析预设维度值;/n根据预先确定的各个预设维度值之间的关联关系,获得与该待分析预设维度值关联的其他预设维度值的统计结果的变化情况,将所述变化情况,作为该待分析预设维度值的统计结果发生异常变化的原因。/n

【技术特征摘要】
1.一种异常数据的分析方法,其特征在于,包括:
获取业务应用运行过程中,预设时长内产生的业务数据;
基于该业务数据的预设的数据维度,分别对所述业务数据不同数据维度的数据进行统计,得到不同数据维度的统计结果;其中,每种数据维度具有多个预设维度值;统计结果为针对不同数据维度的各个预设维度值的统计数据;
针对每种数据维度,检测各个预设维度值的统计结果是否发生异常变化;
获得发生异常变化的预设维度值,作为待分析预设维度值;
根据预先确定的各个预设维度值之间的关联关系,获得与该待分析预设维度值关联的其他预设维度值的统计结果的变化情况,将所述变化情况,作为该待分析预设维度值的统计结果发生异常变化的原因。


2.根据权利要求1所述的方法,其特征在于,所述各个预设维度值之间的关联关系为:预先基于数据挖掘算法确定的。


3.根据权利要求2所述的方法,其特征在于,预先基于数据挖掘算法确定各个预设维度值之间的关联关系,包括如下步骤:
针对每种数据维度,每隔预设时间段采集该数据维度的所有预设维度值的统计结果;
根据所采集的所有预设维度值的统计结果,分别生成包含1个预设维度值的统计结果的1项频繁项集,至包含k个预设维度值的统计结果的k项频繁项集;1≤k≤N,N表示该数据维度的所有预设维度值的数量;频繁项集为支持度大于等于预设支持度阈值的集合;将由各个频繁项集构成的集合作为待分析集合;所述频繁项集的支持度为:频繁项集中每次所采集得到的各个预设维度值的统计结果相比前次所采集得到的都发生特定变化的次数,除以采集次数的比值,作为频繁项集的支持度;所述采集次数为:采集所有预设维度值的统计结果的次数;特定变化为:上升变化或下降变化;
针对每个m项频繁项集,将所述待分析集合中的多个m-1项频繁项集中,属于该m项频繁项集的子集的m-1项频繁项集,确定为该m项频繁项集的指定子集;m∈{2,3,...,k};
针对m项频繁项集的每个指定子集,分别确定该指定子集相对该m项频繁项集的置信度;
针对每个指定子集,当该指定子集相对该m项频繁项集的置信度大于等于预设置信度阈值时,确定该指定子集中相对于该m项频繁项集,所缺少一个预设维度值,与该指定子集中所有预设维度值之间具有关联关系。


4.根据权利要求3所述的方法,其特征在于,所述根据所采集的所有预设维度值的统计结果,分别生成包含1个预设维度值的统计结果的1项频繁项集,至包含k个预设维度值的统计结果的k项频繁项集,包括:
当n等于1时,根据所采集的所有预设维度值的统计结果,生成包含n个预设维度值的统计结果的n项候选集;
针对每个n项候选集,确定该n项候选集的支持度;
将支持度大于等于支持度阈值的n项候选集确定为n项频繁项集;
当n项频繁项集的数量大于等于2时,将任意两个n项频繁项集的并集作为n+1项候选集;
针对每个n+1项候选集,确定该n+1项候选集的支持度;
将支持度大于等于支持度阈值的n+1项候选集确定为n+1项频繁项集;
判断n+1项频繁项集的数量是否大于等于2;
若判断为是,将n+1作为新的n的值,返回将任意两个n项频繁项集的并集作为n+1项候选集的步骤;
若判断为否,确定n+1项频繁项集为k项频繁项集;n+1=k。


5.根据权利要求3所述的方法,其特征在于,所述针对m项频繁项集的每个指定子集,分别确定该指定子集相对该m项频繁项集的置信度,包括:
针对m项频繁项集的每个指定子集,计算该m项频繁项集的支持度,除以该指定子集的支持度的比值,作为该指定子集相对该m项频繁项集的置信度。


6.根据权利要求3所述的方法,其特征在于,所述根据所采集的所有预设维度值的统计结果,分别生成包含1个预设维度值的统计结果的1项频繁项集,至包含k个预设维度值的统计结果的k项频繁项集,包括:
当n等于1时,根据所采集的所有预设维度值的统计结果,生成包含n个预设维度值的统计结果的n项候选集;
针对每个n项候选集,分别计算该n项候选集中,每次所采集得到的n个预设维度值的统计结果相比前次所采集得到的都发生上升变化的次数,除以采集次数的比值,作为该n项候选集的上升支持度;以及计算该n项候选集中,每次所采集得到的n个预设维度值的统计结果相比前次所采集得到的都发生下降变化的次数,除以采集次数的比值,作为该n项候选集的下降支持度;所述采集次数为:采集所有预设维度值的统计结果的次数;
将上升支持度或下降支持度大于等于预设支持度阈值的n项候选集确定为n项频繁项集;
当n项频繁项集的数量大于等于2时,将任意两个n项频繁项集的并集作为n+1项候选集;
针对每个n+1项候选集,分别计算该n+1项候选集中,每次所采集得到的n+1个预设维度值的统计结果相比前次所采集得到的都发生上升变化的次数,除以采集次数的比值,作为该n+1项候选集的上升支持度;以及计算该n+1项候选集中,每次所采集得到的n+1个预设维度值的统计结果相比前次所采集得到的都发生下降变化的次数,除以采集次数的比值,作为该n+1项候选集的下降支持度;
将上升支持度或下降支持度大于等于预设支持度阈值的n+1项候选集确定为n+1项频繁项集;
判断n+1项频繁项集的数量是否大于等于2;
若判断为是,将n+1作为新的n的值,返回将任意两个n项频繁项集的并集作为n+1项候选集的步骤;
若判断为否,确定n+1项频繁项集为k项频繁项集,n+1=k。


7.根据权利要求3所述的方法,其特征在于,所述针对m项频繁项集的每个指定子集,分别确定该指定子集相对该m项频繁项集的置信度,包括:
针对m项频繁项集的每个指定子集,分别计算该m项频繁项集的上升支持度,除以该指定子集的上升支持...

【专利技术属性】
技术研发人员:赵艳杰段效晨康林秦占明罗廷方
申请(专利权)人:北京奇艺世纪科技有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1