System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本申请涉及数据处理,特别是涉及一种数据分布稳定性监控方法、装置、计算机设备和存储介质。
技术介绍
1、互联网业务数据复杂且多样性,在特定的业务开展过程中,需要持续关注业务数据的稳定性。数据的稳定性是指衡量数据波动性与离散性的指标,数据波动越小,离散程度越小,则稳定性越高。数据的稳定性对于确保数据的可靠性和一致性至关重要,尤其是在数据分析和处理过程中。
2、传统的对业务数据的稳定性监控方案中,业务数据归属在各业务领域,导致数据游离,且受限于数据量以及计算能力,传统的技术方案无法保证指标数据生产的实时性。
技术实现思路
1、基于此,有必要针对上述技术问题,提供一种能够实时监控数据稳定性的数据分布稳定性监控方法、装置、计算机设备和存储介质。
2、一种数据稳定性监控方法,包括:
3、根据预先设定的分桶配置信息从实时数据仓库获取目标变量的历史样本分桶数据和实时样本分桶数据,实时数据仓库中预先存储了至少一个数据源的数据;
4、根据历史样本分桶数据和实时样本分桶数据确定目标变量的群体稳定性指标值;
5、根据群体稳定性指标值对目标变量的稳定性进行监控。
6、在其中一个实施例中,数据稳定性监控方法还包括:
7、利用实时数据处理工具从至少一个数据源同步数据至实时数据仓库,实时数据处理工具包括数据传输服务和/或flink框架。
8、在其中一个实施例中,利用实时数据处理工具从至少一个数据源同步数据至实时数据仓库
9、通过实时数据处理工具消费至少一个数据源的日志文件,以同步数据至实时数据仓库。
10、在其中一个实施例中,目标变量包括至少一个变量值,分桶配置信息包括预先为各个变量值配置的分桶,历史样本分桶数据包括各个变量值对应的历史样本数目,实时样本分桶数据包括各个变量值对应的实时样本数目,根据预先设定的分桶配置信息从实时数据仓库获取目标变量的历史样本分桶数据和实时样本分桶数据,包括:
11、根据分桶对应的变量值对实时数据仓库中的数据进行统计,得到各个变量值对应的历史样本数目和实时样本数目。
12、在其中一个实施例中,根据历史样本分桶数据和实时样本分桶数据确定目标变量的群体稳定性指标值,包括:
13、根据实时样本分桶数据计算分桶中变量值对应的样本数占比,得到第一占比;
14、根据历史样本分桶数据计算分桶中变量值对应的样本数占比,得到第二占比;
15、计算第一占比和第二占比的差值和比值;
16、根据第一占比和第二占比的差值和比值,计算群体稳定性指标值。
17、在其中一个实施例中,根据第一占比和第二占比的差值和比值,计算群体稳定性指标值的计算公式为:
18、
19、其中,psi为群体稳定性指标值,i表示第i个分桶,n表示分桶的总个数,p1为第i个分桶对应的第一占比,p2为第i个分桶对应的第二占比。
20、在其中一个实施例中,根据群体稳定性指标值对目标变量的稳定性进行监控,包括:
21、当群体稳定性指标值大于预设阈值时,向指定的终端发送告警提示信息。
22、一种数据稳定性监控装置,包括:
23、获取模块,用于根据预先设定的分桶配置信息从实时数据仓库获取目标变量的历史样本分桶数据和实时样本分桶数据,实时数据仓库中预先存储了至少一个数据源的数据;
24、计算模块。用于根据历史样本分桶数据和实时样本分桶数据确定目标变量的群体稳定性指标值;
25、监控模块,用于根据群体稳定性指标值对目标变量的稳定性进行监控。
26、一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行计算机程序时实现以下步骤:
27、根据预先设定的分桶配置信息从实时数据仓库获取目标变量的历史样本分桶数据和实时样本分桶数据,实时数据仓库中预先存储了至少一个数据源的数据;
28、根据历史样本分桶数据和实时样本分桶数据确定目标变量的群体稳定性指标值;
29、根据群体稳定性指标值对目标变量的稳定性进行监控。
30、一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现以下步骤:
31、步根据预先设定的分桶配置信息从实时数据仓库获取目标变量的历史样本分桶数据和实时样本分桶数据,实时数据仓库中预先存储了至少一个数据源的数据;
32、根据历史样本分桶数据和实时样本分桶数据确定目标变量的群体稳定性指标值;
33、根据群体稳定性指标值对目标变量的稳定性进行监控。
34、上述数据稳定性监控方法、装置、计算机设备和存储介质,预先将至少一个数据源的数据同步至实时数据仓库,预先配置分桶配置信息,根据分桶配置信息从实时数据仓库获取目标变量的历史样本分桶数据和实时样本分桶数据,进一步根据历史样本分桶数据和实时样本分桶数据确定目标变量的群体稳定性指标值,根据群体稳定性指标值对目标变量的稳定性进行监控,解决了传统技术中无法保证指标数据生成的实时性的问题,以及通过将实时数据仓库对接至少一个数据源,将各个数据源的数据实时同步至实时数据仓库,解决了传统技术中数据游离在各个业务领域,数据异构的问题。
本文档来自技高网...【技术保护点】
1.一种数据稳定性监控方法,其特征在于,所述方法包括:
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
3.根据权利要求2所述的方法,其特征在于,所述利用实时数据处理工具从所述至少一个数据源同步数据至所述实时数据仓库,包括:
4.根据权利要求1所述的方法,其特征在于,所述目标变量包括至少一个变量值,所述分桶配置信息包括预先为各个所述变量值配置的分桶,所述历史样本分桶数据包括各个所述变量值对应的历史样本数目,实时样本分桶数据包括各个所述变量值对应的实时样本数目,所述根据预先设定的分桶配置信息从实时数据仓库获取目标变量的历史样本分桶数据和实时样本分桶数据,包括:
5.根据权利要求1所述的方法,其特征在于,所述根据所述历史样本分桶数据和实时样本分桶数据确定所述目标变量的群体稳定性指标值,包括:
6.根据权利要求1所述的方法,其特征在于,所述根据所述第一占比和所述第二占比的差值和比值,计算所述群体稳定性指标值的计算公式为:
7.根据权利要求1所述的方法,其特征在于,所述根据所述群体稳定性指标值对所述目标变
8.一种数据稳定性监控装置,其特征在于,所述装置包括:
9.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。
...【技术特征摘要】
1.一种数据稳定性监控方法,其特征在于,所述方法包括:
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
3.根据权利要求2所述的方法,其特征在于,所述利用实时数据处理工具从所述至少一个数据源同步数据至所述实时数据仓库,包括:
4.根据权利要求1所述的方法,其特征在于,所述目标变量包括至少一个变量值,所述分桶配置信息包括预先为各个所述变量值配置的分桶,所述历史样本分桶数据包括各个所述变量值对应的历史样本数目,实时样本分桶数据包括各个所述变量值对应的实时样本数目,所述根据预先设定的分桶配置信息从实时数据仓库获取目标变量的历史样本分桶数据和实时样本分桶数据,包括:
5.根据权利要求1所述的方法,其特征在于,所述根据所述历史样本分桶数据和实时样本分桶数...
【专利技术属性】
技术研发人员:黄宏贵,卫军辉,施彬,
申请(专利权)人:上海数禾信息科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。