一种数据处理方法技术

技术编号:39400956 阅读:8 留言:0更新日期:2023-11-19 15:53
本申请公开了一种数据处理方法

【技术实现步骤摘要】
一种数据处理方法、装置、电子设备及存储介质


[0001]本专利技术涉及计算机
,特别涉及一种数据处理方法

装置

电子设备及存储介质


技术介绍

[0002]随着大数据时代的到来,对业务的大量数据进行分析处理以发现业务的规律性,已成为提高业务处理效率和准确性的重要方式

其中,业务的规律性是指业务数据集中存在的周期性

重复性或者趋势性的规律

[0003]相关技术中,在进行数据规律分析处理时主要针对用连续变量描述的连续数据进行,而统计数据是一种仅能取非负整数值并且通常是通过计算特定事件的发生次数而获得的数据类型,因此统计数据不同于连续数据,相关技术对统计数据进行规律分析处理的结果不够准确


技术实现思路

[0004]为了解决现有技术的问题,本专利技术实施例提供了一种数据处理方法

装置

电子设备及存储介质

所述技术方案如下:一方面,提供了一种数据处理方法,所述方法包括:获取目标业务的业务数据集;所述业务数据集中的每个业务数据表征指定事件在对应采样时间的发生次数;利用多个不同的周期成分数分别对所述业务数据集进行余弦拟合,基于每个所述周期成分数对应的余弦拟合程度,从所述多个不同的周期成分数中确定最佳周期成分数;所述最佳周期成分数对应的余弦拟合程度优于剩余周期成分数对应的余弦拟合程度;基于所述最佳周期成分数对应的余弦拟合结果,确定每个所述采样时间对应的预测业务数据,得到预测业务数据集;利用多个不同的预设概率分布分别对所述预测业务数据集进行分布拟合,基于每个所述预设概率分布对应的分布拟合程度,从所述多个不同的预设概率分布中确定最佳预设概率分布;所述最佳预设概率分布对应的分布拟合程度优于剩余预设概率分布对应的分布拟合程度;基于所述最佳预设概率分布所对应分布拟合结果的分布参数,确定所述目标业务的业务特征信息

[0005]另一方面,提供了一种数据处理装置,所述装置包括:业务数据集获取模块,用于获取目标业务的业务数据集;所述业务数据集中的每个业务数据表征指定事件在对应采样时间的发生次数;最佳周期成分数确定模块,用于利用多个不同的周期成分数分别对所述业务数据集进行余弦拟合,基于每个所述周期成分数对应的余弦拟合程度,从所述多个不同的周期成分数中确定最佳周期成分数;所述最佳周期成分数对应的余弦拟合程度优于剩余周期成
分数对应的余弦拟合程度;预测业务数据集确定模块,用于基于所述最佳周期成分数对应的余弦拟合结果,确定每个所述采样时间对应的预测业务数据,得到预测业务数据集;最佳概率分布确定模块,用于利用多个不同的预设概率分布分别对所述预测业务数据集进行分布拟合,基于每个所述预设概率分布对应的分布拟合程度,从所述多个不同的预设概率分布中确定最佳预设概率分布;所述最佳预设概率分布对应的分布拟合程度优于剩余预设概率分布对应的分布拟合程度;业务特征确定模块,用于基于所述最佳预设概率分布所对应分布拟合结果的分布参数,确定所述目标业务的业务特征信息

[0006]在一个示例性的实施方式中,所述最佳周期成分数确定模块,包括:第一确定模块,用于基于所述多个不同的周期成分数之间的组合,确定至少一个待测试周期成分数对;每个所述待测试周期成分数对包括第一周期成分数和第二周期成分数,所述第一周期成分数小于所述第二周期成分数;残差计算模块,用于对于每个所述待测试周期成分数,基于所述第一周期成分数和所述第二周期成分数分别对应的余弦拟合结果,分别对所述业务数据集进行残差计算处理,得到第一残差平方和以及第二残差平方和;第二确定模块,用于确定所述业务数据集的长度与所述第一周期成分数之间的第一差值,以及所述业务数据集的长度与所述第二周期成分数之间的第二差值;第一统计量确定模块,用于基于所述第一残差平方和

所述第二残差平方和

所述第一差值和所述第二差值,确定所述待测试周期成分数对应的第一目标统计量;所述第一目标统计量表征所述第一周期成分数对应的余弦拟合程度与所述第二周期成分数对应的余弦拟合程度之间的显著差异性;第三确定模块,用于基于所述待测试周期成分数对应的第一目标统计量,从所述待测试周期成分数中确定候选周期成分数;第四确定模块,用于基于至少一个候选周期成分数分别对应的残差平方和,从所述至少一个候选周期成分数中确定最佳周期成分数

[0007]在一个示例性的实施方式中,所述第一统计量确定模块,包括:第五确定模块,用于确定所述第一残差平方和与所述第二残差平方和之间的差值,得到第三差值;第六确定模块,用于确定所述第三差值与所述第二残差平方和之比,得到第一比值;第七确定模块,用于确定所述第一差值与所述第二差值之间的差异,并确定所述差异与所述第二差值之比,得到第二比值;第八确定模块,用于将所述第一比值除以所述第二比值,得到所述待测试周期成分数对应的第一目标统计量

[0008]在一个示例性的实施方式中,所述预测业务数据集确定模块,具体用于:基于预设对数链接函数,将所述最佳周期成分数所对应余弦拟合结果在每个采样时间的输出转换为非线性的预测值,得到每个所述采样时间对应的预测业务数据

[0009]在一个示例性的实施方式中,所述最佳概率分布确定模块,包括:
似然值确定模块,用于对于所述多个不同的预设概率分布中的任意两个预设概率分布,基于所述预测业务数据集确定所述任意两个预设概率分布中每个预设概率分布对应的似然值,得到第一似然值和第二似然值;第九确定模块,用于基于所述第一似然值与所述第二似然值之间的差值得到似然差值,基于所述第一似然值与所述第二似然值之间的比值得到对数似然比;参数量差值确定模块,用于确定所述任意两个预设概率分布中预设概率分布对应参数数量之间的差值,得到参数量差值;第十确定模块,用于基于所述似然差值

所述对数似然比

所述参数量差值和所述预测业务数据集的长度,确定所述任意两个预设概率分布对应的第二目标统计量;候选概率分布确定模块,用于基于所述任意两个预设概率分布所对应第二目标统计量的显著程度,从所述任意两个预设概率分布中确定候选预设概率分布;第十一确定模块,用于基于至少一个候选预设概率分布分别对应的分布拟合结果,确定每个候选预设概率分布对应目标信息准则的指标值,基于每个候选预设概率分布对应目标信息准则的指标值,从所述至少一个候选预设概率分布确定最佳预设概率分布

[0010]在一个示例性的实施方式中,所述最佳概率分布确定模块,还包括:选择结果获取模块,用于获取针对多个预设信息准则的选择结果;第十二确定模块,用于在所述选择结果指示存在被选取的预设信息准则时,将所述被选取的预设信息准则确定为所述目标信息准则;所述被选取的预设信息准则基于响应于针对所述多个预设信息准则的选择指令确定;第十三确定模块,用于在所述选择结果指示不存在被选取的预设本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.
一种数据处理方法,其特征在于,所述方法包括:获取目标业务的业务数据集;所述业务数据集中的每个业务数据表征指定事件在对应采样时间的发生次数;利用多个不同的周期成分数分别对所述业务数据集进行余弦拟合,基于每个所述周期成分数对应的余弦拟合程度,从所述多个不同的周期成分数中确定最佳周期成分数;所述最佳周期成分数对应的余弦拟合程度优于剩余周期成分数对应的余弦拟合程度;基于所述最佳周期成分数对应的余弦拟合结果,确定每个所述采样时间对应的预测业务数据,得到预测业务数据集;利用多个不同的预设概率分布分别对所述预测业务数据集进行分布拟合,基于每个所述预设概率分布对应的分布拟合程度,从所述多个不同的预设概率分布中确定最佳预设概率分布;所述最佳预设概率分布对应的分布拟合程度优于剩余预设概率分布对应的分布拟合程度;基于所述最佳预设概率分布所对应分布拟合结果的分布参数,确定所述目标业务的业务特征信息
。2.
根据权利要求1所述的方法,其特征在于,所述基于每个所述周期成分数对应的余弦拟合程度,从所述多个不同的周期成分数中确定最佳周期成分数,包括:基于所述多个不同的周期成分数之间的组合,确定至少一个待测试周期成分数对;每个所述待测试周期成分数对包括第一周期成分数和第二周期成分数,所述第一周期成分数小于所述第二周期成分数;对于每个所述待测试周期成分数,基于所述第一周期成分数和所述第二周期成分数分别对应的余弦拟合结果,分别对所述业务数据集进行残差计算处理,得到第一残差平方和以及第二残差平方和;确定所述业务数据集的长度与所述第一周期成分数之间的第一差值,以及所述业务数据集的长度与所述第二周期成分数之间的第二差值;基于所述第一残差平方和

所述第二残差平方和

所述第一差值和所述第二差值,确定所述待测试周期成分数对应的第一目标统计量;所述第一目标统计量表征所述第一周期成分数对应的余弦拟合程度与所述第二周期成分数对应的余弦拟合程度之间的显著差异性;基于所述待测试周期成分数对应的第一目标统计量,从所述待测试周期成分数中确定候选周期成分数;基于至少一个候选周期成分数分别对应的残差平方和,从所述至少一个候选周期成分数中确定最佳周期成分数
。3.
根据权利要求2所述的方法,其特征在于,所述基于所述第一残差平方和

所述第二残差平方和

所述第一差值和所述第二差值,确定所述待测试周期成分数对应的第一目标统计量包括:确定所述第一残差平方和与所述第二残差平方和之间的差值,得到第三差值;确定所述第三差值与所述第二残差平方和之比,得到第一比值;确定所述第一差值与所述第二差值之间的差异,并确定所述差异与所述第二差值之比,得到第二比值;将所述第一比值除以所述第二比值,得到所述待测试周期成分数对应的第一目标统计

。4.
根据权利要求1所述的方法,其特征在于,所述基于所述最佳周期成分数对应的余弦拟合结果,确定每个所述采样时间对应的预测业务数据,包括:基于预设对数链接函数,将所述最佳周期成分数所对应余弦拟合结果在每个采样时间的输出转换为非线性的预测值,得到每个所述采样时间对应的预测业务数据
。5.
根据权利要求1所述的方法,其特征在于,所述基于每个所述预设概率分布对应的分布拟合程度,从所述多个不同的预设概率分布中确定最佳预设概率分布,包括:对于所述多个不同的预设概率分布中的任意两个预设概率分布,基于所述预测业务数据集确定所述任意两个预设概率分布中每个预设概率分布对应的似然值,得到第一似然值和第二似然值;基于所述第一似然值与所述第二似然值之间的差值得到似然差值,基于所述第一似然值与所述第二似然值之间的比值得到对数似然比;确定所述任意两个预设概率分布中预设概率分布对应参数数量之间的差值,得到参数量差值;基于所述似然差值

所述对数似然比

所述参数量差值和所述预测业务数据集的长度,确定所述任意两个预设概率分布对应的第二目标统计量;基于所述任意两个预设概率分布所对应第二目标统计量的显著程度,从所述任意两个预设概率分布中确定候选预设概率分布;基于至少一个候选预设概率分布分别对应的分布拟合结果,确定每个候选预设概率分布对应目标信息准则...

【专利技术属性】
技术研发人员:石志林
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1