System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本申请涉及数据处理,尤其涉及一种区间数据处理方法、装置、终端设备及存储介质。
技术介绍
1、在许多应用场景中,如时间序列分析、数据库查询、数据挖掘和交通流量监测数据处理等,需要对区间数据进行处理和匹配操作。传统的匹配方法在处理大规模区间数据集合时,往往面临效率低下和准确性不足的问题。
2、目前,一般使用区间树进行区间数据的匹配,但是使用区间树对区间数据进行匹配的过程中,若是直接使用从数据源获取到的数据进行匹配,可能存在数据质量过低的问题,从而导致匹配结果的准确度降低;但是若每次都对从数据源获取到的数据进行标准化处理后再进行匹配,会造成数据处理量的增大,从而导致匹配效率降低。因此如何在提高匹配结果准确度的同时提高匹配效率成为亟待解决的技术问题。
技术实现思路
1、本申请实施例提供了一种区间数据处理方法、装置、终端设备及存储介质,可以解决现有技术中区间数据匹配的准确度和匹配效率低的技术问题。
2、第一方面,本申请实施例提供了一种区间数据处理方法,包括:
3、获取原始区间数据集合,所述原始区间数据集合中的数据为交通流量监测数据;
4、对所述原始区间数据集合进行特征提取,得到所述原始区间数据集合的数据来源特征值、一致性特征值、准确度特征值、偏差特征值和完整性特征值;
5、根据所述数据来源特征值、所述一致性特征值、所述准确度特征值、所述偏差特征值和所述完整性特征值,通过数据质量评分公式计算得到所述原始区间数据集合的数据质量分值,所述
6、
7、式中,为数据质量分值;为第一权重值;;为第二权重值;;为第三权重值;;为第四权重值;;为第五权重值;;r为数据来源特征值;t为一致性特征值;a为准确度特征值;d为偏差特征值;i为完整性特征值;为第权重值;为第个特征值的调整函数;
8、在所述数据质量分值大于预设分值阈值的情况下,根据所述原始区间数据集合中原始区间数据的数量将所述原始区间数据集合中的区间数据插入初始空区间树,得到待匹配区间树;
9、将所述待匹配区间树与目标区间进行匹配,得到所述原始区间数据集合的匹配结果。
10、进一步地,所述调整函数为:;;;;。
11、进一步地,所述对所述原始区间数据集合进行特征提取,得到所述原始区间数据集合的数据来源特征值、一致性特征值、准确度特征值、偏差特征值和完整性特征值,包括:
12、获取所述原始区间数据集合的数据来源和数据更新频率;
13、根据所述数据来源,在预设映射关系表中查找得到所述原始区间数据集合的基础分值;
14、根据所述数据更新频率,确定分值系数;
15、根据所述基础分值和所述分值系数,确定所述原始区间数据集合的数据来源特征值;以及
16、获取所述原始区间数据集合中区间数据的数据类型和标准数据类型;
17、根据所述数据类型和所述标准数据类型,确定所述原始区间数据集合的非标准区间数据的数据量;
18、根据所述数据量,通过一致性特征值计算公式计算得到所述原始区间数据集合的一致性特征值,所述一致性特征值计算公式为:
19、
20、式中,为数据量。
21、进一步地,所述对所述原始区间数据集合进行特征提取,得到所述原始区间数据集合的数据来源特征值、一致性特征值、准确度特征值、偏差特征值和完整性特征值,还包括:
22、从所述原始区间数据集合中随机选取预设数量的目标区间数据并获取预设参考区间;
23、针对各个目标区间数据,根据相应目标区间数据的端点值和所述预设参考区间的端点值,确定各目标区间数据与所述预设参考区间的重叠长度;
24、获取各个目标区间数据的目标区间长度和所述预设参考区间的参考区间长度;
25、根据所述各个目标区间长度和所述参考区间长度,确定各目标区间数据对应的比例系数;
26、在所述比例系数小于一的情况下,根据所述目标区间数据和所述预设参考区间,通过偏离量计算公式计算得到各目标区间数据对应的端点偏离量,所述偏离量计算公式为:
27、
28、
29、式中,为左端点偏离量;为第个目标区间数据的左端点值;为预设参考区间的左端点值;为右端点偏离量;为第个目标区间数据的右端点值;为预设参考区间的右端点值;为参考区间长度;
30、根据所述左端点偏离量、所述右端点偏离量和所述比例系数,通过偏离程度计算公式计算得到所述各目标区间数据的偏离程度,所述偏离程度计算公式为:
31、
32、式中,为第个目标区间数据的偏离程度;为第个目标区间数据的比例系数;
33、获取各目标区间数据在所述原始区间数据集合中的位置索引;
34、根据各目标区间数据的位置索引和所述目标区间长度,通过权重计算公式计算得到各目标区间数据对应的区间权重,所述权重计算公式为:
35、
36、式中,为第个目标区间数据的区间权重;m为目标区间数据的数量;为第个目标区间数据的目标区间长度;为第个目标区间数据的位置索引;
37、根据各目标区间数据对应的区间权重和偏离程度,通过准确度特征值计算公式计算得到所述原始区间数据集合的准确度特征值,所述准确度特征值计算公式为:
38、。
39、进一步地,所述对所述原始区间数据集合进行特征提取,得到所述原始区间数据集合的数据来源特征值、一致性特征值、准确度特征值、偏差特征值和完整性特征值,还包括:
40、根据所述各目标区间数据的左端点值和右端点值,以及所述预设参考区间的左端点值和右端点值,根据偏差特征值计算公式计算得到所述原始区间数据集合的偏差特征值,所述偏差特征值计算公式为:
41、
42、进一步地,所述对所述原始区间数据集合进行特征提取,得到所述原始区间数据集合的数据来源特征值、一致性特征值、准确度特征值、偏差特征值和完整性特征值,还包括:
43、获取所述目标区间数据的数据缺失占比;
44、根据所述数据缺失占比,通过完整性特征值计算公式计算得到所述原始区间数据集合的完整性特征值,所述完整性特征值计算公式为:
45、
46、式中,为调节系数;为数据缺失占比。
47、进一步地,所述在所述数据质量分值大于预设分值阈值的情况下,根据所述原始区间数据集合中原始区间数据的数量将所述原始区间数据集合中的区间数据插入初始空区间树,得到待匹配区间树,包括:
48、在所述数据质量分值大于预设分值阈值的情况下,获取所述原始区间数据集合中原始区间数据的数量;
49、若所述原始区间数据的数量大于预设分割数量,则获取当前设备的处理器速度、内存大小、存储速度、处理器核心数、处理器缓存大小和网络带宽,所述当前设备为对所述原始区间数据集本文档来自技高网...
【技术保护点】
1.一种区间数据处理方法,其特征在于,所述方法包括:
2.如权利要求1所述的方法,其特征在于,所述调整函数为:;;;;。
3.如权利要求1所述的方法,其特征在于,所述对所述原始区间数据集合进行特征提取,得到所述原始区间数据集合的数据来源特征值、一致性特征值、准确度特征值、偏差特征值和完整性特征值,包括:
4.如权利要求1至3任一项所述的方法,其特征在于,所述对所述原始区间数据集合进行特征提取,得到所述原始区间数据集合的数据来源特征值、一致性特征值、准确度特征值、偏差特征值和完整性特征值,还包括:
5.如权利要求4所述的方法,其特征在于,所述对所述原始区间数据集合进行特征提取,得到所述原始区间数据集合的数据来源特征值、一致性特征值、准确度特征值、偏差特征值和完整性特征值,还包括:
6.如权利要求4所述的方法,其特征在于,所述对所述原始区间数据集合进行特征提取,得到所述原始区间数据集合的数据来源特征值、一致性特征值、准确度特征值、偏差特征值和完整性特征值,还包括:
7.如权利要求1至3任一项所述的方法,其特征在于
8.一种区间数据处理装置,其特征在于,包括:
9.一种终端设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至7任一项所述的方法。
10.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7任一项所述的方法。
...【技术特征摘要】
1.一种区间数据处理方法,其特征在于,所述方法包括:
2.如权利要求1所述的方法,其特征在于,所述调整函数为:;;;;。
3.如权利要求1所述的方法,其特征在于,所述对所述原始区间数据集合进行特征提取,得到所述原始区间数据集合的数据来源特征值、一致性特征值、准确度特征值、偏差特征值和完整性特征值,包括:
4.如权利要求1至3任一项所述的方法,其特征在于,所述对所述原始区间数据集合进行特征提取,得到所述原始区间数据集合的数据来源特征值、一致性特征值、准确度特征值、偏差特征值和完整性特征值,还包括:
5.如权利要求4所述的方法,其特征在于,所述对所述原始区间数据集合进行特征提取,得到所述原始区间数据集合的数据来源特征值、一致性特征值、准确度特征值、偏差特征值和完整性特征值,还包括:
6.如权利要求4所述的方法,其特征在于...
【专利技术属性】
技术研发人员:左正康,张晗庆,游珍,王昌晶,黄箐,吴嘉伟,
申请(专利权)人:江西师范大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。