一种以采集频率与范围为权重的数据关联度计算方法技术

技术编号:37526441 阅读:9 留言:0更新日期:2023-05-12 15:51
本发明专利技术涉及数据处理技术领域,尤其涉及一种以采集频率与范围为权重的数据关联度计算方法,具体包括:实时接入采集的原始轨迹数据A和原始轨迹数据B;对原始轨迹数据A进行分组处理;对原始轨迹数据A进行排序和批次划分,并去重;筛选得到目标设备采集范围内的原始轨迹数据B的关联设备;对原始轨迹数据B的关联设备采集的数据进行筛选,提取得到同一时间段范围内的数据集合;根据目标设备采集的数据和关联设备采集的数据,计算总关联度。本发明专利技术提出的计算方法,根据每个设备的有效采集范围和采集频率作为影响因子,将采集设备的差异性作为权重因素进行量化并带入计算,对关联的数据关联度进行加权修正,具有可靠性高、动态可调的优点。动态可调的优点。动态可调的优点。

【技术实现步骤摘要】
一种以采集频率与范围为权重的数据关联度计算方法


[0001]本专利技术涉及数据处理
,尤其涉及一种以采集频率与范围为权重的数据关联度计算方法。

技术介绍

[0002][0003]公开了申请号为CN202210063001.5的一种图码关联强度计算方法、装置、设备及存储介质,在预设区域内实时采集人脸图片和手机IMSI轨迹,生成人脸集合和IMSI集合;遍历人脸集合,得到目标人员的关联IMSI集合;遍历IMSI集合,得到目标手机的关联人脸集合;根据点式互信息计算人脸图片和手机IMSI的关联强度。
[0004]在上述的算法中,区域是预先设置的,不支持根据设备的采集范围进行动态调整,然而在实际应用中,每个设备因为制式的不同,其采集范围和采集频率都不一样;同时对数据去重时没有考虑设备的采集频率,会出现不是同一个采集周期内的数据被去重的情况,这会影响数据关联度计算结果的准确性。

技术实现思路

[0005]针对现有技术的不足,本专利技术提出了一种以采集频率与范围为权重的数据关联度计算方法,其目的是能够根据每个设备的有效采集范围和采集频率作为影响因子,对关联的数据关联度进行加权修正,以得到准确的关联度结果。
[0006]为了实现上述目的,本专利技术通过如下的技术方案来实现:一种以采集频率与范围为权重的数据关联度计算方法,所述方法包括:实时接入采集的原始轨迹数据A和原始轨迹数据B;对原始轨迹数据A进行分组处理;对原始轨迹数据A进行排序和批次划分,并去重;筛选得到目标设备采集范围内的原始轨迹数据B的关联设备;对原始轨迹数据B的关联设备采集的数据进行筛选,提取得到同一时间段范围内的数据集合;根据目标设备采集的数据和关联设备采集的数据,计算总关联度。
[0007]作为本专利技术的一种优选方案,所述原始轨迹数据A和原始轨迹数据B为车辆轨迹数据、原始人脸图片数据和原始IMSI轨迹数据中的任意两种。
[0008]作为本专利技术的一种优选方案,对原始轨迹数据A进行分组处理,具体包括:对原始轨迹数据A进行预处理,根据设备编号对所述原始轨迹数据A进行分组,分组后的数据集合记为A={A1,A2,...,A
n
};其中A1表示设备编号为1采集的数据集合,A2表示设备编号为2采集的数据集合,A
n
表示设备编号为n采集的数据集合。
[0009]作为本专利技术的一种优选方案,对原始轨迹数据A进行排序和批次划分,并去重,具体包括:设目标设备的编号为i,根据编号i获取目标设备的基本信息,所述基本信息包括采
集半径、采集频率和上报周期;提取编号为i的目标设备采集的数据集合A
i
,对数据集合A
i
内的原始轨迹数据按采集时间由小到大进行排序;再根据采集频率和上报周期,对排序之后的数据集合A
i
内的原始轨迹数据进行批次划分,并对同一批次内的原始轨迹数据进行去重,得到无重复数据的批次集合A
i
={A
i1
,A
i2
,...,A
in
};其中,A
i1
为数据集合A
i
内第1个数据的批次集合,A
i2
为数据集合A
i
内第2个数据的批次集合,A
in
为数据集合A
i
内第n个数据的批次集合;提取数据集合A
i
内第f个数据的批次集合A
if
,生成批次的开始时间fs和结束时间fe。
[0010]作为本专利技术的一种优选方案,筛选得到目标设备采集范围内的原始轨迹数据B的关联设备,具体包括:根据目标设备的采集半径,筛选得到目标设备有效采集范围内的原始轨迹数据B的采集设备集合B
m
={B
k
,B
j
...} ,其中B
k
表示设备编号为k的采集设备,B
j
表示设备编号为j的采集设备。
[0011]作为本专利技术的一种优选方案,对原始轨迹数据B的关联设备采集的数据进行筛选,提取得到同一时间段范围内的数据集合,具体包括:对原始轨迹数据B的采集设备集合B
m
进行筛选,提取得到fs~fe时间段范围内的所有原始轨迹数据B的数据集合B
f

[0012]作为本专利技术的一种优选方案,根据目标设备采集的数据和关联设备采集的数据,计算总关联度,具体包括:根据目标设备的批次集合A
if
和关联设备的数据集合B
f
,分别计算单组合单批次和单组合多批次的关联度;单组合单批次的关联度的计算公式为:其中:表示编号为i的目标设备的第f个数据的批次集合A
if
,关联任意一个原始轨迹数据B的关联度;表示在fs~fe时间段范围内,关联的原始轨迹数据B去重之后的总数;表示编号为i的目标设备的采集半径对应的权重系数;单组合多批次的关联度的计算公式为:其中:表示关联度在目标设备采集的批次集合A
i
中所占的权重系数;根据单组合单批次和单组合多批次的关联度计算总关联度,计算公式为:。本专利技术的有益效果是:本专利技术提出的数据关联度计算方法,在计算关联数据之间关联度时,根据每个设备的有效采集范围和采集频率作为影响因子,将采集设备的差异性作为权重因素进行量化并带入计算,对关联的数据关联度进行加权修正,具有可靠性高、动态可调的优点。
附图说明
[0013]为了更清楚地说明本专利技术实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。其中:图1为本专利技术优选实施例中的方法流程图。
实施方式
[0014]为使本专利技术实施例的目的、技术方案和优点更加清楚,下面将结合本专利技术实施例的附图,对本专利技术实施例的技术方案进行清楚、完整地描述。显然,所描述的实施例是本专利技术的一部分实施例,而不是全部的实施例。基于所描述的本专利技术的实施例,本领域普通技术人员所获得的所有其他实施例,都属于本专利技术保护的范围。
[0015]实施例1:如图1所示,该实施例提供了一种以采集频率与范围为权重的数据关联度计算方法,包括如下步骤:步骤S1:实时接入采集的原始轨迹数据A和原始轨迹数据B;原始轨迹数据A和原始轨迹数据B为车辆轨迹数据、原始人脸图片数据和原始IMSI轨迹数据中的任意两种。
[0016]步骤S2:对原始轨迹数据A进行分组处理;对原始轨迹数据A进行预处理,根据设备编号对原始轨迹数据A进行分组,分组后的数据集合记为A={A1,A2,...,A
n
};其中A1表示设备编号为1采集的数据集合,A2表示设备编号为2采集的数据集合,A
n
表示设备编号为n采集的数据集合。
[0017]步骤S3:对原始轨迹数据A进行排序和批次划分,并去重;设本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种以采集频率与范围为权重的数据关联度计算方法,其特征在于,所述方法包括:实时接入采集的原始轨迹数据A和原始轨迹数据B;对原始轨迹数据A进行分组处理;对原始轨迹数据A进行排序和批次划分,并去重;筛选得到目标设备采集范围内的原始轨迹数据B的关联设备;对原始轨迹数据B的关联设备采集的数据进行筛选,提取得到同一时间段范围内的数据集合;根据目标设备采集的数据和关联设备采集的数据,计算总关联度。2.如权利要求1所述的一种以采集频率与范围为权重的数据关联度计算方法,其特征在于,所述原始轨迹数据A和原始轨迹数据B为车辆轨迹数据、原始人脸图片数据和原始IMSI轨迹数据中的任意两种。3.如权利要求2所述的一种以采集频率与范围为权重的数据关联度计算方法,其特征在于,对原始轨迹数据A进行分组处理,具体包括:对原始轨迹数据A进行预处理,根据设备编号对所述原始轨迹数据A进行分组,分组后的数据集合记为A={A1,A2,...,A
n
};其中A1表示设备编号为1采集的数据集合,A2表示设备编号为2采集的数据集合,A
n
表示设备编号为n采集的数据集合。4.如权利要求3所述的一种以采集频率与范围为权重的数据关联度计算方法,其特征在于,对原始轨迹数据A进行排序和批次划分,并去重,具体包括:设目标设备的编号为i,根据编号i获取目标设备的基本信息,所述基本信息包括采集半径、采集频率和上报周期;提取编号为i的目标设备采集的数据集合A
i
,对数据集合A
i
内的原始轨迹数据按采集时间由小到大进行排序;再根据采集频率和上报周期,对排序之后的数据集合A
i
内的原始轨迹数据进行批次划分,并对同一批次内的原始轨迹数据进行去重,得到无重复数据的批次集合A
i
={A
i1
,A
i2
,...,A
in
};其中,A
i1
为数据集合A
i
内第1个数据的批次集合,A
i2
为数据集合A...

【专利技术属性】
技术研发人员:胡业勇王亚飞张鹏
申请(专利权)人:南京小唐安朴科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1