一种数据关联的方法及装置制造方法及图纸

技术编号:34846668 阅读:12 留言:0更新日期:2022-09-08 07:45
本申请提供了一种数据关联的方法及装置,涉及通信技术领域,该方法中,将多个待关联的数据文件合并得到第一数据文件;将第一数据文件中的记录按照第一字段的取值排序,得到第二数据文件;第二数据文件中第一字段的取值相同的记录按照第二字段的取值排序,得到第三数据文件;对第三数据文件中的记录进行处理。本申请的方法可以减少关联的计算量和由于字段的取值变化带来的误关联、漏关联,提高数据关联效率和准确性。效率和准确性。效率和准确性。

【技术实现步骤摘要】
一种数据关联的方法及装置


[0001]本申请涉及通信
,尤其涉及一种数据关联的方法及装置。

技术介绍

[0002]测量报告(measurement report,MR)数据和XDR(详细记录,detailed record)数据是通信企业用于分析用户感知及网络运营状况的重要的数据源。其中,XDR数据包括控制面XDR数据和用户面XDR数据,表示语音呼叫业务的详细记录(call detailed record,CDR)、事务详细记录(transaction detailed record,TDR)、网际互联协议(internet protocol,IP)通信的详细记录(IP detailed record,IPDR)等数据中的一种。由于控制面XDR数据和用户面XDR数据由不同的设备采集,数据形成的方式和内容也有差异,因此控制面XDR数据和用户面XDR数据都是独立生成文件。
[0003]在应用XDR数据进行相应的分析(例如查看某个用户在做业务过程中切换小区的情况)时,为便于对同一用户对应的控制面XDR数据和用户面XDR数据进行统计分析或查询,会需要对控制面数据和用户面数据进行关联。在应用MR数据进行相应的分析时,由于MR数据中包含用户临时标识而不包含用户永久标识,而同一用户临时标识在不同时间可能分配给不同的用户,为便于对同一用户的MR数据进行统计分析,需要与包含用户永久标识的XDR数据进行关联,为MR数据的每个记录添加对应的用户永久标识。
[0004]目前,通信领域对于网络侧数据关联的方法主要是先通过将待关联的数据文件中的关键字段(例如用户临时标识MME_UE_S1AP_ID)进行一一比对,确定相关联的关键字段(取值相同的关键字段),再通过相关联的关键字段所在的数据路径查找其他字段确定需要的关联数据,例如MR数据的每个记录对应的用户永久标识。专利技术人研究中发现,上述方法存在以下问题:首先,由于XDR数据和MR数据都是用户级数据,数据量非常庞大,按照这种关联方法,效率很低甚至在有效时间内无法完成关联。其次,对于比较复杂的关联,如某一用户的MR数据的用户临时标识在某时刻分配给了其他用户,如果对包含这一时刻的某时间段内的MR数据与XDR数据采用关键字段一一比对的方式,会关联到错误用户,若该时间段内还包括为该用户分配的另一用户临时标识,会造成漏关联。

技术实现思路

[0005]本申请提供了一种数据关联的方法及装置,用于解决数据关联过程效率低的问题。
[0006]为达到上述目的,本申请采用如下技术方案。
[0007]本申请提供的数据关联的方法,针对不同关联场景的需求分别采用不同的方式进行关联。
[0008]第一方面,本申请提供一种数据关联的方法,将多个待关联的数据文件合并得到第一数据文件,第一数据文件中包含m个字段,m的取值为多个待关联的数据文件中包含的不同字段的数量之和;第一数据文件包括含n个记录;n的取值为多个待关联的数据文件中
包含的记录的数量之和;一个记录包含一个数据文件中的各个字段的一种取值;m和n的取值为正整数;将第一数据文件中的n个记录按照第一字段的取值排序,得到第二数据文件;第一字段用于表示用户标识;对于第二数据文件中第一字段的取值相同的记录按照第二字段的取值排序,得到第三数据文件;第二字段用于表示时间;基于第三数据文件,对第三数据文件中的记录进行处理。
[0009]本申请提供的数据关联的方法,将待关联的数据文件合并,对合并后的数据文件中的记录按照用户标识字段的取值排序,再对排序后的用户标识字段的取值相同的记录按照时间字段的取值排序,对上述步骤得到的数据文件中的记录进行处理。本方法与对关键字段一一比对的方式相比计算量小,可以提高关联效率,通过合并、按照用户标识和时间进行两次排序后再进行后续处理可以减少由于用户标识变化带来的错关联和漏关联情况,提高数据关联的准确性、完整性。
[0010]在一种可能的实现方式中,多个待关联的数据文件包括控制面详细记录XDR数据和测量报告MR数据;用户标识为用户临时标识;基于第三数据文件,对第三数据文件中的记录进行处理,包括:若第一记录中的第三字段的取值为空,则将第二记录中的第三字段的取值写入第一记录中的第三字段;其中第二记录中第二字段的取值小于第一记录中第二字段的取值,且第二记录中第二字段的取值与第一记录中第二字段的取值最接近;第三字段用于表示用户永久标识。
[0011]可选的,控制面XDR数据文件中的记录对应的时间段包含MR数据文件中的记录对应的时间段。
[0012]在上述实现方式中,对合并、按用户标识和时间排序后的数据文件中用户永久标识字段的取值为空的记录,确定时间在其之前且时间最接近的记录,将该记录的用户永久标识的取值填入对应的用户永久标识的取值为空的记录中。通过按照时间就近关联的方式可以减少由于用户临时标识变化带来的错关联和漏关联情况,提高数据关联的准确性、完整性。
[0013]在一种可能的实现方式中,多个待关联的数据文件包括控制面XDR数据和用户面XDR数据时;用户标识为用户永久标识;基于第三数据文件,对第三数据文件中的记录进行处理,包括:根据第一字段的取值将第三数据文件划分为多个子数据文件;对每个子数据文件标注所包含的记录对应的第一字段的取值的范围和第二字段的取值的范围。
[0014]可选的,控制面XDR数据和用户面XDR数据中的记录对应的时间段相同。
[0015]示例性的,根据第一字段的取值将第三数据文件划分为多个子数据文件,包括:从第三数据文件中的第一个记录开始,若第i+1个记录与第i个记录的第一字段的取值的间隔小于等于预设值α,并且i小于等于预设值N1,则将第i+1个记录加入到第i个记录所在的子数据文件内,否则,将第i+1个记录作为下一个子数据文件的第一个记录;i、α、N1均为正整数。
[0016]示例性的,预设值α的值为α=M*D1,预设值N1的值为N1=Num/N;其中,Num为第三数据文件中第一字段的不同取值的个数;N为预设的子数据文件个数;D1为第三数据文件中第一字段的取值的平均间隔,D1=Dis/Num,Dis为第三数据文件中第一字段的取值的最大值与最小值的差;M为预设倍数。
[0017]在上述实现方式中,根据用户标识的取值划分为多个子数据文件并对每个子数据
文件标注所包含的记录对应的用户标识的范围和时间的范围可以使查询关联数据更高效。
[0018]第二方面,本申请提供一种数据关联的装置,用于执行第一方面或第一方面中任一种可能的实现方式所述的方法。该装置可以包括合并单元、排序单元和处理单元。
[0019]第三方面,本申请提供一种电子设备,包括存储器、处理器和通信接口。存储器用于存储计算机执行指令;通信接口用于与其他设备或通信网络通信;处理器执行所述存储器存储的计算机执行指令,以使计算机执行第一方面所述的数据关联的方法。
[0020]第四方面,本申请提供一种计算机可读存储介质,计算机可读存储介质中存储有一个或多个程序,一个或本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种数据关联的方法,其特征在于,包括:将多个待关联的数据文件合并得到第一数据文件,所述第一数据文件中包含n个记录,所述n个记录中每个记录对应m个字段,所述m的取值为所述多个待关联的数据文件中包含的不同字段的数量之和;所述n的取值为所述多个待关联的数据文件中包含的记录的数量之和;一个所述记录包含一个数据文件中的各个字段的一种取值;所述m和n的取值为正整数;将所述第一数据文件中的所述n个记录按照第一字段的取值排序,得到第二数据文件;所述第一字段用于表示用户标识;对于第二数据文件中第一字段的取值相同的记录按照第二字段的取值排序,得到第三数据文件;所述第二字段用于表示时间;基于所述第三数据文件,对所述第三数据文件中的记录进行处理。2.根据权利要求1所述的方法,其特征在于,所述多个待关联的数据文件包括控制面详细记录XDR数据和测量报告MR数据;所述用户标识为用户临时标识;所述基于所述第三数据文件,对所述第三数据文件中的记录进行处理,包括:若第一记录中的第三字段的取值为空,则将第二记录中的第三字段的取值写入所述第一记录中的第三字段;其中所述第二记录中所述第二字段的取值小于所述第一记录中第二字段的取值,且所述第二记录中所述第二字段的取值与所述第一记录中第二字段的取值最接近;所述第三字段用于表示用户永久标识。3.根据权利要求2所述的方法,其特征在于,所述控制面XDR数据文件中的记录对应的时间段包含所述MR数据文件中的记录对应的时间段。4.根据权利要求1所述的方法,其特征在于,所述多个待关联的数据文件包括控制面XDR数据和用户面XDR数据;所述用户标识为用户永久标识;所述基于所述第三数据文件,对所述第三数据文件中的记录进行处理,还包括:根据所述第一字段的取值将所述第三数据文件划分为多个子数据文件;对每个所述子数据文件标注所包含的记录对应的所述第一字段的取值的范围和所述第二字段的取值的范围。5.根据权利要求4所述的方法,其特征在于,所述控制面XDR数据和所述用户面XDR数据中的记录对应的时间段相同。6.根据权利要求4所述的方法,其特征在于,所述根据第三字段的取值将所述第三数据文件划分为多个子数据文件,包括:从所述第三数据文件中的第一个记录开始,若第i+1个记录与第i个记录的所述第一字段的取值的间隔小于等于预设值α,并且i小于等于预设值N1,则将所述第i+1个记录加入到第i个记录所在的子数据文件内,否则,将所述第i+1个记录作为下一个子数据文件的第一个记录;i、α、N1均为正整数。7.根据权利要求6所述的方法,其特征在于,所述预设值α的值为α=M*D1,所述预设值N1的值为N1=Num/N;其中,Num为所述第三数据文件中所述第一字段的不同取值的个数;N为预设的子数据文件个数;D1为所述第三数据文件中所述第一字段的取值的平均间隔,D1=Dis/Num,Dis为所述第三数据文件中所述第
一字段的取值的最大值与最小值的差;M为预设倍数。8.一种数据关联的装置,其特征在于,包括:合并单元,用于将多个待关联的数据文...

【专利技术属性】
技术研发人员:李京辉曹晓冬郭省力
申请(专利权)人:中国联合网络通信集团有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1