一种数据关联的方法及装置制造方法及图纸

技术编号：34846668 阅读：12 留言：0更新日期：2022-09-08 07:45

本申请提供了一种数据关联的方法及装置，涉及通信技术领域，该方法中，将多个待关联的数据文件合并得到第一数据文件；将第一数据文件中的记录按照第一字段的取值排序，得到第二数据文件；第二数据文件中第一字段的取值相同的记录按照第二字段的取值排序，得到第三数据文件；对第三数据文件中的记录进行处理。本申请的方法可以减少关联的计算量和由于字段的取值变化带来的误关联、漏关联，提高数据关联效率和准确性。效率和准确性。效率和准确性。

全部详细技术资料下载

【技术实现步骤摘要】
一种数据关联的方法及装置

[0001]本申请涉及通信
，尤其涉及一种数据关联的方法及装置。

技术介绍

[0002]测量报告(measurement report，MR)数据和XDR(详细记录，detailed record)数据是通信企业用于分析用户感知及网络运营状况的重要的数据源。其中，XDR数据包括控制面XDR数据和用户面XDR数据,表示语音呼叫业务的详细记录(call detailed record，CDR)、事务详细记录(transaction detailed record，TDR)、网际互联协议(internet protocol，IP)通信的详细记录(IP detailed record，IPDR)等数据中的一种。由于控制面XDR数据和用户面XDR数据由不同的设备采集，数据形成的方式和内容也有差异，因此控制面XDR数据和用户面XDR数据都是独立生成文件。
[0003]在应用XDR数据进行相应的分析(例如查看某个用户在做业务过程中切换小区的情况)时，为便于对同一用户对应的控制面XDR数据和用户面XDR数据进行统计分析或查询，会需要对控制面数据和用户面数据进行关联。在应用MR数据进行相应的分析时，由于MR数据中包含用户临时标识而不包含用户永久标识，而同一用户临时标识在不同时间可能分配给不同的用户，为便于对同一用户的MR数据进行统计分析，需要与包含用户永久标识的XDR数据进行关联，为MR数据的每个记录添加对应的用户永久标识。
[0004]目前，通信领域对于网络侧数据关联的方法主要是先通过...

【技术保护点】

【技术特征摘要】
1.一种数据关联的方法，其特征在于，包括：将多个待关联的数据文件合并得到第一数据文件，所述第一数据文件中包含n个记录，所述n个记录中每个记录对应m个字段，所述m的取值为所述多个待关联的数据文件中包含的不同字段的数量之和；所述n的取值为所述多个待关联的数据文件中包含的记录的数量之和；一个所述记录包含一个数据文件中的各个字段的一种取值；所述m和n的取值为正整数；将所述第一数据文件中的所述n个记录按照第一字段的取值排序，得到第二数据文件；所述第一字段用于表示用户标识；对于第二数据文件中第一字段的取值相同的记录按照第二字段的取值排序，得到第三数据文件；所述第二字段用于表示时间；基于所述第三数据文件，对所述第三数据文件中的记录进行处理。2.根据权利要求1所述的方法，其特征在于，所述多个待关联的数据文件包括控制面详细记录XDR数据和测量报告MR数据；所述用户标识为用户临时标识；所述基于所述第三数据文件，对所述第三数据文件中的记录进行处理，包括：若第一记录中的第三字段的取值为空，则将第二记录中的第三字段的取值写入所述第一记录中的第三字段；其中所述第二记录中所述第二字段的取值小于所述第一记录中第二字段的取值，且所述第二记录中所述第二字段的取值与所述第一记录中第二字段的取值最接近；所述第三字段用于表示用户永久标识。3.根据权利要求2所述的方法，其特征在于，所述控制面XDR数据文件中的记录对应的时间段包含所述MR数据文件中的记录对应的时间段。4.根据权利要求1所述的方法，其特征在于，所述多个待关联的数据文件包括控制面XDR数据和用户面XDR数据；所述用户标识为用户永久标识；所述基于所述第三数据文件，对所述第三数据文件中的记录进行处理，还包括：根据所述第一字段的取值将所述第三数据文件划分为多个子数据文件；对每个所述子数据文件标注所包含的记录对应的所述第一字段的取值的范围和所述第二字段的取值的范围。5.根据权利要求4所述的方法，其特征在于，所述控制面XDR数据和所述用户面XDR数据中的记录对应的时间段相同。6.根据权利要求4所述的方法，其特征在于，所述根据第三字段的取值将所述第三数据文件划分为多个子数据文件，包括：从所述第三数据文件中的第一个记录开始，若第i+1个记录与第i个记录的所述第一字段的取值的间隔小于等于预设值α，并且i小于等于预设值N1，则将所述第i+1个记录加入到第i个记录所在的子数据文件内，否则，将所述第i+1个记录作为下一个子数据文件的第一个记录；i、α、N1均为正整数。7.根据权利要求6所述的方法，其特征在于，所述预设值α的值为α＝M*D1，所述预设值N1的值为N1＝Num/N；其中，Num为所述第三数据文件中所述第一字段的不同取值的个数；N为预设的子数据文件个数；D1为所述第三数据文件中所述第一字段的取值的平均间隔，D1＝Dis/Num，Dis为所述第三数据文件中所述第
一字段的取值的最大值与最小值的差；M为预设倍数。8.一种数据关联的装置，其特征在于，包括：合并单元，用于将多个待关联的数据文...

【专利技术属性】
技术研发人员：李京辉，曹晓冬，郭省力，
申请(专利权)人：中国联合网络通信集团有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人