数据匹配方法、装置、电子设备及存储介质制造方法及图纸

技术编号：38135567 阅读：24 留言：0更新日期：2023-07-08 09:46

本发明专利技术公开了一种数据匹配方法、装置、电子设备及存储介质，该方法包括：获取多条待处理数据，并按照预设规则将多条待处理数据划分为待处理数据组；确定各待处理数据组中的两条待处理数据在同一特征字段下所对应的数据内容的字段相似度；根据当前特征字段的字段相似度和相应的预设字段相似度阈值，确定当前特征字段所对应的匹配结果，并基于匹配结果和相应的相似度影响参数，确定当前特征字段所对应的匹配属性值；根据当前待处理数据组中两条待处理数据在各特征字段下的匹配属性值，确定当前待处理数据组所对应的数据匹配属性值，以基于数据匹配属性值，确定当前待处理数据组所对应的数据匹配结果。本实施例的技术方案，提高了数据匹配精度。数据匹配精度。数据匹配精度。

全部详细技术资料下载

【技术实现步骤摘要】
数据匹配方法、装置、电子设备及存储介质

[0001]本专利技术涉及数据治理
，尤其涉及一种数据匹配方法、装置、电子设备及存储介质。

技术介绍

[0002]随着信息技术的发展，互联网、云服务、物联网等各种新兴信息技术与医疗行业进行融合，其中，大数据系统的应用更是为健康医疗行业带来了前所未有的技术突破。随着大数据技术的不断发展，数据治理在医疗行业中的地位也越来越重要。
[0003]在数据治理过程中，将同一用户在不同医疗系统的就诊数据进行整合时，可能会出现不同医疗系统中同一用户就诊数据存在一定差异，从而导致无法将数据统一成同一数据形式。
[0004]目前，在对多条就诊数据进行匹配时，通常采用相似度算法，确定数据之间的字段重合率，以基于字段重合率，确定这些就诊数据是否相似。然而，当人工将这些数据判定为相似数据时，可能会出现基于相似度算法得到字段重合率很低的情况，导致计算机会将这些数据判定为不相似数据，从而可能导致基于计算机进行匹配时的匹配精度较低，影响数据治理效率。

技术实现思路

[0005]本专利技术提供了一种数据匹配方法、装置、电子设备及存储介质，以实现在保证数据匹配效率的前提下，提高数据匹配准确率的效果，进一步提高了数据治理效率。
[0006]根据本专利技术的一方面，提供了一种数据匹配方法，该方法包括：
[0007]获取多条待处理数据，并按照预设规则将所述多条待处理数据划分为至少一个待处理数据组；其中，每个待处理数据组中包括两条待处理数据，所述待处理数据中包括各特征...

【技术保护点】

【技术特征摘要】
1.一种数据匹配方法，其特征在于，包括：获取多条待处理数据，并按照预设规则将所述多条待处理数据划分为至少一个待处理数据组；其中，每个待处理数据组中包括两条待处理数据，所述待处理数据中包括各特征字段所对应的数据内容；确定各所述待处理数据组中所包括的两条待处理数据在同一特征字段下所对应的数据内容的字段相似度；针对各所述特征字段，根据当前特征字段的字段相似度和相应的预设字段相似度阈值，确定所述当前特征字段所对应的匹配结果，并基于所述匹配结果和相应的相似度影响参数，确定与所述当前特征字段相对应的匹配属性值；其中，所述相似度影响参数包括正向影响参数或负向影响参数；针对各所述待处理数据组，根据当前待处理数据组中所包括的两条待处理数据在各所述特征字段下的匹配属性值，确定与当前待处理数据组相对应的数据匹配属性值，以基于所述数据匹配属性值，确定当前待处理数据组所对应的数据匹配结果；其中，所述基于所述匹配结果和相应的相似度影响参数，确定与所述当前特征字段相对应的匹配属性值，包括：若所述匹配结果为字段匹配，则基于所述特征字段的字段相似度和相应的正向影响参数，确定与所述特征字段相对应的匹配属性值；若所述匹配结果为字段不匹配，则将与所述特征字段相对应的负向影响参数作为与所述特征字段相对应的匹配属性值。2.根据权利要求1所述的方法，其特征在于，还包括：针对各所述特征字段，若检测到所述待处理数据在当前特征字段下所对应的数据内容为空值时，则根据与所述当前特征字段相对应的正向影响参数和负向影响参数，确定与所述当前特征字段相对应的匹配属性值。3.根据权利要求1所述的方法，其特征在于，所述根据当前特征字段的字段相似度和相应的预设字段相似度阈值，确定所述当前特征字段所对应的匹配结果，包括：针对各所述特征字段：若检测到当前特征字段的字段相似度大于等于与相应的预设字段相似度阈值，则确定匹配结果为字段匹配；若检测到当前特征字段的字段相似度小于与相应的预设字段相似度阈值时，则确定匹配结果为字段不匹配。4.根据权利要求1所述的方法，其特征在于，所述基于所述特征字段的字段相似度和相应的正向影响参数，确定与所述特征字段相对应的匹配属性值，包括：将与所述特征字段的字段相似度和相应的正向影响参数相乘，得到所述匹配属性值。5.根据权利要求1所述的方法，其特征在于，所述根据当前待处理数据组中所包括的两条待处理数据在各所述特征字段下的匹配属性值，确定与当前待处理数据组相对应的数据匹配属性值...

【专利技术属性】
技术研发人员：李登高，
申请(专利权)人：联仁健康医疗大数据科技股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人