本发明专利技术公开了一种数据匹配方法、装置、电子设备及存储介质,该方法包括:获取多条待处理数据,并按照预设规则将多条待处理数据划分为待处理数据组;确定各待处理数据组中的两条待处理数据在同一特征字段下所对应的数据内容的字段相似度;根据当前特征字段的字段相似度和相应的预设字段相似度阈值,确定当前特征字段所对应的匹配结果,并基于匹配结果和相应的相似度影响参数,确定当前特征字段所对应的匹配属性值;根据当前待处理数据组中两条待处理数据在各特征字段下的匹配属性值,确定当前待处理数据组所对应的数据匹配属性值,以基于数据匹配属性值,确定当前待处理数据组所对应的数据匹配结果。本实施例的技术方案,提高了数据匹配精度。数据匹配精度。数据匹配精度。
【技术实现步骤摘要】
数据匹配方法、装置、电子设备及存储介质
[0001]本专利技术涉及数据治理
,尤其涉及一种数据匹配方法、装置、电子设备及存储介质。
技术介绍
[0002]随着信息技术的发展,互联网、云服务、物联网等各种新兴信息技术与医疗行业进行融合,其中,大数据系统的应用更是为健康医疗行业带来了前所未有的技术突破。随着大数据技术的不断发展,数据治理在医疗行业中的地位也越来越重要。
[0003]在数据治理过程中,将同一用户在不同医疗系统的就诊数据进行整合时,可能会出现不同医疗系统中同一用户就诊数据存在一定差异,从而导致无法将数据统一成同一数据形式。
[0004]目前,在对多条就诊数据进行匹配时,通常采用相似度算法,确定数据之间的字段重合率,以基于字段重合率,确定这些就诊数据是否相似。然而,当人工将这些数据判定为相似数据时,可能会出现基于相似度算法得到字段重合率很低的情况,导致计算机会将这些数据判定为不相似数据,从而可能导致基于计算机进行匹配时的匹配精度较低,影响数据治理效率。
技术实现思路
[0005]本专利技术提供了一种数据匹配方法、装置、电子设备及存储介质,以实现在保证数据匹配效率的前提下,提高数据匹配准确率的效果,进一步提高了数据治理效率。
[0006]根据本专利技术的一方面,提供了一种数据匹配方法,该方法包括:
[0007]获取多条待处理数据,并按照预设规则将所述多条待处理数据划分为至少一个待处理数据组;其中,每个待处理数据组中包括两条待处理数据,所述待处理数据中包括各特征字段所对应的数据内容;
[0008]确定各所述待处理数据组中所包括的两条待处理数据在同一特征字段下所对应的数据内容的字段相似度;
[0009]针对各所述特征字段,根据当前特征字段的字段相似度和相应的预设字段相似度阈值,确定所述当前特征字段所对应的匹配结果,并基于所述匹配结果和相应的相似度影响参数,确定与所述当前特征字段相对应的匹配属性值;其中,所述相似度影响参数包括正向影响参数或负向影响参数;
[0010]针对各所述待处理数据组,根据当前待处理数据组中所包括的两条待处理数据在各所述特征字段下的匹配属性值,确定与当前待处理数据组相对应的数据匹配属性值,以基于所述数据匹配属性值,确定当前待处理数据组所对应的数据匹配结果。
[0011]根据本专利技术的另一方面,提供了一种数据匹配装置,该装置包括:
[0012]数据组划分模块,用于获取多条待处理数据,并按照预设规则将所述多条待处理数据划分为至少一个待处理数据组;其中,每个待处理数据组中包括两条待处理数据,所述
待处理数据中包括各特征字段所对应的数据内容;
[0013]字段相似度确定模块,用于确定各所述待处理数据组中所包括的两条待处理数据在同一特征字段下所对应的数据内容的字段相似度;
[0014]匹配属性值确定模块,用于针对各所述特征字段,根据当前特征字段的字段相似度和相应的预设字段相似度阈值,确定所述当前特征字段所对应的匹配结果,并基于所述匹配结果和相应的相似度影响参数,确定与所述当前特征字段相对应的匹配属性值;其中,所述相似度影响参数包括正向影响参数或负向影响参数;
[0015]数据匹配属性值确定模块,用于针对各所述待处理数据组,根据当前待处理数据组中所包括的两条待处理数据在各所述特征字段下的匹配属性值,确定与当前待处理数据组相对应的数据匹配属性值,以基于所述数据匹配属性值,确定当前待处理数据组所对应的数据匹配结果。
[0016]根据本专利技术的另一方面,提供了一种电子设备,所述电子设备包括:
[0017]至少一个处理器;以及
[0018]与所述至少一个处理器通信连接的存储器;其中,
[0019]所述存储器存储有可被所述至少一个处理器执行的计算机程序,所述计算机程序被所述至少一个处理器执行,以使所述至少一个处理器能够执行本专利技术任一实施例所述的数据匹配方法。
[0020]根据本专利技术的另一方面,提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机指令,所述计算机指令用于使处理器执行时实现本专利技术任一实施例所述的数据匹配方法。
[0021]本专利技术实施例的技术方案,通过获取多条待处理数据,并按照预设规则将多条待处理数据划分为至少一个待处理数据组,然后,确定各待处理数据组中所包括的两条待处理数据在同一特征字段下所对应的数据内容的字段相似度,进一步的,针对各特征字段,根据当前特征字段所对应的字段相似度和相应的预设字段相似度阈值,确定当前特征字段所对应的匹配结果,并基于匹配结果和相应的相似度影响参数,确定与当前特征字段相对应的匹配属性值,最后,针对各待处理数据组,根据当前待处理数据组中所包括的两条待处理数据在各所述特征字段下的匹配属性值,确定与当前待处理数据组相对应的数据匹配属性值,以基于数据匹配属性值,确定当前待处理数据组所对应的数据匹配结果,解决了现有技术中基于相似度算法得到字段重合率很低的情况,导致计算机会将这些数据判定为不相似数据,从而可能导致基于计算机进行匹配时的匹配精度较低的问题,实现了在基于计算机对多条数据进行数据匹配时,提高数据匹配精度的效果,达到了在保证数据匹配效率的前提下,提高数据匹配准确率的效果,进一步提高了数据治理效率。
[0022]应当理解,本部分所描述的内容并非旨在标识本专利技术的实施例的关键或重要特征,也不用于限制本专利技术的范围。本专利技术的其它特征将通过以下的说明书而变得容易理解。
附图说明
[0023]为了更清楚地说明本专利技术实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他
的附图。
[0024]图1是根据本专利技术实施例一提供的一种数据匹配方法的流程图;
[0025]图2是根据本专利技术实施例二提供的一种数据匹配装置的结构示意图;
[0026]图3是实现本专利技术实施例的数据匹配方法的电子设备的结构示意图。
具体实施方式
[0027]为了使本
的人员更好地理解本专利技术方案,下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分的实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本专利技术保护的范围。
[0028]需要说明的是,本专利技术的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本专利技术的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的本文档来自技高网...
【技术保护点】
【技术特征摘要】
1.一种数据匹配方法,其特征在于,包括:获取多条待处理数据,并按照预设规则将所述多条待处理数据划分为至少一个待处理数据组;其中,每个待处理数据组中包括两条待处理数据,所述待处理数据中包括各特征字段所对应的数据内容;确定各所述待处理数据组中所包括的两条待处理数据在同一特征字段下所对应的数据内容的字段相似度;针对各所述特征字段,根据当前特征字段的字段相似度和相应的预设字段相似度阈值,确定所述当前特征字段所对应的匹配结果,并基于所述匹配结果和相应的相似度影响参数,确定与所述当前特征字段相对应的匹配属性值;其中,所述相似度影响参数包括正向影响参数或负向影响参数;针对各所述待处理数据组,根据当前待处理数据组中所包括的两条待处理数据在各所述特征字段下的匹配属性值,确定与当前待处理数据组相对应的数据匹配属性值,以基于所述数据匹配属性值,确定当前待处理数据组所对应的数据匹配结果;其中,所述基于所述匹配结果和相应的相似度影响参数,确定与所述当前特征字段相对应的匹配属性值,包括:若所述匹配结果为字段匹配,则基于所述特征字段的字段相似度和相应的正向影响参数,确定与所述特征字段相对应的匹配属性值;若所述匹配结果为字段不匹配,则将与所述特征字段相对应的负向影响参数作为与所述特征字段相对应的匹配属性值。2.根据权利要求1所述的方法,其特征在于,还包括:针对各所述特征字段,若检测到所述待处理数据在当前特征字段下所对应的数据内容为空值时,则根据与所述当前特征字段相对应的正向影响参数和负向影响参数,确定与所述当前特征字段相对应的匹配属性值。3.根据权利要求1所述的方法,其特征在于,所述根据当前特征字段的字段相似度和相应的预设字段相似度阈值,确定所述当前特征字段所对应的匹配结果,包括:针对各所述特征字段:若检测到当前特征字段的字段相似度大于等于与相应的预设字段相似度阈值,则确定匹配结果为字段匹配;若检测到当前特征字段的字段相似度小于与相应的预设字段相似度阈值时,则确定匹配结果为字段不匹配。4.根据权利要求1所述的方法,其特征在于,所述基于所述特征字段的字段相似度和相应的正向影响参数,确定与所述特征字段相对应的匹配属性值,包括:将与所述特征字段的字段相似度和相应的正向影响参数相乘,得到所述匹配属性值。5.根据权利要求1所述的方法,其特征在于,所述根据当前待处理数据组中所包括的两条待处理数据在各所述特征字段下的匹配属性值,确定与当前待处理数据组相对应的数据匹配属性值...
【专利技术属性】
技术研发人员:李登高,
申请(专利权)人:联仁健康医疗大数据科技股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。