本发明专利技术公开了数据清洗方法、装置、计算机设备及存储介质,属于计算机技术领域。本发明专利技术的数据清洗方法可自动将获取的用于清洗数据的规则信息转换为规则链路网络,无需人工手动将规则信息转换为规则代码,减少了人力物力、效率快,可适应多种场景;通过待处理信息与规则链路网络匹配,进而可以快速的获取与规则链路数据匹配的待处理匹配数据,基于规则链路数据对待处理匹配数据进行简化、合并处理得到与待处理信息对应的目标信息,以便于对清洗后的目标数据进行相应处理。目标数据进行相应处理。目标数据进行相应处理。
【技术实现步骤摘要】
数据清洗方法、装置、计算机设备及存储介质
[0001]本专利技术涉及计算机
,尤其涉及数据清洗方法、装置、计算机设备及存储介质。
技术介绍
[0002]随着信息技术的发展,信息的数量和种类也呈现井喷式增长。为了避免对数据处理(如:利润预测)时全量信息过载,可根据数据处理的需求,在对数据处理之前对数据进行相应清洗,以便将合并简化后的数据对接到相应的系统中进行处理。例如:在保险领域中,进行利润预测时为了避免保险保单(下文简称保单)的全量信息过载,需先将保单中具有相似属性(例如:年龄、性别、渠道等)的数据合并(即:数据清洗),以简化数据量,提升利润预测的处理。
[0003]随着信息数量和种类越来越多,数据清洗规则越来越复杂,其主要是通过硬编码的方式实现,分支结构众多、嵌套层数多、代码量大、不易于维护(代码修改困难、容易出错),且与系统代码耦合在一块,已无法满足多样化的场景需求。在实际应用中,为了适应不同的需求代码人员需根据业务要求撰写相应的代码,以便于基于对清洗规则代码实现对数据清洗的目的,这样操作耗时长、效率低。
技术实现思路
[0004]针对现有数据清洗规则无法满足多样化场景需求的问题,现提供一种旨在可满足多样化场景需求的数据清洗方法、装置、计算机设备及存储介质。
[0005]为实现上述目的,本专利技术提供一种数据清洗方法,包括:
[0006]获取用于清洗数据的规则信息,将所述规则信息转换为规则链路网络;
[0007]接收待处理信息,采用Rete算法将所述待处理信息与所述规则链路网络匹配,获取所述待处理信息中的待处理匹配数据以及与所述待处理匹配数据匹配的所述规则链路网络中的规则链路数据;
[0008]基于所述规则链路数据对所述待处理匹配数据进行清洗,以获取目标信息。
[0009]可选的,所述获取用于清洗数据的规则信息,将所述规则信息转换为规则链路网络,包括:
[0010]获取所述规则信息,所述规则信息至少包括一条规则数据;
[0011]将所述规则信息中所有规则数据分别转换为相应的所述规则链路数据,所有的所述规则链路数据构成所述规则链路网络。
[0012]可选的,所述规则数据包括至少一个匹配对象和一个执行对象;
[0013]所述将所述规则信息中所有规则数据分别转换为相应的规则链路数据,所有的所述规则链路数据构成所述规则链路网络,包括:
[0014]获取所述规则数据中的匹配对象和执行对象,识别所述规则数据中各个所述匹配对象之间的关联关系;
[0015]将所述匹配对象转换为网络节点,将所述执行对象转换为执行事件;
[0016]基于所述匹配对象之间的关联关系,构建各个所述网络节点之间的配置关系;
[0017]根据所述执行事件、所述网络节点以及各个所述网络节点之间的配置关系生成所述规则链路数据,所有的所述规则链路数据构成所述规则链路网络。
[0018]可选的,所述待处理信息至少包括一条待处理数据;
[0019]所述接收待处理信息,采用Rete算法将所述待处理信息与所述规则链路网络匹配,获取所述待处理信息中的待处理匹配数据以及与所述待处理匹配数据匹配的所述规则链路网络中的规则链路数据,包括:
[0020]接收待处理信息;
[0021]提取所述待处理信息中各条所述待处理数据中的特征对象;
[0022]将所述特征对象分别与所述规则链路网络中各条所述规则链路数据中的匹配对象进行匹配;
[0023]基于与所述规则链路数据匹配的所述特征对象,获取与所述特征对象关联的所述待处理匹配数据,并将与所述特征对象匹配的所述规则链路数据作为与所述特征对象关联的所述待处理匹配数据的规则链路数据。
[0024]可选的,所述基于所述规则链路数据对所述待处理匹配数据进行清洗,以获取目标信息,包括:
[0025]根据所述规则链路数据中的所述执行事件,对与所述规则链路数据匹配的所述待处理匹配数据执行清洗操作,获取清洗结果;
[0026]根据所述待处理信息中所有所述待处理匹配数据的清洗结果生成所述目标信息。
[0027]可选的,所述目标信息采用rpt格式。
[0028]为实现上述目的,本专利技术还提供一种数据清洗装置,包括:
[0029]转换单元,用于获取用于清洗数据的规则信息,将所述规则信息转换为规则链路网络;
[0030]匹配单元,用于接收待处理信息,采用Rete算法将所述待处理信息与所述规则链路网络匹配,获取所述待处理信息中的待处理匹配数据以及与所述待处理匹配数据匹配的所述规则链路网络中的规则链路数据;
[0031]执行单元,用于基于所述规则链路数据对所述待处理匹配数据进行清洗,以获取目标信息。
[0032]可选的,所述转换单元用于获取所述规则信息,将所述规则信息中所有规则数据分别转换为相应的所述规则链路数据,所有的所述规则链路数据构成所述规则链路网络;
[0033]其中,所述规则信息至少包括一条规则数据。
[0034]为实现上述目的,本专利技术还提供一种计算机设备,所述计算机设备包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述方法的步骤。
[0035]为实现上述目的,本专利技术还提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述方法的步骤。
[0036]本专利技术提供的数据清洗方法、装置、计算机设备及存储介质,可自动将获取的用于清洗数据的规则信息转换为规则链路网络,无需人工手动将规则信息转换为规则代码,减
少了人力物力、效率快,可适应多种场景;通过待处理信息与规则链路网络匹配,进而可以快速的获取与规则链路数据匹配的待处理匹配数据,基于规则链路数据对待处理匹配数据进行简化、合并处理(清洗)得到与待处理信息对应的目标信息,以便于对清洗后的目标数据进行相应处理。
附图说明
[0037]图1为本专利技术所述的数据清洗方法的一种实施例的方法流程图;
[0038]图2为本专利技术规则数据转换为规则链路数据的一种实施例的方法流程图;
[0039]图3为本专利技术所述的数据清洗装置的一种实施例的模块图;
[0040]图4为本专利技术所述转换单元的一种实施例的模块图;
[0041]图5为本专利技术所述匹配单元的一种实施例的模块图
[0042]图6为本专利技术所述的计算机设备一实施例的硬件架构示意图。
具体实施方式
[0043]为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本申请,并不用于限定本申请。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
[0044]需要说明的是,在不冲突的情况下,本专利技术中的实施例及实施例中的特征可以相互组合。<本文档来自技高网...
【技术保护点】
【技术特征摘要】
1.一种数据清洗方法,其特征在于,包括:获取用于清洗数据的规则信息,将所述规则信息转换为规则链路网络;接收待处理信息,采用Rete算法将所述待处理信息与所述规则链路网络匹配,获取所述待处理信息中的待处理匹配数据以及与所述待处理匹配数据匹配的所述规则链路网络中的规则链路数据;基于所述规则链路数据对所述待处理匹配数据进行清洗,以获取目标信息。2.根据权利要求1所述的数据清洗方法,其特征在于,所述获取用于清洗数据的规则信息,将所述规则信息转换为规则链路网络,包括:获取所述规则信息,所述规则信息至少包括一条规则数据;将所述规则信息中所有规则数据分别转换为相应的所述规则链路数据,所有的所述规则链路数据构成所述规则链路网络。3.根据权利要求2所述的数据清洗方法,其特征在于,所述规则数据包括至少一个匹配对象和一个执行对象;所述将所述规则信息中所有规则数据分别转换为相应的规则链路数据,所有的所述规则链路数据构成所述规则链路网络,包括:获取所述规则数据中的匹配对象和执行对象,识别所述规则数据中各个所述匹配对象之间的关联关系;将所述匹配对象转换为网络节点,将所述执行对象转换为执行事件;基于所述匹配对象之间的关联关系,构建各个所述网络节点之间的配置关系;根据所述执行事件、所述网络节点以及各个所述网络节点之间的配置关系生成所述规则链路数据,所有的所述规则链路数据构成所述规则链路网络。4.根据权利要求3所述的数据清洗方法,其特征在于,所述待处理信息至少包括一条待处理数据;所述接收待处理信息,采用Rete算法将所述待处理信息与所述规则链路网络匹配,获取所述待处理信息中的待处理匹配数据以及与所述待处理匹配数据匹配的所述规则链路网络中的规则链路数据,包括:接收待处理信息;提取所述待处理信息中各条所述待处理数据中的特征对象;将所述特征对象分别与所述规则链路网络中各条所述...
【专利技术属性】
技术研发人员:任智慧,
申请(专利权)人:平安养老保险股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。