数据处理方法、装置及设备制造方法及图纸

技术编号:38007801 阅读:21 留言:0更新日期:2023-06-30 10:25
本说明书实施例提供了一种数据处理方法、装置及设备,其中,该方法包括:获取待检测的第一实体对;基于预设模型搜索空间,生成待训练的匹配模型,并将所述第一实体对输入所述匹配模型,得到所述第一实体对的预测匹配度;基于预设匹配度阈值和所述第一实体对的预测匹配度,从所述第一实体对中选取目标实体对,并获取所述目标实体对的标注匹配度;基于所述目标实体对的标注匹配度和所述目标实体对的预测匹配度,对所述匹配模型进行迭代训练,得到训练后的匹配模型,所述训练后的匹配模型用于确定实体对中的数据是否表征同一实体。定实体对中的数据是否表征同一实体。定实体对中的数据是否表征同一实体。

【技术实现步骤摘要】
数据处理方法、装置及设备


[0001]本文件涉及数据处理
,尤其涉及一种数据处理方法、装置及设备。

技术介绍

[0002]由于不同的数据源分别描述了用户在不同维度的行为信息,若将这些数据源统一关联起来,就能更准确地了解用户,能够使数据价值得到更大限度的发挥。例如,可以通过人工判断不同的数据源中是否存在相同的实体。
[0003]但是,由于待匹配数据的数据量较大,数据特征较多,因此,通过人工判断的方式,会导致实体匹配的效率和准确性低,因此,需要一种能够提高实体匹配的效率和准确性方案。

技术实现思路

[0004]本说明书实施例的目的是提供一种数据处理方法、装置及设备,以提供一种能够提高实体匹配的效率和准确性方案。
[0005]为了实现上述技术方案,本说明书实施例是这样实现的:
[0006]第一方面,一种数据处理方法,包括:获取待检测的第一实体对;基于预设模型搜索空间,生成待训练的匹配模型,并将所述第一实体对输入所述匹配模型,得到所述第一实体对的预测匹配度;基于预设匹配度阈值和所述第一实体对的预测匹配度,从所述第一实体对中选取目标实体对,并获取所述目标实体对的标注匹配度;基于所述目标实体对的标注匹配度和所述目标实体对的预测匹配度,对所述匹配模型进行迭代训练,得到训练后的匹配模型,所述训练后的匹配模型用于确定实体对中的数据是否表征同一实体。
[0007]第二方面,本说明书实施例提供了一种数据处理装置,所述装置包括:第一获取模块,用于获取待检测的第一实体对;模型生成模块,用于基于预设模型搜索空间,生成待训练的匹配模型,并将所述第一实体对输入所述匹配模型,得到所述第一实体对的预测匹配度;数据选取模块,用于基于预设匹配度阈值和所述第一实体对的预测匹配度,从所述第一实体对中选取目标实体对,并获取所述目标实体对的标注匹配度;模型训练模块,用于基于所述目标实体对的标注匹配度和所述目标实体对的预测匹配度,对所述匹配模型进行迭代训练,得到训练后的匹配模型,所述训练后的匹配模型用于确定实体对中的数据是否表征同一实体。
[0008]第三方面,本说明书实施例提供了一种数据处理设备,所述数据处理设备包括:处理器;以及被安排成存储计算机可执行指令的存储器,所述可执行指令在被执行时使所述处理器:获取待检测的第一实体对;基于预设模型搜索空间,生成待训练的匹配模型,并将所述第一实体对输入所述匹配模型,得到所述第一实体对的预测匹配度;基于预设匹配度阈值和所述第一实体对的预测匹配度,从所述第一实体对中选取目标实体对,并获取所述目标实体对的标注匹配度;基于所述目标实体对的标注匹配度和所述目标实体对的预测匹配度,对所述匹配模型进行迭代训练,得到训练后的匹配模型,所述训练后的匹配模型用于
确定实体对中的数据是否表征同一实体。
[0009]第四方面,本说明书实施例提供一种存储介质,所述存储介质用于存储计算机可执行指令,所述可执行指令在被执行时实现以下流程:获取待检测的第一实体对;基于预设模型搜索空间,生成待训练的匹配模型,并将所述第一实体对输入所述匹配模型,得到所述第一实体对的预测匹配度;基于预设匹配度阈值和所述第一实体对的预测匹配度,从所述第一实体对中选取目标实体对,并获取所述目标实体对的标注匹配度;基于所述目标实体对的标注匹配度和所述目标实体对的预测匹配度,对所述匹配模型进行迭代训练,得到训练后的匹配模型,所述训练后的匹配模型用于确定实体对中的数据是否表征同一实体。
附图说明
[0010]为了更清楚地说明本说明书实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本说明书中记载的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
[0011]图1A为本说明书一种数据处理方法实施例的流程图;
[0012]图1B为本说明书一种数据处理方法的处理过程示意图;
[0013]图2为本说明书又一种数据处理方法的处理过程示意图;
[0014]图3为本说明书一种数据处理过程的示意图;
[0015]图4为本说明书一种数据处理装置实施例的结构示意图;
[0016]图5为本说明书一种数据处理设备的结构示意图。
具体实施方式
[0017]本说明书实施例提供一种数据处理方法、装置及设备。
[0018]为了使本
的人员更好地理解本说明书中的技术方案,下面将结合本说明书实施例中的附图,对本说明书实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本说明书一部分实施例,而不是全部的实施例。基于本说明书中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本说明书保护的范围。
[0019]实施例一
[0020]如图1A和图1B所示,本说明书实施例提供一种数据处理方法,该方法的执行主体可以为服务器,其中,该服务器可以是独立的服务器,也可以是由多个服务器组成的服务器集群。该方法具体可以包括以下步骤:
[0021]在S102中,获取待检测的第一实体对。
[0022]其中,第一实体对可以包括由不同的数据源提供的实体信息中筛选出的可能为同一实体的多个实体,实体可以如用户、业务、机构等实体,第一实体对中可以包括每个实体对应的实体信息,实体信息可以包括如标识、类型、联系方式等用于描述实体的特征信息,第一实体对中的多个实体的实体信息可以不同,例如,第一实体对可以包括来自数据源1提供的实体1和数据源2提供的实体2,实体1的实体信息可以包括实体1的标识和类型,实体2的实体信息可以包括实体2的类型、地址和联系方式。
[0023]在实施中,由于不同的数据源分别描述了用户在不同维度的行为信息,若将这些数据源统一关联起来,就能更准确地了解用户,能够使数据价值得到更大限度的发挥。例如,可以通过人工判断不同的数据源中是否存在相同的实体。但是,由于待匹配数据的数据量较大,数据特征较多,因此,通过人工判断的方式,会导致实体匹配的效率和准确性低,因此,需要一种能够提高实体匹配的效率和准确性方案。为此,本说明书实施例提供一种可以解决上述问题的技术方案,具体可以参见下述内容。
[0024]由于不同的数据源针对同一实体的描述信息(即实体信息)可能存在差异,为提高数据利用率,可以对不同的实体进行实体匹配,以通过匹配后的实体进行后续数据处理(如数据挖掘处理、风险检测处理等)。
[0025]服务器可以对不同数据源提供的实体信息进行初步筛选处理,得到初步匹配的多个实体(即第一实体对)。其中,初步筛选处理可以是基于实体信息对实体进行匹配处理。
[0026]例如,假设数据源1提供的实体信息1包括如下表1所示的实体信息,数据源2提供的实体信息2包括如下表2所示的实体信息,那么,服务器可以基于表1和表2的实体信息,对数据源1提供的实体和数据源2提供的实体进行初步筛选处理,得到待检测的第本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种数据处理方法,包括:获取待检测的第一实体对;基于预设模型搜索空间,生成待训练的匹配模型,并将所述第一实体对输入所述匹配模型,得到所述第一实体对的预测匹配度;基于预设匹配度阈值和所述第一实体对的预测匹配度,从所述第一实体对中选取目标实体对,并获取所述目标实体对的标注匹配度;基于所述目标实体对的标注匹配度和所述目标实体对的预测匹配度,对所述匹配模型进行迭代训练,得到训练后的匹配模型,所述训练后的匹配模型用于确定实体对中的数据是否表征同一实体。2.根据权利要求1所述的方法,所述基于所述目标实体对的标注匹配度和所述目标实体对的预测匹配度,对所述匹配模型进行迭代训练,得到训练后的匹配模型,包括:基于所述目标实体对的标注匹配度和所述目标实体对的预测匹配度,确定所述匹配模型是否收敛,并在确定所述匹配模型未收敛的情况下,基于预设参数搜索空间,对所述匹配模型的模型参数进行调整,得到更新后的匹配模型,并基于所述第一实体对继续对所述更新后的匹配模型进行迭代训练,得到所述训练后的匹配模型。3.根据权利要求2所述的方法,所述获取待检测的第一实体对,包括:获取待匹配的第一数据集和第二数据集;基于预设数据分割算法,将所述第一数据集分割为多个第一子数据,以及将所述第二数据集分割为多个第二子数据;对所述第一子数据和所述第二子数据进行样本对齐处理,得到样本对齐结果,并基于所述样本对齐结果,确定所述第一实体对,所述第一实体对包括具有对应关系的所述第一子数据和所述第二子数据。4.根据权利要求3所述的方法,所述基于所述样本对齐结果,确定所述第一实体对,包括:基于所述样本对齐结果,确定具有对齐关系的所述第一子数据和所述第二子数据;获取具有对齐关系的所述第一子数据和所述第二子数据之间的相似度;基于所述相似度,确定所述具有对应关系的所述第一子数据和所述第二子数据,并将所述具有对应关系的所述第一子数据和所述第二子数据确定为所述第一实体对。5.根据权利要求4所述的方法,所述基于预设匹配度阈值和所述第一实体对的预测匹配度,从所述第一实体对中选取目标实体对,包括:获取所述预设匹配度阈值和每个所述第一实体对的预测匹配度之间的差值;将所述差值小于预设差值阈值的差值对应的所述第一实体对确定为所述目标实体对。6.根据权利要求5所述的方法,所述将所述第一实体对输入所述匹配模型,得到所述第一实体对的预测匹配度,包括:基于预设表征提取算法和预设特征选取规则,确定所述第一实体对的表征向量,并将所述第一实体对的表征向量输入所述匹配模型,得到所述第一实体对的预测匹配度。7.根据权利要求6所述的方法,所述方法还包括:获取待检测的目标实体对,并基于所述预设表征提取算法和所述预设特征选取规则,确定所述目标实体对的表征向量;
将所述目标实体对的表征向量输入所述训练后的匹配模型,得到所述目标实体对的预测匹配度;基于所述目标实体对的预测匹配度,确定所述目标实体对中的数据是否表征同一实体。8.一种数据处理装置,包括:第一获取模块,用于获取待检测的第一实体对;模型生成模块,用于基于预设模型搜索空间,生成待训练的匹配模型,并将所述第一实体对输入所述匹配模型,得到所述第一实体对的预测匹配度;数据选取模块,用于基于预设匹配度阈值和所述...

【专利技术属性】
技术研发人员:孙清清邹泊滔张晨景张天翼王爱凌
申请(专利权)人:支付宝杭州信息技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1