【技术实现步骤摘要】
数据处理方法、装置及设备
[0001]本文件涉及数据处理
,尤其涉及一种数据处理方法、装置及设备。
技术介绍
[0002]由于不同的数据源分别描述了用户在不同维度的行为信息,若将这些数据源统一关联起来,就能更准确地了解用户,能够使数据价值得到更大限度的发挥。例如,可以通过人工判断不同的数据源中是否存在相同的实体。
[0003]但是,由于待匹配数据的数据量较大,数据特征较多,因此,通过人工判断的方式,会导致实体匹配的效率和准确性低,因此,需要一种能够提高实体匹配的效率和准确性方案。
技术实现思路
[0004]本说明书实施例的目的是提供一种数据处理方法、装置及设备,以提供一种能够提高实体匹配的效率和准确性方案。
[0005]为了实现上述技术方案,本说明书实施例是这样实现的:
[0006]第一方面,一种数据处理方法,包括:获取待检测的第一实体对;基于预设模型搜索空间,生成待训练的匹配模型,并将所述第一实体对输入所述匹配模型,得到所述第一实体对的预测匹配度;基于预设匹配度阈值和所述第一实体对的预测匹配度,从所述第一实体对中选取目标实体对,并获取所述目标实体对的标注匹配度;基于所述目标实体对的标注匹配度和所述目标实体对的预测匹配度,对所述匹配模型进行迭代训练,得到训练后的匹配模型,所述训练后的匹配模型用于确定实体对中的数据是否表征同一实体。
[0007]第二方面,本说明书实施例提供了一种数据处理装置,所述装置包括:第一获取模块,用于获取待检测的第一实体对;模型生成模块,用于 ...
【技术保护点】
【技术特征摘要】
1.一种数据处理方法,包括:获取待检测的第一实体对;基于预设模型搜索空间,生成待训练的匹配模型,并将所述第一实体对输入所述匹配模型,得到所述第一实体对的预测匹配度;基于预设匹配度阈值和所述第一实体对的预测匹配度,从所述第一实体对中选取目标实体对,并获取所述目标实体对的标注匹配度;基于所述目标实体对的标注匹配度和所述目标实体对的预测匹配度,对所述匹配模型进行迭代训练,得到训练后的匹配模型,所述训练后的匹配模型用于确定实体对中的数据是否表征同一实体。2.根据权利要求1所述的方法,所述基于所述目标实体对的标注匹配度和所述目标实体对的预测匹配度,对所述匹配模型进行迭代训练,得到训练后的匹配模型,包括:基于所述目标实体对的标注匹配度和所述目标实体对的预测匹配度,确定所述匹配模型是否收敛,并在确定所述匹配模型未收敛的情况下,基于预设参数搜索空间,对所述匹配模型的模型参数进行调整,得到更新后的匹配模型,并基于所述第一实体对继续对所述更新后的匹配模型进行迭代训练,得到所述训练后的匹配模型。3.根据权利要求2所述的方法,所述获取待检测的第一实体对,包括:获取待匹配的第一数据集和第二数据集;基于预设数据分割算法,将所述第一数据集分割为多个第一子数据,以及将所述第二数据集分割为多个第二子数据;对所述第一子数据和所述第二子数据进行样本对齐处理,得到样本对齐结果,并基于所述样本对齐结果,确定所述第一实体对,所述第一实体对包括具有对应关系的所述第一子数据和所述第二子数据。4.根据权利要求3所述的方法,所述基于所述样本对齐结果,确定所述第一实体对,包括:基于所述样本对齐结果,确定具有对齐关系的所述第一子数据和所述第二子数据;获取具有对齐关系的所述第一子数据和所述第二子数据之间的相似度;基于所述相似度,确定所述具有对应关系的所述第一子数据和所述第二子数据,并将所述具有对应关系的所述第一子数据和所述第二子数据确定为所述第一实体对。5.根据权利要求4所述的方法,所述基于预设匹配度阈值和所述第一实体对的预测匹配度,从所述第一实体对中选取目标实体对,包括:获取所述预设匹配度阈值和每个所述第一实体对的预测匹配度之间的差值;将所述差值小于预设差值阈值的差值对应的所述第一实体对确定为所述目标实体对。6.根据权利要求5所述的方法,所述将所述第一实体对输入所述匹配模型,得到所述第一实体对的预测匹配度,包括:基于预设表征提取算法和预设特征选取规则,确定所述第一实体对的表征向量,并将所述第一实体对的表征向量输入所述匹配模型,得到所述第一实体对的预测匹配度。7.根据权利要求6所述的方法,所述方法还包括:获取待检测的目标实体对,并基于所述预设表征提取算法和所述预设特征选取规则,确定所述目标实体对的表征向量;
将所述目标实体对的表征向量输入所述训练后的匹配模型,得到所述目标实体对的预测匹配度;基于所述目标实体对的预测匹配度,确定所述目标实体对中的数据是否表征同一实体。8.一种数据处理装置,包括:第一获取模块,用于获取待检测的第一实体对;模型生成模块,用于基于预设模型搜索空间,生成待训练的匹配模型,并将所述第一实体对输入所述匹配模型,得到所述第一实体对的预测匹配度;数据选取模块,用于基于预设匹配度阈值和所述...
【专利技术属性】
技术研发人员:孙清清,邹泊滔,张晨景,张天翼,王爱凌,
申请(专利权)人:支付宝杭州信息技术有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。