【技术实现步骤摘要】
主动实体解析模型推荐系统
[0001]本专利技术构思涉及主动实体解析(Active Entity Resolution,AER)模型系统,具体地,涉及AER模型推荐系统。
技术介绍
[0002]数据记录重复项或复制项存在于诸如采购系统和供应链系统的系统中的许多工作区中。例如,同一供应商的重复记录可能存在于同一系统中。当存在重复数据记录时,用户很难在这样的系统中搜索供应商,并且这会导致包含该数据的数据库中的数据混乱且不完整。此外,对于提供商品或服务的供应商,许多采购事件在项目和商品上是相似的,但是目前尚没有自动步骤来更容易地创建采购事件以为商品或服务找到供应商。
技术实现思路
[0003]根据本专利技术的示例实施例,提供了一种计算机实施的方法,包括:在计算系统接收新数据记录的请求数据字段;由计算系统访问包括多个代表性数据记录的主数据,每个代表性数据记录代表相似数据记录的一个集群,并且每个相似数据记录具有置信得分,置信得分指示相似数据记录对应于所述集群的置信度;使用机器学习模型将新数据记录与多个代表性数据记录中的每个代表性数据记录进行比较,以针对每个代表性数据记录生成距离得分,距离得分与新数据记录和每个代表性数据记录之间的距离相对应;选择具有在距离阈值内的生成的距离得分的代表性数据记录集合;分析与代表性数据记录集合中的每个代表性数据记录相对应的相似数据记录的集群,以针对新数据记录的请求数据字段生成候选值;使用候选值所对应的代表性数据记录的距离得分和候选值所对应的相似数据记录的置信得分,来为候选值中的每一个 ...
【技术保护点】
【技术特征摘要】
1.一种计算机实施的方法,包括:在计算系统接收新数据记录的请求数据字段;由所述计算系统访问包括多个代表性数据记录的主数据,每个代表性数据记录代表相似数据记录的集群,并且每个相似数据记录具有置信得分,所述置信得分指示所述相似数据记录对应于所述集群的置信度;使用机器学习模型将所述新数据记录与所述多个代表性数据记录中的每个代表性数据记录进行比较,以针对每个代表性数据记录生成距离得分,所述距离得分与所述新数据记录和每个代表性数据记录之间的距离相对应;选择具有在距离阈值内的生成的距离得分的代表性数据记录集合;分析与所述代表性数据记录集合中的每个代表性数据记录相对应的相似数据记录的集群,以针对所述新数据记录的请求数据字段生成候选值;使用所述候选值所对应的代表性数据记录的距离得分和所述候选值所对应的相似数据记录的置信得分,来为所述候选值中的每一个生成候选得分;以及基于所述候选值的候选得分,针对所述请求数据字段提供推荐。2.根据权利要求1所述的计算机实施的方法,其中,所述请求数据字段是供应商名称或目录。3.根据权利要求1所述的计算机实施的方法,其中,通过执行操作生成所述主数据,所述操作包括:访问包括多个数据记录的数据源;将所述数据记录分组到包括相似数据记录的集群中;生成代表性数据记录以代表相似数据记录的每个集群;针对每个相似数据记录生成置信得分,所述置信得分指示所述相似数据记录对应于所述集群的置信度;以及将包括多个代表性数据记录的主数据存储在一个或多个数据存储中。4.根据权利要求1所述的计算机实施的方法,其中,所述距离阈值是指定值,并且基于所述代表性数据记录集合中的每个代表性记录具有大于所述距离阈值的指定值的距离得分,来选择所述代表性数据记录集合。5.根据权利要求1所述的计算机实施的方法,其中,使用所述候选值所对应的代表性数据记录的距离得分和所述候选值所对应的相似数据记录的置信得分,来为所述候选值中的每一个生成所述候选得分,包括:对于每个相似数据记录,将所述距离得分乘以所述置信得分以生成乘积值;对于每个候选值,组合包括所述候选值的每个相似数据记录的乘积值以生成组合乘积值;确定每个候选值出现于其中的相似数据记录的数目的计数;以及基于所述组合乘积值和所述候选值的计数,为所述候选值中的每一个生成所述候选得分。6.根据权利要求1所述的计算机实施的方法,还包括:基于所述候选得分对所述候选值进行排序;以及其中,基于所述排序的候选值,提供针对所述请求数据字段的推荐。
7.根据权利要求6所述的计算机实施的方法,其中,基于所述候选得分对所述候选值进行排序包括:首先基于候选得分,其次基于指示所述候选值出现于其中的集群的数目的集群计数,并且第三基于指示所述候选值出现于其中的相似记录的数目的记录计数对所述候选值进行排序。8.根据权利要求1所述的计算机实施的方法,其中,基于所述候选值的候选得分,提供针对所述请求数据字段的推荐包括:提供具有最高候选得分的候选值作为针对所述请求数据字段的推荐。9.根据权利要求7所述的计算机实施的方法,其中,基于所述排序的候选值,提供针对所述请求数据字段的推荐包括:基于待提供的推荐的预定数目,提供具有最高候选得分的候选值的子集。10.一种系统,包括:存储器,存储指令;和一个或多个处理器,被所述指令配置以执行操作,所述操作包括:接收新数据记录的请求数据字段;访问包括多个代表性数据记录的主数据,每个代表性数据记录代表相似数据记录的集群,并且每个相似数据记录具有置信得分,所述置信得分指示所述相似数据记录对应于所述集群的置信度;使用机器学习模型将所述新数据记录与所述多个代表性数据记录中的每个代表性数据记录进行比较,以针对每个代表性数据记录生成距离得分,所述距离得分与所述新数据记录和每个代表性数据记录之间的距离相对应;选择具有在距离阈值内的生成的距离得分的代表性数据记录集合;分析与所述代表性数据记录集合中的每个代表性数据记录相对应的相似数据记录的集群,以针对所述新数据记录的请求数据字段生成候选值;使用所述候选值...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。