当前位置: 首页 > 专利查询>SAP欧洲公司专利>正文

主动实体解析模型推荐系统技术方案

技术编号:31725783 阅读:32 留言:0更新日期:2022-01-05 15:50
提供了用于访问包括多个代表性数据记录的主数据的系统和方法,其中,每个代表性数据记录代表相似数据记录的一个集群,并且每个相似数据记录具有一个置信得分,该置信得分指示相似数据记录对应于该集群的置信度,并且使用机器学习模型将新数据记录与多个代表性数据记录中的每个代表性数据记录进行比较,以生成距离得分。该系统和方法还提供分析与选定的代表性数据记录集合中的每个代表性数据记录相对应的相似数据记录的集群,以针对新数据记录的请求数据字段生成候选值,以及使用距离得分和置信得分来为候选值中的每一个生成候选得分,以在提供推荐的候选值中使用。以在提供推荐的候选值中使用。以在提供推荐的候选值中使用。

【技术实现步骤摘要】
主动实体解析模型推荐系统


[0001]本专利技术构思涉及主动实体解析(Active Entity Resolution,AER)模型系统,具体地,涉及AER模型推荐系统。

技术介绍

[0002]数据记录重复项或复制项存在于诸如采购系统和供应链系统的系统中的许多工作区中。例如,同一供应商的重复记录可能存在于同一系统中。当存在重复数据记录时,用户很难在这样的系统中搜索供应商,并且这会导致包含该数据的数据库中的数据混乱且不完整。此外,对于提供商品或服务的供应商,许多采购事件在项目和商品上是相似的,但是目前尚没有自动步骤来更容易地创建采购事件以为商品或服务找到供应商。

技术实现思路

[0003]根据本专利技术的示例实施例,提供了一种计算机实施的方法,包括:在计算系统接收新数据记录的请求数据字段;由计算系统访问包括多个代表性数据记录的主数据,每个代表性数据记录代表相似数据记录的一个集群,并且每个相似数据记录具有置信得分,置信得分指示相似数据记录对应于所述集群的置信度;使用机器学习模型将新数据记录与多个代表性数据记录中的每个代表性数据记录进行比较,以针对每个代表性数据记录生成距离得分,距离得分与新数据记录和每个代表性数据记录之间的距离相对应;选择具有在距离阈值内的生成的距离得分的代表性数据记录集合;分析与代表性数据记录集合中的每个代表性数据记录相对应的相似数据记录的集群,以针对新数据记录的请求数据字段生成候选值;使用候选值所对应的代表性数据记录的距离得分和候选值所对应的相似数据记录的置信得分,来为候选值中的每一个生成候选得分;以及基于候选值的候选得分,针对请求数据字段提供推荐。
[0004]根据本专利技术的示例实施例,提供了一种系统,该系统包括:存储指令的存储器;和一个或多个处理器,被指令配置以执行操作,操作包括:接收新数据记录的请求数据字段;访问包括多个代表性数据记录的主数据,每个代表性数据记录代表相似数据记录的一个集群,并且每个相似数据记录具有置信得分,置信得分指示相似数据记录对应于集群的置信度;使用机器学习模型将新数据记录与多个代表性数据记录中的每个代表性数据记录进行比较,以针对每个代表性数据记录生成距离得分,距离得分与新数据记录和每个代表性数据记录之间的距离相对应;选择具有在距离阈值内的生成的距离得分的代表性数据记录集合;分析与代表性数据记录集合中的每个代表性数据记录相对应的相似数据记录的集群,以针对新数据记录的请求数据字段生成候选值;使用候选值所对应的代表性数据记录的距离得分和候选值所对应的相似数据记录的置信得分,来为候选值中的每一个生成候选得分;以及基于所述候选值的候选得分,针对所述请求数据字段提供推荐。
[0005]根据本专利技术的示例实施例,提供了一种非瞬时性计算机可读介质,包括存储在其上的指令,指令可由至少一个处理器运行以使计算设备执行操作,操作包括:接收新数据记
录的请求数据字段;访问包括多个代表性数据记录的主数据,每个代表性数据记录代表相似数据记录的一个集群,并且每个相似数据记录具有置信得分,置信得分指示相似数据记录对应于集群的置信度;使用机器学习模型将新数据记录与多个代表性数据记录中的每个代表性数据记录进行比较,以针对每个代表性数据记录生成距离得分,距离得分与新数据记录和每个代表性数据记录之间的距离相对应;选择具有在距离阈值内的生成的距离得分的代表性数据记录集合;分析与代表性数据记录集合中的每个代表性数据记录相对应的相似数据记录的集群,以针对新数据记录的请求数据字段生成候选值;使用候选值所对应的代表性数据记录的距离得分和候选值所对应的相似数据记录的置信得分,来为候选值中的每一个生成候选得分;以及基于所述候选值的候选得分,针对所述请求数据字段提供推荐。
附图说明
[0006]附图中的各种图仅示出了本公开的示例实施例,并且不应被认为是对其范围的限制。
[0007]图1是示出根据一些示例实施例的联网系统的框图。
[0008]图2是示出根据一些示例实施例的主动实体解析(Active Entity Resolution,AER)模型系统的框图。
[0009]图3示出根据一些示例实施例的展示重复数据记录的示例图形用户界面(Graphical User Interface,GUI)。
[0010]图4是示出根据一些示例实施例的用于为新数据记录的请求字段生成推荐的方法的各方面的流程图。
[0011]图5示出根据一些示例实施例的用于输入新数据记录的示例GUI。
[0012]图6A和6B示出根据一些示例实施例的示例集群和代表性数据记录。
[0013]图7A和7B示出根据一些示例实施例的代表性数据记录的选定集合。
[0014]图8示出根据一些示例实施例的相似数据记录的列表。
[0015]图9示出根据一些示例实施例的针对供应商的示例推荐。
[0016]图10A至10C示出根据一些示例实施例的非目录项的匹配结果。
[0017]图11是示出根据一些示例实施例的可以安装在机器上的软件架构的示例的框图。
[0018]图12示出了根据一个示例实施例的,形式为计算机系统的机器的图解表示,在其中可以运行指令集以使机器执行本文所讨论的方法中的任何一个或多个。
具体实施方式
[0019]本文描述的系统和方法涉及主动实体解析(Active Entity Resolution,AER)模型系统,具体地,涉及AER模型推荐系统。如上所述,数据记录重复项或复制项存在于诸如采购系统和供应链系统的系统中的许多工作空间中。例如,同一供应商的重复记录可能存在于同一系统中。当存在重复数据记录时,用户很难在这样的系统中搜索供应商,并且这会导致包含该数据的数据库中的数据混乱且不完整。此外,对于提供商品或服务的供应商,许多采购事件在项目和商品上是相似的,但是目前尚没有自动步骤来更容易地创建采购事件以为商品或服务找到供应商。
[0020]示例实施例提供了一种AER模型系统,该系统检测数据存储中的重复数据记录,并
将重复数据记录聚类为相似数据记录的集群。该AER模型系统针对每个集群生成一个规范记录或代表性数据记录,并将代表性数据记录存储为主数据。该AER模型系统使用主数据,通过将新数据记录与主数据进行匹配来为新数据记录或请求数据字段提供推荐。
[0021]例如,本文描述的示例实施例提供了:在计算系统接收新数据记录的请求数据字段。该计算系统访问包括多个代表性数据记录的主数据。每个代表性数据记录代表相似数据记录的一个集群,并且每个相似数据记录具有一个对应的置信得分,该置信得分指示相似数据记录对应于该集群的置信度。该计算系统使用机器学习模型将新数据记录与多个代表性数据记录中的每个代表性数据记录进行比较,以针对每个代表性数据记录生成一个距离得分,其与新数据记录和每个代表性数据记录之间的距离相对应。该计算系统选择在距离阈值内具有生成的距离得分的代表性数据记录的集合,并分析与该代表性数据记录集合中的每个代表性数据记录相对应的相似数据记录的集群,本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种计算机实施的方法,包括:在计算系统接收新数据记录的请求数据字段;由所述计算系统访问包括多个代表性数据记录的主数据,每个代表性数据记录代表相似数据记录的集群,并且每个相似数据记录具有置信得分,所述置信得分指示所述相似数据记录对应于所述集群的置信度;使用机器学习模型将所述新数据记录与所述多个代表性数据记录中的每个代表性数据记录进行比较,以针对每个代表性数据记录生成距离得分,所述距离得分与所述新数据记录和每个代表性数据记录之间的距离相对应;选择具有在距离阈值内的生成的距离得分的代表性数据记录集合;分析与所述代表性数据记录集合中的每个代表性数据记录相对应的相似数据记录的集群,以针对所述新数据记录的请求数据字段生成候选值;使用所述候选值所对应的代表性数据记录的距离得分和所述候选值所对应的相似数据记录的置信得分,来为所述候选值中的每一个生成候选得分;以及基于所述候选值的候选得分,针对所述请求数据字段提供推荐。2.根据权利要求1所述的计算机实施的方法,其中,所述请求数据字段是供应商名称或目录。3.根据权利要求1所述的计算机实施的方法,其中,通过执行操作生成所述主数据,所述操作包括:访问包括多个数据记录的数据源;将所述数据记录分组到包括相似数据记录的集群中;生成代表性数据记录以代表相似数据记录的每个集群;针对每个相似数据记录生成置信得分,所述置信得分指示所述相似数据记录对应于所述集群的置信度;以及将包括多个代表性数据记录的主数据存储在一个或多个数据存储中。4.根据权利要求1所述的计算机实施的方法,其中,所述距离阈值是指定值,并且基于所述代表性数据记录集合中的每个代表性记录具有大于所述距离阈值的指定值的距离得分,来选择所述代表性数据记录集合。5.根据权利要求1所述的计算机实施的方法,其中,使用所述候选值所对应的代表性数据记录的距离得分和所述候选值所对应的相似数据记录的置信得分,来为所述候选值中的每一个生成所述候选得分,包括:对于每个相似数据记录,将所述距离得分乘以所述置信得分以生成乘积值;对于每个候选值,组合包括所述候选值的每个相似数据记录的乘积值以生成组合乘积值;确定每个候选值出现于其中的相似数据记录的数目的计数;以及基于所述组合乘积值和所述候选值的计数,为所述候选值中的每一个生成所述候选得分。6.根据权利要求1所述的计算机实施的方法,还包括:基于所述候选得分对所述候选值进行排序;以及其中,基于所述排序的候选值,提供针对所述请求数据字段的推荐。
7.根据权利要求6所述的计算机实施的方法,其中,基于所述候选得分对所述候选值进行排序包括:首先基于候选得分,其次基于指示所述候选值出现于其中的集群的数目的集群计数,并且第三基于指示所述候选值出现于其中的相似记录的数目的记录计数对所述候选值进行排序。8.根据权利要求1所述的计算机实施的方法,其中,基于所述候选值的候选得分,提供针对所述请求数据字段的推荐包括:提供具有最高候选得分的候选值作为针对所述请求数据字段的推荐。9.根据权利要求7所述的计算机实施的方法,其中,基于所述排序的候选值,提供针对所述请求数据字段的推荐包括:基于待提供的推荐的预定数目,提供具有最高候选得分的候选值的子集。10.一种系统,包括:存储器,存储指令;和一个或多个处理器,被所述指令配置以执行操作,所述操作包括:接收新数据记录的请求数据字段;访问包括多个代表性数据记录的主数据,每个代表性数据记录代表相似数据记录的集群,并且每个相似数据记录具有置信得分,所述置信得分指示所述相似数据记录对应于所述集群的置信度;使用机器学习模型将所述新数据记录与所述多个代表性数据记录中的每个代表性数据记录进行比较,以针对每个代表性数据记录生成距离得分,所述距离得分与所述新数据记录和每个代表性数据记录之间的距离相对应;选择具有在距离阈值内的生成的距离得分的代表性数据记录集合;分析与所述代表性数据记录集合中的每个代表性数据记录相对应的相似数据记录的集群,以针对所述新数据记录的请求数据字段生成候选值;使用所述候选值...

【专利技术属性】
技术研发人员:M陶V庞贾比D赫尔曼
申请(专利权)人:SAP欧洲公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1