用于数据匹配的主动学习制造技术

技术编号：32619117 阅读：18 留言：0更新日期：2022-03-12 17:48

本发明专利技术方法包括：a)使用当前带标记数据点集合来训练机器学习模型，每个数据点都是多个数据记录，其中数据点的标记指示数据点的分类，所述训练产生被配置为将数据点分类为代表同一实体或不同实体的经过训练的机器学习模型。b)可以使用当前未标记数据点集合的分类结果从当前未标记数据点集合中选择未标记数据点的子集。c)可以将未标记数据点的子集提供给分类者并且响应于所述提供而接收未标记数据点的子集的标记。可以使用当前带标记数据点集合加上带标记数据点的子集作为当前带标记数据点集合来重复步骤a)至c)。据点集合来重复步骤a)至c)。据点集合来重复步骤a)至c)。

全部详细技术资料下载

【技术实现步骤摘要】
【国外来华专利技术】用于数据匹配的主动学习

技术介绍

[0001]本专利技术涉及数字计算机系统领域，尤其涉及一种用于匹配数据的方法。
[0002]文书记录是给定匹配过程不能确定它们是否彼此是重复的记录并因此应当合并的记录，或者一个或多个是否应当视为不匹配并因此应当彼此分开保存的记录。这些文书记录可能需要用户干预才能更仔细地查看数据记录的值。尽管为自动化和改进记录匹配过程的巨大努力，这些文书记录的数量仍在不断增加(例如，其可以是数百万个文书记录)。这导致大部分文书记录很长时期得不到处理，在此期间系统配置中可能会使用不一致的数据。

技术实现思路

[0003]如独立权利要求的主题所述的各种实施例提供了用于匹配数据的方法、计算机系统和计算机程序产品。在从属权利要求中描述了有益的实施例。本专利技术的实施例在不相互排斥的情况下可以彼此自由组合。
[0004]在一个方面，本专利技术涉及一种用于匹配数据集的数据记录的方法，所述数据记录具有属性集合的值，所述方法包括：
[0005]a)使用当前带标记数据点集合来训练机器学习模型，数据点中的每个数据点都是多个数据记录，其中，数据点的标记指示数据点的分类，所述训练产生被配置为将数据点分类为代表同一实体或不同实体的经过训练的机器学习模型；
[0006]b)使用用经过训练的机器学习模型对当前未标记数据点集合进行分类的分类结果从当前未标记数据点集合中选择未标记数据点的子集，去除所选择的未标记数据点的子集后的当前未标记数据点集合变成当前未标记数据点集合；
[0007]c)向分类者提供未标...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】1.一种用于匹配数据集的数据记录的方法，所述数据记录具有属性集合的值，所述方法包括：a)使用当前带标记数据点集合来训练机器学习模型，数据点中的每个数据点都是多个数据记录，其中，数据点的标记指示数据点的分类，所述训练产生被配置为将数据点分类为代表同一实体或不同实体的经过训练的机器学习模型；b)使用用经过训练的机器学习模型对当前未标记数据点集合进行分类的分类结果从当前未标记数据点集合中选择未标记数据点的子集，去除所选择的未标记数据点的子集后的当前未标记数据点集合变成当前未标记数据点集合；c)向分类者提供未标记数据点的子集并且响应于所述提供而接收未标记数据点的子集的标记；d)使用当前带标记数据点集合加上带标记数据点的子集作为当前带标记数据点集合来重复步骤a)至d)；e)使用经过训练的机器学习模型来对数据集的数据点进行分类。2.根据权利要求1所述的方法，进一步包括以下之一：使用经过训练的机器学习模型对数据集的数据点的分类来对数据集的数据记录进行去重；基于经过训练的机器学习模型对数据集的数据点的分类来合并或保持数据集的每个数据点的单独的数据记录。3.根据前述权利要求中任一项所述的方法，进一步包括使用经过训练的机器学习模型对数据集的数据点的分类来存储数据集的去重的数据记录。4.根据前述权利要求中任一项所述的方法，其中，在步骤e)中使用的经过训练的机器学习模型是由步骤a)至d)的预定次数的迭代产生的经过训练的机器学习模型。5.根据前述权利要求中任一项所述的方法，其中，进行所述重复达预定义的迭代次数或者直到未标记数据点集合包括数量小于预定义最小数量的数据点。6.根据前述权利要求1至4中任一项所述的方法，其中，步骤d)包括响应于确定所述未标记数据点集合包括数量小于预定义最小数量的数据点，等待直到未标记数据点集合包括数量高于或等于重复步骤a)至d)的预定义最小数量的数据点。7.根据前述权利要求中任一项所述的方法，进一步包括接收另外的未标记数据点，其中，当前未标记数据点集合加上所接收的另外的未标记数据点变成当前未标记数据点集合。8.根据前述权利要求中任一项所述的方法，其中，所述选择未标记数据点的子集还包括：使用分类结果从当前未标记数据点集合中选择未标记数据点的中间子集，使用属性集合的第一属性子集对未标记数据点的中间子集的数据点进行聚类，从而产生多个群集；针对多个群集中的每个群集，标识与该个群集的质心最接近的数据点，其中未标记数据点的子集包括所标识的最接近的数据点。9.根据前述权利要求1
‑
7中任一项所述的方法，其中，所述选择未标记数据点的子集还包括：使用分类结果从当前未标记数据点集合中选择未标记数据点的第一中间子集，使用描述数据点的元数据参数从未标记数据点的第一中间子集中选择未标记数据点的第二中间子集，使用属性集合的第一属性子集对未标记数据点的第二中间子集的数据点进行聚
类，从而产生多个群集；针对多个群集中的每个群集，标识与该个群集的质心最接近的数据点，其中未标记数据点的子集包...

【专利技术属性】
技术研发人员：L，
申请(专利权)人：国际商业机器公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人