用于数据匹配的主动学习制造技术

技术编号:32619117 阅读:18 留言:0更新日期:2022-03-12 17:48
本发明专利技术方法包括:a)使用当前带标记数据点集合来训练机器学习模型,每个数据点都是多个数据记录,其中数据点的标记指示数据点的分类,所述训练产生被配置为将数据点分类为代表同一实体或不同实体的经过训练的机器学习模型。b)可以使用当前未标记数据点集合的分类结果从当前未标记数据点集合中选择未标记数据点的子集。c)可以将未标记数据点的子集提供给分类者并且响应于所述提供而接收未标记数据点的子集的标记。可以使用当前带标记数据点集合加上带标记数据点的子集作为当前带标记数据点集合来重复步骤a)至c)。据点集合来重复步骤a)至c)。据点集合来重复步骤a)至c)。

【技术实现步骤摘要】
【国外来华专利技术】用于数据匹配的主动学习

技术介绍

[0001]本专利技术涉及数字计算机系统领域,尤其涉及一种用于匹配数据的方法。
[0002]文书记录是给定匹配过程不能确定它们是否彼此是重复的记录并因此应当合并的记录,或者一个或多个是否应当视为不匹配并因此应当彼此分开保存的记录。这些文书记录可能需要用户干预才能更仔细地查看数据记录的值。尽管为自动化和改进记录匹配过程的巨大努力,这些文书记录的数量仍在不断增加(例如,其可以是数百万个文书记录)。这导致大部分文书记录很长时期得不到处理,在此期间系统配置中可能会使用不一致的数据。

技术实现思路

[0003]如独立权利要求的主题所述的各种实施例提供了用于匹配数据的方法、计算机系统和计算机程序产品。在从属权利要求中描述了有益的实施例。本专利技术的实施例在不相互排斥的情况下可以彼此自由组合。
[0004]在一个方面,本专利技术涉及一种用于匹配数据集的数据记录的方法,所述数据记录具有属性集合的值,所述方法包括:
[0005]a)使用当前带标记数据点集合来训练机器学习模型,数据点中的每个数据点都是多个数据记录,其中,数据点的标记指示数据点的分类,所述训练产生被配置为将数据点分类为代表同一实体或不同实体的经过训练的机器学习模型;
[0006]b)使用用经过训练的机器学习模型对当前未标记数据点集合进行分类的分类结果从当前未标记数据点集合中选择未标记数据点的子集,去除所选择的未标记数据点的子集后的当前未标记数据点集合变成当前未标记数据点集合;
[0007]c)向分类者提供未标记数据点的子集并且响应于所述提供而接收未标记数据点的子集的标记;
[0008]d)使用当前带标记数据点集合加上带标记数据点的子集作为当前带标记数据点集合来重复步骤a)至d);
[0009]e)使用经过训练的机器学习模型来对数据集的数据点进行分类。
[0010]在另一方面,本专利技术涉及一种用于匹配数据集的数据记录的计算机系统,所述数据记录具有属性集合的值,所述计算机系统被配置成用于:
[0011]a)使用当前带标记数据点集合来训练机器学习模型,数据点是多个数据记录,所述训练产生被配置为将数据点分类为代表同一实体或不同实体的经过训练的机器学习模型;
[0012]b)使用经过训练的机器学习模型对未标记数据点集合的分类结果从当前未标记数据点集合中选择未标记数据点的子集,去除所选择的未标记数据点的子集后的当前未标记数据点集合变成当前未标记数据点集合;
[0013]c)向分类者提供未标记数据点的子集并且响应于所述提供而接收未标记数据点的子集的标记;
[0014]d)使用当前带标记数据点集合加上带标记数据点的子集作为当前带标记数据点集合来重复步骤a)至d);
[0015]e)使用经过训练的机器学习模型来对数据集的数据点进行分类。
[0016]在另一方面,本专利技术涉及一种用于去重系统的主动学习器,被配置成用于:
[0017]a)使用当前带标记数据点集合来训练机器学习模型,数据点是多个数据记录,所述训练产生被配置为将数据点分类为代表同一实体或不同实体的经过训练的机器学习模型;
[0018]b)使用经过训练的机器学习模型对未标记数据点集合的分类结果从当前未标记数据点集合中选择未标记数据点的子集,去除所选择的未标记数据点的子集后的当前未标记数据点集合变成当前未标记数据点集合;
[0019]c)向分类者提供未标记数据点的子集并且响应于所述提供而接收未标记数据点的子集的标记;
[0020]d)使用当前带标记数据点集合加上带标记数据点的子集作为当前带标记数据点集合来重复步骤a)至d)。
[0021]在另一方面,本专利技术涉及一种包括计算机可读存储介质的计算机程序产品,该计算机可读存储介质具有随其包含的计算机可读程序代码,该计算机可读程序代码被配置成实现根据前述各实施例的方法的所有步骤。
[0022]该方法可以实现主动学习,其中,在迭代训练过程中控制训练数据的生成。术语“主动学习”在此指通过本方法主动生成训练数据以便训练机器学习模型。这可以使得能够找到有价值的和/或富有信息的记录并且将这些记录迭代地添加到训练集。例如,针对给定的输入数据点,经过训练的机器学习模型可以输出分类结果。分类结果包括与输入数据点属于一个或多个类别中的每一个的概率相关联的一个或多个类别的指示。例如,类别“相同”的概率越高,数据点的记录之间的匹配程度越高,反之亦然。并且,类别“不同”的概率越高,数据点的记录之间的匹配程度越低,反之亦然。
[0023]本主题可能是有有益的,因为它可以通过利用使用较少数据用于训练的主动学习技术来实现数据点的准确分类,同时节省处理资源。这可防止将大量计算资源在大数据集上进行可能会花费数天的训练。本方法可以使用使得能够为执行记录匹配而标识有价值的数据的数据子集。
[0024]例如,使用分类结果,可以选择分类最不确定的数据点。例如,可以选择具有遵循预定义结构的概率分布的数据点。为此,可以绘制未标记数据点的概率并可以基于未标记数据点的分布从例如用户接收对选定未标记数据点子集的选择。例如,如果以很高的概率知道数据点类别,则这可能表明经过训练的模型已经很好地学习了对这种类型的数据点的分类。由此,通过选择最不确定的数据点,可以更好地训练模型来学习新数据类型。
附图说明
[0025]以下参考附图仅通过举例更详细地解释本专利技术的实施例,在附图中:
[0026]图1描绘了示例性计算机系统的框图表示。
[0027]图2是根据本公开的示例的用于匹配数据集的数据记录的方法的流程图。
[0028]图3是用于训练机器学习模型的子集的主动学习的方法的流程图。
[0029]图4描绘了示例性计算机系统的框图表示。
[0030]图5表示适于实现本公开中所涉及的一个或多个方法步骤的计算机化系统。
具体实施方式
[0031]本专利技术的各种实施方式的描述是为了说明的目的而给出的,但并不旨在是穷尽性的或限于所公开的实施方式。在不脱离所描述的实施例的范围和精神的情况下,许多修改和变化对本领域普通技术人员将是显而易见的。这里使用的术语被选择来最好地解释实施例的原理、实际应用或对在市场中找到的技术的技术改进,或者使得本领域普通技术人员能够理解这里公开的实施例。
[0032]数据集是一个或多个数据记录的集合。例如,数据集可以以包含在文件中的相关记录的集合的形式来提供。例如,数据集可以是包含班级中的所有学生的记录的文件。数据集可以是例如数据库的表或Hadoop文件系统的文件等。在另一示例中,数据集可包括文档,诸如HTML页面或其他文档类型。该文档可以例如包括患者的数据。
[0033]数据记录或记录是诸如特定用户的姓名、出生日期和班级的相关数据项的集合。记录表示一个实体,其中,实体是指关于其信息被存储在记录中的用户、对象或概念。术语“数据记录”和“记录”可互换地使用。数据记录可以作为具有关系的实体被存储在图形数据库中,其中,每本文档来自技高网
...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】1.一种用于匹配数据集的数据记录的方法,所述数据记录具有属性集合的值,所述方法包括:a)使用当前带标记数据点集合来训练机器学习模型,数据点中的每个数据点都是多个数据记录,其中,数据点的标记指示数据点的分类,所述训练产生被配置为将数据点分类为代表同一实体或不同实体的经过训练的机器学习模型;b)使用用经过训练的机器学习模型对当前未标记数据点集合进行分类的分类结果从当前未标记数据点集合中选择未标记数据点的子集,去除所选择的未标记数据点的子集后的当前未标记数据点集合变成当前未标记数据点集合;c)向分类者提供未标记数据点的子集并且响应于所述提供而接收未标记数据点的子集的标记;d)使用当前带标记数据点集合加上带标记数据点的子集作为当前带标记数据点集合来重复步骤a)至d);e)使用经过训练的机器学习模型来对数据集的数据点进行分类。2.根据权利要求1所述的方法,进一步包括以下之一:使用经过训练的机器学习模型对数据集的数据点的分类来对数据集的数据记录进行去重;基于经过训练的机器学习模型对数据集的数据点的分类来合并或保持数据集的每个数据点的单独的数据记录。3.根据前述权利要求中任一项所述的方法,进一步包括使用经过训练的机器学习模型对数据集的数据点的分类来存储数据集的去重的数据记录。4.根据前述权利要求中任一项所述的方法,其中,在步骤e)中使用的经过训练的机器学习模型是由步骤a)至d)的预定次数的迭代产生的经过训练的机器学习模型。5.根据前述权利要求中任一项所述的方法,其中,进行所述重复达预定义的迭代次数或者直到未标记数据点集合包括数量小于预定义最小数量的数据点。6.根据前述权利要求1至4中任一项所述的方法,其中,步骤d)包括响应于确定所述未标记数据点集合包括数量小于预定义最小数量的数据点,等待直到未标记数据点集合包括数量高于或等于重复步骤a)至d)的预定义最小数量的数据点。7.根据前述权利要求中任一项所述的方法,进一步包括接收另外的未标记数据点,其中,当前未标记数据点集合加上所接收的另外的未标记数据点变成当前未标记数据点集合。8.根据前述权利要求中任一项所述的方法,其中,所述选择未标记数据点的子集还包括:使用分类结果从当前未标记数据点集合中选择未标记数据点的中间子集,使用属性集合的第一属性子集对未标记数据点的中间子集的数据点进行聚类,从而产生多个群集;针对多个群集中的每个群集,标识与该个群集的质心最接近的数据点,其中未标记数据点的子集包括所标识的最接近的数据点。9.根据前述权利要求1

7中任一项所述的方法,其中,所述选择未标记数据点的子集还包括:使用分类结果从当前未标记数据点集合中选择未标记数据点的第一中间子集,使用描述数据点的元数据参数从未标记数据点的第一中间子集中选择未标记数据点的第二中间子集,使用属性集合的第一属性子集对未标记数据点的第二中间子集的数据点进行聚
类,从而产生多个群集;针对多个群集中的每个群集,标识与该个群集的质心最接近的数据点,其中未标记数据点的子集包...

【专利技术属性】
技术研发人员:L
申请(专利权)人:国际商业机器公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1