System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 结构化数据的实体纠错方法、装置、设备及介质制造方法及图纸_技高网

结构化数据的实体纠错方法、装置、设备及介质制造方法及图纸

技术编号:41634475 阅读:7 留言:0更新日期:2024-06-13 02:30
本申请适用于数据清洗技术领域,尤其涉及一种结构化数据的实体纠错方法、装置、设备及介质。该方法将待纠错数据和知识图谱输入图嵌入模型,输出表征待纠错数据中第一属性值与第二属性值之间的第一置信度,将待纠错数据输入语言模型,输出两个属性值的第二置信度,在第一置信度和第二置信度表征第二属性值为错误时,从知识图谱中匹配到第二属性的候选值集合,基于图嵌入模型计算第一属性值与候选值集合中每个候选值的相关性,确定相关性最高的候选值对待纠错数据进行纠错。其中,结合知识图谱的先验知识进行错误检测,并利用错误检测过程中的模型对错误的属性进行纠正,能够有效地结合先验知识对结构化数据进行推理,从而提高了数据纠错的准确性。

【技术实现步骤摘要】

本申请适用于数据清洗,尤其涉及一种结构化数据的实体纠错方法、装置、设备及介质


技术介绍

1、在数据质量方面,结构化的关系型数据的错误修复尤为重要,其主要研究找出并能够修复关系表数据中单元格的错误,包括空值填充、拼写格式错误、不一致性错误、时序错误等方面,其中,错误修复问题分为错误检测和数据修复。针对一关系表数据,首先是找出数据中疑似有问题的单元格,在实际中,除了空值问题,有其他问题的单元格很难被检测出来,例如,不一致性错误需要依靠数据之间的依赖关系进行判断,拼写格式错误需要依赖数据角色和常识知识进行判断等;然后,当错误的单元格被检测出来之后,需要修复其错误,即填入正确的数值,一个常用的方法是将其链接到有强关联的元组或者其他属性上,当候选校对值很多的时候,需要一个技术将最合适的数值进行填入修复。例如,在银行监管报送过程中,需要对银行的交易流水进行检查并校对,而银行需要提供详细的明细表数据和指标数据,由于数据量较大,且由于精度、人工填入、系统故障等原因的存在,造成数据完全正确较为困难,因此需要通过数据质量检测和修复的方式对数据进行清洗。

2、目前,针对数据的检测和修复方法主要为:1)基于规则的方法,该方法采用基于规则挖掘的方法挖掘数据本身的规则和模式,并利用生成的规则来发现数据中的不一致性问题,该方法往往不需要人工注入标签数据,而只依赖数据本身去做错误检测和修复,然而通常挖掘规则的复杂度较高;2)基于统计学习的方法,该方法往往从数据中提取各种特征,比如基于函数依赖的一致性特征,模式特征和基于异常检测的离群特征等,当特征收集了之后,该方法往往采用传统机器学习方法,比如随机森林、支持向量机(support vectormachine,,svm)等进行训练并预测,当用户进行少量标注之后,模型训练并可以用来对未看过的数据进行错误预测和纠正;3)基于神经网络的方法,该方法采用端到端的方式,针对错误检测把问题封装成二分类任务,在有少量人工标注的情况下进行训练并对未看过的单元格进行预测,在错误修复的问题上,采用生成模型的方式生成正确的数值。然而,如果将上述对数据的检测和修复方法应用在结构化数据中,则由于当前嵌入模型主要是通过非结构化文本进行训练得到,对处理结构化数据而言会因为缺少先验知识,而导致无法准确地学习到属性之间的相关性,进而导致在处理结构化数据时准确性较低。

3、因此,如何有效地结合先验知识对结构化数据进行推理,以提高数据纠错的准确性成为亟待解决的问题。


技术实现思路

1、有鉴于此,本申请实施例提供了一种结构化数据的实体纠错方法、装置、设备及介质,以解决如何有效地结合先验知识对结构化数据进行推理,以提高数据纠错的准确性的问题。

2、第一方面,本申请实施例提供一种结构化数据的实体纠错方法,所述实体纠错方法包括:

3、获取待纠错结构化数据中的任一个实体元组,根据所述实体元组中至少一个第一属性的第一属性值和一个第二属性的第二属性值,构建得到待纠错数据,所述第一属性不同于所述第二属性;

4、将所述待纠错数据和预设的知识图谱输入图嵌入模型,输出表征所述第一属性值与所述第二属性值之间相关性的第一置信度;

5、将所述待纠错数据输入语言模型,输出表征所述第一属性值与所述第二属性值之间相关性的第二置信度;

6、若检测到所述第一置信度和所述第二置信度为表征所述第二属性值为错误,则根据所述第一属性值,从所述预设的知识图谱中匹配到所述第二属性的候选值集合;

7、基于所述图嵌入模型,计算所述第一属性值与所述候选值集合中每个候选值的相关性,确定相关性最高的候选值,根据所述相关性最高的候选值,对所述实体元组中所述第二属性值进行纠错,得到纠错后的实体元组。

8、第二方面,本申请实施例提供一种结构化数据的实体纠错装置,所述实体纠错装置包括:

9、待纠错数据确定模块,用于获取待纠错结构化数据中的任一个实体元组,根据所述实体元组中至少一个第一属性的第一属性值和一个第二属性的第二属性值,构建得到待纠错数据,所述第一属性不同于所述第二属性;

10、图嵌入模型分析模块,用于将所述待纠错数据和预设的知识图谱输入图嵌入模型,输出表征所述第一属性值与所述第二属性值之间相关性的第一置信度;

11、语言模型分析模块,用于将所述待纠错数据输入语言模型,输出表征所述第一属性值与所述第二属性值之间相关性的第二置信度;

12、候选值确定模块,用于若检测到所述第一置信度和所述第二置信度为表征所述第二属性值为错误,则根据所述第一属性值,从所述预设的知识图谱中匹配到所述第二属性的候选值集合;

13、属性值纠错模块,用于基于所述图嵌入模型,计算所述第一属性值与所述候选值集合中每个候选值的相关性,确定相关性最高的候选值,根据所述相关性最高的候选值,对所述实体元组中所述第二属性值进行纠错,得到纠错后的实体元组。

14、第三方面,本申请实施例提供一种计算机设备,所述计算机设备包括处理器、存储器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如第一方面所述的实体纠错方法。

15、第四方面,本申请实施例提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现如第一方面所述的实体纠错方法。

16、本申请实施例与现有技术相比存在的有益效果是:本申请获取待纠错结构化数据中的任一个实体元组,根据所述实体元组中至少一个第一属性的第一属性值和一个第二属性的第二属性值,构建得到待纠错数据,将所述待纠错数据和预设的知识图谱输入图嵌入模型,输出表征所述第一属性值与所述第二属性值之间相关性的第一置信度,将所述待纠错数据输入语言模型,输出表征所述第一属性值与所述第二属性值之间相关性的第二置信度,若检测到所述第一置信度和所述第二置信度为表征所述第二属性值为错误,则根据所述第一属性值,从所述预设的知识图谱中匹配到所述第二属性的候选值集合,基于所述图嵌入模型,计算所述第一属性值与所述候选值集合中每个候选值的相关性,确定相关性最高的候选值,根据所述相关性最高的候选值,对所述实体元组中所述第二属性值进行纠错,得到纠错后的实体元组。其中,结合知识图谱的先验知识、图嵌入模型和语言模型进行错误检测,并利用错误检测过程中的模型对错误的属性进行纠正,能够有效地结合先验知识对结构化数据进行推理,从而提高了数据纠错的准确性。

本文档来自技高网...

【技术保护点】

1.一种结构化数据的实体纠错方法,其特征在于,所述实体纠错方法包括:

2.根据权利要求1所述的实体纠错方法,其特征在于,所述基于所述图嵌入模型,计算所述第一属性值与所述候选值集合中每个候选值的相关性,确定相关性最高的候选值,包括:

3.根据权利要求1所述的实体纠错方法,其特征在于,所述将所述待纠错数据和预设的知识图谱输入图嵌入模型,输出表征所述第一属性值与所述第二属性值之间相关性的第一置信度,包括:

4.根据权利要求1所述的实体纠错方法,其特征在于,所述将所述待纠错数据输入语言模型,输出表征所述第一属性值与所述第二属性值之间相关性的第二置信度,包括:

5.根据权利要求1所述的实体纠错方法,其特征在于,在所述若检测到所述第一置信度和所述第二置信度为表征所述第二属性值为错误,则根据所述第一属性值,从所述预设的知识图谱中匹配到所述第二属性的候选值集合之前,还包括:

6.根据权利要求1至5任一项所述的实体纠错方法,其特征在于,在所述根据所述第一属性值,从所述预设的知识图谱中匹配到所述第二属性的候选值集合之后,还包括:

>7.根据权利要求6所述的实体纠错方法,其特征在于,所述预测模型为孪生网络模型,所述将所述第一属性值输入预测模型,输出对应所述第二属性的预测值,包括:

8.一种结构化数据的实体纠错装置,其特征在于,所述实体纠错装置包括:

9.一种计算机设备,其特征在于,所述计算机设备包括处理器、存储器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如权利要求1至7任一项所述的实体纠错方法。

10.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7任一项所述的实体纠错方法。

...

【技术特征摘要】

1.一种结构化数据的实体纠错方法,其特征在于,所述实体纠错方法包括:

2.根据权利要求1所述的实体纠错方法,其特征在于,所述基于所述图嵌入模型,计算所述第一属性值与所述候选值集合中每个候选值的相关性,确定相关性最高的候选值,包括:

3.根据权利要求1所述的实体纠错方法,其特征在于,所述将所述待纠错数据和预设的知识图谱输入图嵌入模型,输出表征所述第一属性值与所述第二属性值之间相关性的第一置信度,包括:

4.根据权利要求1所述的实体纠错方法,其特征在于,所述将所述待纠错数据输入语言模型,输出表征所述第一属性值与所述第二属性值之间相关性的第二置信度,包括:

5.根据权利要求1所述的实体纠错方法,其特征在于,在所述若检测到所述第一置信度和所述第二置信度为表征所述第二属性值为错误,则根据所述第一属性值,从所述预设的知识图谱中匹配到所述第二属性的候选值集合之...

【专利技术属性】
技术研发人员:王尧舒谢珉任威隆樊文飞
申请(专利权)人:深圳计算科学研究院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1