基于词频逆文档频率和最大曲率点的实体解析分块方法技术

技术编号：40066254 阅读：8 留言：0更新日期：2024-01-16 23:28

本发明专利技术涉及基于词频逆文档频率和最大曲率点的实体解析分块方法，包括以下步骤：S1、提取记录中的字符串类型的属性，对于数据集中的每条元组，首先按照属性名提取出字符串类型的属性，然后进行分词，分词后的令牌去除停用词，以使得每条元祖均嵌入令牌，S2、计算词频文档，计算步骤S1中每条元组嵌入的令牌的词频数，移除掉总词频数为1的令牌，建立语料库，S3、筛选令牌，根据步骤S2中建立的语料库算出记录中每个令牌的词频逆文档频率值TF_IDF，S4、完成初步分块，将步骤S3中选出的令牌作为键对记录进行初步的索引分块；本发明专利技术具有保证块质量的同时使减少率大大提升的优点。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术属于数据质量管理，具体涉及基于词频逆文档频率和最大曲率点的实体解析分块方法。

技术介绍

1、实体解析是指识别一个或者多个数据库中指向同一实体的不同记录。实体解析(er)在许多应用中都非常重要，例如为客户匹配来自不同在线商店的产品记录，为国家安全检测人们的财务状况，或分析来自不同医疗机构的健康状况。在数据清理过程中，er是一项非常重要且具有挑战性的任务，因为它对被检查的整个数据的质量有很大的影响。

2、现有技术中的实体解析方法，分为三个步骤：分块，比较和分类。分块可以有效的减少记录对比较的次数。例如，给定一个数据集d，要比较的记录对的总数为中的每一条记录都需要和d中的其他记录进行比较)，为了减少比较记录对的数量，块技术被广泛应用，它可以将潜在匹配的记录分组到同一个块中，由于比较只发生在同一块中的记录之间，因此阻塞可以将比较的记录对的数量减少到不超过其中m是最大块中的记录数，|b|是块数，比如，一种简单的分块方法是将所有具有相同姓名首字母，或者具有相同姓氏属性的记录放在同一块中，比较步骤时比较同一块中对于对之间的相似性，使用的是一些相似度函数，最后，分类步骤是判断哪些记录对是匹配的，哪些是不匹配的，但是传统的分块方法虽然效率高，但是存在着分块质量较差，需要人工标记，人工调参等缺点。新型的分块方法虽然在分块质量上有所提升，但是依然存在效率低，比较记录的减少率低等问题。

技术实现思路

1、本专利技术的目的是克服现有技术的不足而提供一种基于词频逆文档频率和最大曲率点的实体解析分块方法。

2、本专利技术的技术方案如下：

3、基于词频逆文档频率和最大曲率点的实体解析分块方法，包括以下步骤；

4、s1、提取记录中的字符串类型的属性，对于数据集中的每条元组，首先按照属性名提取出字符串类型的属性，然后进行分词，分词后的令牌去除停用词，以使得每条元祖均嵌入令牌；

5、s2、计算词频文档，计算步骤s1中每条元组嵌入的令牌的词频数，移除掉总词频数为1的令牌，建立语料库；

6、s3、筛选令牌，根据步骤s2中建立的语料库算出记录中每个令牌的词频_逆文档频率值tf_idf；

7、s4、完成初步分块，将步骤s3中选出的令牌作为键对记录进行初步的索引分块；

8、s5、计算相似度，计算每个块中每对记录的共现频率-逆块频率(cf_ibf)值；

9、s6、完成块集合优化。

10、进一步，步骤s3中的词频_逆文档频率值tf_idf的计算方法为：tf_idfi，j＝tfi，j*idfi，j，其中i表示i条记录，j表示令牌j，tfi，j可由以下公式得到：其中ni，j代表令牌j在第i条记录中出现的次数，代表令牌j在所有记录中出现的总次数，nk，j代表令牌j在第k条记录中出现的次数，n代表总记录数；

11、idfi，j可由以下公式得到：其中，|d|代表记录的总数，|{j：ti∈dj}|代表包含令牌j的记录数，同时计算出每条元组的平均词频_逆文档频率值，第i条记录的平均tf_idf可由公式计算得出，其中分子代表记录i中m个令牌tf_idf值的和，tf_idfe代表记录i中第e个令牌的tf_idf值，mi代表第i条记录中令牌个数，之后将每条元组的平均词频_逆文档频率值作为门限值对每条元组的令牌进行筛选，移除掉词频_逆文档频率值小于平均词频_逆文档频率的令牌，即当时，移除令牌j。

12、进一步，所述步骤s5中的cf_ibf计算方法为：其中，b表示块集合中的总块数，bi表示包含记录i的块，bj表示包含记录j的块，bi，j表示同时包含i和j的块即记录i和j的公有块数，将此值作为相似度，根据cf_ibf值计算出最大曲率点，将最大曲率点作为门限值对每个块中的记录对进行筛选优化，即移除cf_ibf小于门限值的记录对；

13、计算字符串类型属性的tf-idf，即tf-idfs，计算方法如下：在由相似度、匹配对数构成的累计直方图中，最小点值点(xmin，ymin)和最大值点(xmax，ymax)形成直线为ax+by+c＝0，x代表匹配对数的累加，y代表相似度，则最大曲率点为：其中(xi，yi)是由相似度、匹配对数的累计直方图中的点。

14、进一步，所述步骤s6的块集合优化具体过程如下；

15、s61、根据属性名提取出每块中记录时间类型和数值类型的属性，分别记作ti和di；

16、s62、计算出时间类型的差值其中分别代表第i条记录和第j条记录时间类属性的值，计算出数值类型属性的差值，其中分别代表第i条记录和第j条记录数值型属性的值；

17、s63、计算出时间类型的tf_idf值和数值类型属性的tf_idf值，其中时间类型的tf_idf值和数值类型属性的tf_idf值分别用tf_idft和tf_idfn表示；

18、s64、将tf_idft和tf_idfn值作为门限值对每块中的记录进行优化，最终完成对块集合的优化。

19、进一步，其中步骤s63中的tf_idft由以下方法得出：在由时间类型属性值的差值、匹配对数构成的累计直方图中，最小点值点(xmin，ymin)和最大值点(xmax，ymax)形成直线为ax+by+c＝0，x代表匹配对数的累加，y属性差值，最大曲率点为：其中(xi，yi)是由差值、匹配对数的累计直方图中的点；

20、所述步骤s63中的tf_idfn由以下方法得出：在由数值类型属性值的差值、匹配对数构成的累计直方图中，最小点值点(xmin，ymin)和最大值点(xmax，ymax)形成直线为ax+by+c＝0，x代表匹配对数的累加，y属性差值，最大曲率点为：其中(xi，yi)是由差值、匹配对数的累计直方图中的点。

21、进一步，对于步骤s64中的数值类型的数值优化步骤如下：

22、s641、首先计算每个记录的绝对值差；

23、s642、根据步骤s641中的差值算出数值型属性的最大曲率点，并将此点作为门限值移除绝对值差小于门限值的记录。

24、进一步，对于步骤s64中的日期类型的属性的优化步骤如下：

25、s643、计算日期类型的属性的秒差值；

26、s644、根据步骤s643中的秒差值计算出日期类型的属性的最大曲率点，并将此点作为门限值，移除每个块中小于词门限值的记录对。

27、进一步，所述步骤s1中提取字符串类型的属性是根据属性名进行提取的，对价格，年龄，日期等属性建立列表，属性名不在该列表中的被认为是字符串属性。

28、进一步，步骤s1中令牌的嵌入是将字符串类型的属性筛选出来，然后将其分词，即每个词为一个令牌。

29、与现有技术相比，本专利技术的有益效果是：

30、1、本专利技术提出了属性类型的区别处理，其中字符类型的属性用于预分块，而在对块集合优化阶段，结合字符类型属性，数值类型的属性，日期类型属性等对块进行优化，在保证本文档来自技高网...

【技术保护点】

1.基于词频逆文档频率和最大曲率点的实体解析分块方法，其特征在于：包括以下步骤：

2.根据权利要求1所述的基于词频逆文档频率和最大曲率点的实体解析分块方法，其特征在于：步骤S3中的词频_逆文档频率值TF_IDF的计算方法为：TF-IDFi，j＝TFi，j*IDFi，j，其中i表示i条记录，j表示令牌j，TFi，j可由以下公式得到：其中ni，j代表令牌j在第i条记录中出现的次数，代表令牌j在所有记录中出现的总次数，nk，j代表令牌j在第k条记录中出现的次数，N代表总记录数；

3.根据权利要求1所述的基于词频逆文档频率和最大曲率点的实体解析分块方法，其特征在于：所述步骤S5中的CF_IBF计算方法为：其中，B表示块集合中的总块数，Bi表示包含记录i的块，Bj表示包含记录j的块，Bi，j表示同时包含i和j的块即记录i和j的公有块数，将此值作为相似度，根据CF_IBF值计算出最大曲率点，将最大曲率点作为门限值对每个块中的记录对进行筛选优化，即移除CF_IBF小于门限值的记录对；

4.根据权利要求3所述的基于词频逆文档频率和最大曲率点的实体解析分块方法，

5.根据权利要求4所述的基于词频逆文档频率和最大曲率点的实体解析分块方法，其特征在于：其中步骤S63中的TF_IDFt由以下方法得出：在由时间类型属性值的差值、匹配对数构成的累计直方图中，最小点值点(xmin，ymin)和最大值点(xmax，ymax)形成直线为Ax+By+C＝0，x代表匹配对数的累加，y属性差值，最大曲率点为：其中(xi，yi)是由差值、匹配对数的累计直方图中的点；

6.根据权利要求5所述的基于词频逆文档频率和最大曲率点的实体解析分块方法，其特征在于：对于步骤S64中的数值类型的数值优化步骤如下：

7.根据权利要求5所述的基于词频逆文档频率和最大曲率点的实体解析分块方法，其特征在于：对于步骤S64中的日期类型的属性的优化步骤如下：

8.根据权利要求1所述的基于词频逆文档频率和最大曲率点的实体解析分块方法，其特征在于：所述步骤S1中提取字符串类型的属性是根据属性名进行提取的，对价格，年龄，日期等属性建立列表，属性名不在该列表中的被认为是字符串属性。

9.根据权利要求1所述的基于词频逆文档频率和最大曲率点的实体解析分块方法，其特征在于：步骤S1中令牌的嵌入是将字符串类型的属性筛选出来，然后将其分词，即每个词为一个令牌。

...

【技术特征摘要】

1.基于词频逆文档频率和最大曲率点的实体解析分块方法，其特征在于：包括以下步骤：

2.根据权利要求1所述的基于词频逆文档频率和最大曲率点的实体解析分块方法，其特征在于：步骤s3中的词频_逆文档频率值tf_idf的计算方法为：tf-idfi，j＝tfi，j*idfi，j，其中i表示i条记录，j表示令牌j，tfi，j可由以下公式得到：其中ni，j代表令牌j在第i条记录中出现的次数，代表令牌j在所有记录中出现的总次数，nk，j代表令牌j在第k条记录中出现的次数，n代表总记录数；

3.根据权利要求1所述的基于词频逆文档频率和最大曲率点的实体解析分块方法，其特征在于：所述步骤s5中的cf_ibf计算方法为：其中，b表示块集合中的总块数，bi表示包含记录i的块，bj表示包含记录j的块，bi，j表示同时包含i和j的块即记录i和j的公有块数，将此值作为相似度，根据cf_ibf值计算出最大曲率点，将最大曲率点作为门限值对每个块中的记录对进行筛选优化，即移除cf_ibf小于门限值的记录对；

4.根据权利要求3所述的基于词频逆文档频率和最大曲率点的实体解析分块方法，其特征在于：所述步骤s6的块集合优化具体过程如下；

5.根据权利要求4所...

【专利技术属性】
技术研发人员：史雯隽，耿明明，吴怀广，张静，陈浩然，
申请(专利权)人：郑州轻工业大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人