当前位置: 首页 > 专利查询>江苏大学专利>正文

一种基于密度聚类算法DBSCAN算法的相似重复记录的检测优化方法技术

技术编号:38219195 阅读:10 留言:0更新日期:2023-07-25 11:30
本发明专利技术公开了一种基于密度聚类算法DBSCAN算法的相似重复记录的检测优化方法,属于机器学习和数据挖掘领域,共分为四步。第一步对于数据集进行数据规范化处理和数据集初步划分,第二步基于DBSCAN算法引入初始点优化和参数自适应方法,用于改善相似重复记录聚类结果不均匀;第三步对第二步的相似重复记录簇使用N

【技术实现步骤摘要】
一种基于密度聚类算法DBSCAN算法的相似重复记录的检测优化方法


[0001]本专利技术涉及聚类技术和数据清洗技术,具体涉及基于DBSCAN算法的相似重复记录检测优化方法。

技术介绍

[0002]在大数据时代来临的当前,数据量的增长速度飞快,互联网环境下的大数据处理也不再只是对数据的收集,还需要对数据信息进行分析和处理,整合数据信息背后隐藏的价值,获得干净的数据显得尤为重要。尤其随着数据收集的方式多种多样,其中必须要进行的阶段就是数据清洗,大量的事实证明,在数据挖掘系统中,数据预处理所占的工作量达到了整个工作量的60%至80%(Zhang Yan,Han Feng.A Study of Duplicate Elimination in Data Cleaning.International Computer Science and Technology Conference in 2007,Ningbo,China,2007.5:141

144)。合并多个数据源后,由于各种数据源表示模式,表示惯例并不相同,再加上一些输入错误、不一致的缩写等其他因素,使得合并后的数据存在不同描述但却表示同一实体的情况,称为相似重复记录。基于数据的一致性原则,我们必须检测出相似重复记录,并删除它。
[0003]基于相似重复记录的紧密性,和聚类算法各自的优缺点,采取了基于密度的DBSCAN算法来进行重复相似记录的检测。不需要用户提前设置簇的个数,对任意形状的稠密数据集进行聚类,在聚类时可以发现异常点,对大型数据集适应性良好(ESTER M,KRIEGEL H P,SANDER J,et al.A density

based algorithm for discovering clusters in large spatial databases with noise[C]//Proceedings of the 2nd International Conference on Knowledge Discovery and Data Mining.Portland,Oregon:AAAI Press,1996:226

231)。传统的DBSCAN算法存在在初始点选取和参数设置人为因素影响过大的缺点,导致密度聚类不均匀,形成巨大的簇,而忽略低密度的簇。2016年,DAI Yangyang等人(DAI Yangyang,LI Chaofeng,XU Hua,et al.Density spatial clustering algorithm with initial point optimization and parameter self

adaption[J].Computer Engineering,2016,42(1):203

209)提出了OS

DBSCAN算法,优化了初始点的选择,并结合数据集的特点自适应计算Eps和MinPts值。但是引入了聚类个数k、密度参数α、倍率参数β三个参数,不仅没有减少人为干预,反而带来了更大的复杂性。
[0004]现在难度最大而又关键的问题是如何进行优化初始点和参数自适应选取,减少人为设置参数的影响,同时降低算法的复杂性,能过适应大型数据集的相似重复记录的检测,减少运行时间。因此,在DBSCAN密度聚类改进的算法的基础上,提高对于数据集相似重复记录的检测精度和时效性,具有很高的研究价值。

技术实现思路

[0005]本专利技术的目的是将改进的DBSCAN聚类算法运用到数据集的相似重复记录检测中,
来提高相似重复记录检测的精确性和时效性,为此提出了一于DBSCAN算法的相似重复记录检测优化方法。
[0006]本专利技术采用的技术方案是:基于DBSCAN算法的相似重复记录检测优化方法包括以下步骤:
[0007]步骤1,对于获取的数据集中数据进行规范化处理,主要是对于进行数据集初步划分;步骤2,基于DBSCAN算法引入初始点优化和参数自适应方法,用于改善相似重复记录聚类结果不均匀;步骤3,对步骤2聚类的相似重复记录簇使用N

Gram算法进行二次聚类,有效提高检测精度;步骤4,使用学生数据集对上述构建的方法进行训练与测试,验证该方法的有效性。
[0008]进一步,所述步骤1具体包括:
[0009]首先引入中文分词系统对于数据集中的字符型数据进行字段划分处理,并对数值型数据进行规范化处理,然后对于上述字段划分处理进行权重等级转化法,利用优先队列算法对数据集进行初步划分。
[0010]进一步,所述调整节点间的距离的具体方法是:
[0011]步骤1.1,利用中文分词系统ICTCLAS对于数据集中字符型数据进行划分,在分词结果上记录建立倒排索引,统计各个词条在数据集中出现的频率;对于数值型数据进行数据转换,规范化处理,将其中无法识别的字符串或者带有标识性含义的标点进行处理,以及相关的加密处理符号“*”等;
[0012]步骤1.2,根据字段词频和重要程度划分等级,利用等级权重转化法转化为相应权重;
[0013]步骤1.3,根据字段权重,采用优先队列算法;
[0014]进一步,所述步骤2的具体过程为:
[0015]步骤2.1,基于初始点优化:由于聚类初始点是从数据集中任意选取出一样本,判断其为核心点后开始聚类,故计算各个样本间对象间密度,各个样本以对象密度进行从大大小的排序,寻找数据集中全局密度最大的数据样本,将该样本取做为DBSCAN算法的聚类初始点。首先求得各个数据点之间的相互距离,然后将所有的距离数据从小到大排序;然后得到所有距离序列中最小部分所占全部序列的百分比;最后统计出最小距离数据中出现次数最多的数据点,该点就是当前簇的初始点。即在以percent比例对应的距离值为半径的圆,当以初始点为圆心时,该圆所包含的数据点最多,也就是说该初始点是percent条件下的全局密度最大的点。
[0016]步骤2.2,基于函数拟合对于DBSCAN聚类算法的参数自适应选取;参数自适应选取的方法主要过程如下:
[0017]步骤2.2.1,计算样本间距离:使用欧氏距离计算数值型数据间距离:
[0018][0019]其中,n代表数据集中样本点的数目,n即维欧氏空间,x
i
,y
i
代表不同样本点。x
i
(i=1,2,

,n)代表样本点x的第i个坐标,d(x,y)代表两个点x和y之间的距离;
[0020]字符型数据距离度量计算:
[0021][0022]其中数据集X有n个样本x1,x2,x3,

,x
n
每个样本有A个特征,分别记为a1,a2,a3,

,a
A
,且这些特征均为符号属性;
[0023][0024]步骤2.2.2,利用三角不等本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.基于DBSCAN算法的相似重复记录检测优化方法,其特征在于,包括以下步骤:步骤1,对于获取的数据集中数据进行规范化处理,主要是对于进行数据集初步划分;步骤2,基于DBSCAN算法引入初始点优化和参数自适应方法,用于改善相似重复记录聚类结果不均匀;步骤3,对步骤2聚类的相似重复记录簇使用N

Gram算法进行二次聚类,有效提高检测精度;步骤4,使用学生数据集对上述构建的方法进行训练与测试,验证该方法的有效性。2.根据权利要求1所述的基于DBSCAN算法的相似重复记录检测优化方法,其特征在于:所述步骤1具体包括:首先引入中文分词系统对于数据集中的字符型数据进行字段划分处理,并对数值型数据进行规范化处理,然后对于上述字段划分处理进行权重等级转化法,利用优先队列算法对数据集进行初步划分。3.根据权利要求2所述的基于DBSCAN算法的相似重复记录检测优化方法,其特征在于:对数据集进行初步划分的具体方法是:步骤1.1,利用中文分词系统ICTCLAS对于数据集中字符型数据进行划分,在分词结果上记录建立倒排索引,统计各个词条在数据集中出现的频率;对于数值型数据进行数据转换,规范化处理,将其中无法识别的字符串或者带有标识性含义的标点进行处理,以及相关的加密处理符号“*”等;步骤1.2,根据字段词频和重要程度划分等级,利用等级权重转化法转化为相应权重;步骤1.3,根据字段权重,采用优先队列算法。4.根据权利要求1所述的基于DBSCAN算法的相似重复记录检测优化方法,其特征在于:所述步骤2的具体过程为:步骤2.1,基于初始点优化:初始点优化,在DBSCAN算法中通常初始点的选取是任意选取一个点作为初始点,从而判断是否为核心点后开始聚类,从算法角度考虑,如果初始点选择的是全局密度最大的点,那么该点一定是核心点,从而可以节省判断某个点是否为核心点的时间,故计算各个样本间对象间密度,各个样本以对象密度进行从大大小的排序,寻找数据集中全局密度最大的数据样本,将该样本取做为DBSCAN算法的聚类初始点;步骤2.2,基于函数拟合对于DBSCAN聚类算法的参数自适应选取;参数自适应选取的方法主要过程如下:步骤2.2.1,计算样本间距离:使用欧氏距离计算数值型数据间距离:其中,n代表数据集中样本点的数目,n即维欧氏空间,x
i
,y
i
代表不同样本点,x
i
(i=1,2,

,n)代表样本点x的第i个坐标,d(x,y)代表两个点x和y之间的距离;字符型数据距离度量计算:其中,数据集X有n个样本x1,x2,x3,

,x
n
,A代表每个样本的特征属性,分别记为a1,a2,a3,

,a
A
,且这些特征均为符号属性,δ
i
(x
p
,x
q
)计算公式如下:
其中,若样本点x
p
和x
q
的特征属性a相同,则δ
i
(x
p
,x
q
)等于1,否则为0;步骤2.2.2,利用三角不等式性质,两边之和大于第三边,减少一些不必要的计算与比较,d(C1,C2)≤d(b,C1)+d(b,C2)其中,样本点C1,C2,b构成一个三角形,分别代表三角形的三个点,d(C1,C2)代表点C1,C2之间的距离,即三角形其中一边的边长;步骤2.2.3,由于利用欧式距离的DBSCAN算法难以描述复杂结构数据的潜在关系,所以采用测地距离来代替欧式距离,测地距离是用于刻画连通曲面上给定的两点间的最短距离,代表了流体结构上样本的真实距离,可以反映数据分布的全局一...

【专利技术属性】
技术研发人员:熊倩周莲英
申请(专利权)人:江苏大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1