【技术实现步骤摘要】
一种基于密度聚类算法DBSCAN算法的相似重复记录的检测优化方法
[0001]本专利技术涉及聚类技术和数据清洗技术,具体涉及基于DBSCAN算法的相似重复记录检测优化方法。
技术介绍
[0002]在大数据时代来临的当前,数据量的增长速度飞快,互联网环境下的大数据处理也不再只是对数据的收集,还需要对数据信息进行分析和处理,整合数据信息背后隐藏的价值,获得干净的数据显得尤为重要。尤其随着数据收集的方式多种多样,其中必须要进行的阶段就是数据清洗,大量的事实证明,在数据挖掘系统中,数据预处理所占的工作量达到了整个工作量的60%至80%(Zhang Yan,Han Feng.A Study of Duplicate Elimination in Data Cleaning.International Computer Science and Technology Conference in 2007,Ningbo,China,2007.5:141
‑
144)。合并多个数据源后,由于各种数据源表示模式,表示惯例并不相同,再加上一些输入错误、不一致的缩写等其他因素,使得合并后的数据存在不同描述但却表示同一实体的情况,称为相似重复记录。基于数据的一致性原则,我们必须检测出相似重复记录,并删除它。
[0003]基于相似重复记录的紧密性,和聚类算法各自的优缺点,采取了基于密度的DBSCAN算法来进行重复相似记录的检测。不需要用户提前设置簇的个数,对任意形状的稠密数据集进行聚类,在聚类时可以发现异常点,对大型数据 ...
【技术保护点】
【技术特征摘要】
1.基于DBSCAN算法的相似重复记录检测优化方法,其特征在于,包括以下步骤:步骤1,对于获取的数据集中数据进行规范化处理,主要是对于进行数据集初步划分;步骤2,基于DBSCAN算法引入初始点优化和参数自适应方法,用于改善相似重复记录聚类结果不均匀;步骤3,对步骤2聚类的相似重复记录簇使用N
‑
Gram算法进行二次聚类,有效提高检测精度;步骤4,使用学生数据集对上述构建的方法进行训练与测试,验证该方法的有效性。2.根据权利要求1所述的基于DBSCAN算法的相似重复记录检测优化方法,其特征在于:所述步骤1具体包括:首先引入中文分词系统对于数据集中的字符型数据进行字段划分处理,并对数值型数据进行规范化处理,然后对于上述字段划分处理进行权重等级转化法,利用优先队列算法对数据集进行初步划分。3.根据权利要求2所述的基于DBSCAN算法的相似重复记录检测优化方法,其特征在于:对数据集进行初步划分的具体方法是:步骤1.1,利用中文分词系统ICTCLAS对于数据集中字符型数据进行划分,在分词结果上记录建立倒排索引,统计各个词条在数据集中出现的频率;对于数值型数据进行数据转换,规范化处理,将其中无法识别的字符串或者带有标识性含义的标点进行处理,以及相关的加密处理符号“*”等;步骤1.2,根据字段词频和重要程度划分等级,利用等级权重转化法转化为相应权重;步骤1.3,根据字段权重,采用优先队列算法。4.根据权利要求1所述的基于DBSCAN算法的相似重复记录检测优化方法,其特征在于:所述步骤2的具体过程为:步骤2.1,基于初始点优化:初始点优化,在DBSCAN算法中通常初始点的选取是任意选取一个点作为初始点,从而判断是否为核心点后开始聚类,从算法角度考虑,如果初始点选择的是全局密度最大的点,那么该点一定是核心点,从而可以节省判断某个点是否为核心点的时间,故计算各个样本间对象间密度,各个样本以对象密度进行从大大小的排序,寻找数据集中全局密度最大的数据样本,将该样本取做为DBSCAN算法的聚类初始点;步骤2.2,基于函数拟合对于DBSCAN聚类算法的参数自适应选取;参数自适应选取的方法主要过程如下:步骤2.2.1,计算样本间距离:使用欧氏距离计算数值型数据间距离:其中,n代表数据集中样本点的数目,n即维欧氏空间,x
i
,y
i
代表不同样本点,x
i
(i=1,2,
…
,n)代表样本点x的第i个坐标,d(x,y)代表两个点x和y之间的距离;字符型数据距离度量计算:其中,数据集X有n个样本x1,x2,x3,
…
,x
n
,A代表每个样本的特征属性,分别记为a1,a2,a3,
…
,a
A
,且这些特征均为符号属性,δ
i
(x
p
,x
q
)计算公式如下:
其中,若样本点x
p
和x
q
的特征属性a相同,则δ
i
(x
p
,x
q
)等于1,否则为0;步骤2.2.2,利用三角不等式性质,两边之和大于第三边,减少一些不必要的计算与比较,d(C1,C2)≤d(b,C1)+d(b,C2)其中,样本点C1,C2,b构成一个三角形,分别代表三角形的三个点,d(C1,C2)代表点C1,C2之间的距离,即三角形其中一边的边长;步骤2.2.3,由于利用欧式距离的DBSCAN算法难以描述复杂结构数据的潜在关系,所以采用测地距离来代替欧式距离,测地距离是用于刻画连通曲面上给定的两点间的最短距离,代表了流体结构上样本的真实距离,可以反映数据分布的全局一...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。