【技术实现步骤摘要】
基于k-means算法的信息归类方法及相关设备
本申请涉及数据分析
,尤其涉及一种基于k-means算法的信息归类方法及相关设备。
技术介绍
随着大数据技术的日趋发展,在进行信息找寻时可以采用聚类算法对信息进行分类,然后根据分类结果进行有针对性的查找。其中,最常用的聚类算法为k-means算法。k-means算法是一种迭代求解的聚类分析算法,其步骤是随机选取K个对象作为初始的聚类中心,然后计算每个对象与各个种子聚类中心之间的距离,把每个对象分配给距离它最近的聚类中心。其能够很好的对成正态分布的规则数据进行聚类。但是,由于在互联网上记录的数据往往是不成正态分布的不规则数据,导致直接应用k-means算法对信息进行归类时准确率降低,因而需要大量的人工辅助作业,无法实现完全自动化查找。
技术实现思路
基于此,针对目前应用k-means算法对信息进行归类时准确率降低需要大量的人工辅助作业,无法实现完全自动化查找的问题,提供一种基于k-means算法的信息归类方法及相关设备。一种基于k-means算法的信息归类方法,包括如下步骤:获取原始信息,对所述原始信息进行过滤得到客户信息集;提取所述客户信息集中与其它数据不成正态分布的数据作为不规则数据,计算所述不规则数据与所述客户信息集中其它各规则数据之间的聚合度数值;根据所述聚合度数值与预设的聚合度阈值进行比较结果对所述客户信息集中的样本数据进行数据筛选;随机抽取数据筛选后的客户信息集中的若干样本数据作为质心, ...
【技术保护点】
1.一种基于k-means算法的信息归类方法,其特征在于,所述基于k-means算法的信息归类方法包括:/n获取原始信息,对所述原始信息进行过滤得到客户信息集;/n提取所述客户信息集中与其它数据不成正态分布的数据作为不规则数据,计算所述不规则数据与所述客户信息集中其它各规则数据之间的聚合度数值;/n根据所述聚合度数值与预设的聚合度阈值进行比较结果对所述客户信息集中的样本数据进行数据筛选;/n随机抽取数据筛选后的客户信息集中的若干样本数据作为质心,计算所述预处理后的客户信息集中的剩余样本数据与所述各质心之间的距离;/n获取所述距离中最小距离对应的质心A与样本数据A,并将所述样本数据A与所述质心A归为一类,以此类推直至所述预处理后的客户信息集中的所有数据完成归类,得到归类结果。/n
【技术特征摘要】
1.一种基于k-means算法的信息归类方法,其特征在于,所述基于k-means算法的信息归类方法包括:
获取原始信息,对所述原始信息进行过滤得到客户信息集;
提取所述客户信息集中与其它数据不成正态分布的数据作为不规则数据,计算所述不规则数据与所述客户信息集中其它各规则数据之间的聚合度数值;
根据所述聚合度数值与预设的聚合度阈值进行比较结果对所述客户信息集中的样本数据进行数据筛选;
随机抽取数据筛选后的客户信息集中的若干样本数据作为质心,计算所述预处理后的客户信息集中的剩余样本数据与所述各质心之间的距离;
获取所述距离中最小距离对应的质心A与样本数据A,并将所述样本数据A与所述质心A归为一类,以此类推直至所述预处理后的客户信息集中的所有数据完成归类,得到归类结果。
2.根据权利要求1所述的基于k-means算法的信息归类方法,其特征在于,所述获取原始信息,对所述原始信息进行过滤得到客户信息集包括:
从网络中抓取网页,根据预置筛选规则从所述网页中抽取出若干原始信息;
加载客户信息的元素规则,判断所述各原始信息中的元素是否符合所述元素规则;
将符合所述元素规则的原始信息标记为备选信息,否则不标记;
汇集所有所述备选信息,得到所述客户信息集。
3.根据权利要求2述的基于k-means算法的信息归类方法,其特征在于,所述根据预置筛选规则从所述网页中抽取出若干原始信息包括:
根据所述网页的网页结构,将所述网页中的内容划分为结构化数据和非结构化数据;
从所述结构化数据中提取出所有预置客户名对应的行;
根据预设分段阈值将所述非结构化数据划分为多个子段,提取所有包含所述预置客户名的子段;
汇总所述各预置客户名对应的行和所述各包含所述预置客户名的子段,得到所述原始信息。
4.根据权利要求2或3所述的基于k-means算法的信息归类方法,其特征在于,在所述提取所述客户信息集中与其它数据不成正态分布的数据作为不规则数据,计算所述不规则数据与所述客户信息集中其它各规则数据之间的聚合度数值之前,还包括:
将所述客户信息集中的客户信息按照元素类别进行分类,并将分类后的客户信息按照所述元素类别的属性分别建立对应的信息分布坐标图;
根据所述信息分布坐标图中各点之间的距离,确定不规则点;
将所述不规则点对应的客户信息作为所述不规则数据。
5.根据权利要求1所述的基于k-means算法的信息归类方法,其特征在于,所述根据所述聚合度数值与预设的聚合度阈值进行比较结果对所述客户信息集中的样本数据进行数据筛选包括:
以任一所述规则数据在归类坐标系上的位置为圆心,并以对应的预置类别参数的取值为半径画圆A,计算所述不规则数据到所述圆心的距离,以所述距离作为聚合度数值;
若所述聚合度数值大于预设聚合度阈值,则确定所述不规则数据为高聚合数据,否则确定所述不...
【专利技术属性】
技术研发人员:高越,
申请(专利权)人:中国平安人寿保险股份有限公司,
类型:发明
国别省市:广东;44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。