基于k-means算法的信息归类方法及相关设备技术

技术编号:24853828 阅读:21 留言:0更新日期:2020-07-10 19:07
本申请涉及数据分析技术领域,尤其涉及一种基于k‑means算法的信息归类方法及相关设备,包括:获取原始信息,对原始信息进行过滤得到客户信息集;提取不规则数据,计算不规则数据与客户信息集中其它各规则数据之间的聚合度数值;根据聚合度数值对客户信息集中的数据进行预处理;随机抽取预处理后的客户信息集中的若干样本数据作为质心,计算预处理后的客户信息集中的剩余样本数据与各质心之间的距离;获取距离中最小距离对应的质心A与样本数据A,并将样本数据A与质心A归为一类,得到归类结果;获取归类结果对应的预置联系策略,并基于联系策略联系对应的客户端。提升了聚类的准确度,进而提升了计算机自动查找客户信息的准确度。

【技术实现步骤摘要】
基于k-means算法的信息归类方法及相关设备
本申请涉及数据分析
,尤其涉及一种基于k-means算法的信息归类方法及相关设备。
技术介绍
随着大数据技术的日趋发展,在进行信息找寻时可以采用聚类算法对信息进行分类,然后根据分类结果进行有针对性的查找。其中,最常用的聚类算法为k-means算法。k-means算法是一种迭代求解的聚类分析算法,其步骤是随机选取K个对象作为初始的聚类中心,然后计算每个对象与各个种子聚类中心之间的距离,把每个对象分配给距离它最近的聚类中心。其能够很好的对成正态分布的规则数据进行聚类。但是,由于在互联网上记录的数据往往是不成正态分布的不规则数据,导致直接应用k-means算法对信息进行归类时准确率降低,因而需要大量的人工辅助作业,无法实现完全自动化查找。
技术实现思路
基于此,针对目前应用k-means算法对信息进行归类时准确率降低需要大量的人工辅助作业,无法实现完全自动化查找的问题,提供一种基于k-means算法的信息归类方法及相关设备。一种基于k-means算法的信息归类方法,包括如下步骤:获取原始信息,对所述原始信息进行过滤得到客户信息集;提取所述客户信息集中与其它数据不成正态分布的数据作为不规则数据,计算所述不规则数据与所述客户信息集中其它各规则数据之间的聚合度数值;根据所述聚合度数值与预设的聚合度阈值进行比较结果对所述客户信息集中的样本数据进行数据筛选;随机抽取数据筛选后的客户信息集中的若干样本数据作为质心,计算所述预处理后的客户信息集中的剩余样本数据与所述各质心之间的距离;获取所述距离中最小距离对应的质心A与样本数据A,并将所述样本数据A与所述质心A归为一类,以此类推直至所述预处理后的客户信息集中的所有数据完成归类,得到归类结果。在其中一个可能的实施例中,所述获取原始信息,对所述原始信息进行过滤得到客户信息集,包括:从网络中抓取网页,根据预置筛选规则从所述网页中抽取出若干原始信息;加载客户信息的元素规则,判断所述各原始信息中的元素是否符合所述元素规则;将符合所述元素规则的原始信息标记为备选信息,否则不标记;汇集所有所述备选信息,得到所述客户信息集。在其中一个可能的实施例中,所述根据预置筛选规则从所述网页中抽取出若干原始信息,包括:根据所述网页的网页结构,将所述网页中的内容划分为结构化数据和非结构化数据;从所述结构化数据中提取出所有预置客户名对应的行;根据预设分段阈值将所述非结构化数据划分为多个子段,提取所有包含所述预置客户名的子段;汇总所述各预置客户名对应的行和所述各包含所述预置客户名的子段,得到所述原始信息。在其中一个可能的实施例中,在所述提取所述客户信息集中与其它数据不成正态分布的数据作为不规则数据,计算所述不规则数据与所述客户信息集中其它各规则数据之间的聚合度数值之前,还包括:将所述客户信息集中的客户信息按照元素类别进行分类,并将分类后的客户信息按照所述元素类别的属性分别建立对应的信息分布坐标图;根据所述信息分布坐标图中各点之间的距离,确定不规则点;将所述不规则点对应的客户信息作为所述不规则数据。在其中一个可能的实施例中,所述根据所述聚合度数值与预设的聚合度阈值进行比较结果对所述客户信息集中的样本数据进行数据筛选,包括:以任一所述规则数据在归类坐标系上的位置为圆心,并以对应的预置类别参数的取值为半径画圆A,计算所述不规则数据到所述圆心的距离,以所述距离作为聚合度数值;若所述聚合度数值大于预设聚合度阈值,则确定所述不规则数据为高聚合数据,否则确定所述不规则数据为低聚合数据;以所述高聚合数据在所述归类坐标系上的位置为圆心,以所述类别参数为半径画圆B,判断所述低聚合数据是否在所述圆B内;若所述低聚合数据在所述圆B内,则将所述低聚合数据和所述高聚合数据打包成一个样本数据,否则舍弃所述低聚合数据。在其中一个可能的实施例中,在所述获取所述距离中最小距离对应的质心A与样本数据A,并将所述样本数据A与所述质心A归为一类,以此类推直至所述预处理后的客户信息集中的所有数据完成归类,得到归类结果之后,还包括:获取所述归类结果对应的预置联系策略,并基于所述联系策略联系对应的客户端;根据所述客户端的反馈信息,判断所述原始信息对应的客户是否已经联系成功;若联系失败,则根据预置异常数据规则判断原始信息中是否含有异常数据;若含有所述异常数据,则将所述异常数据去除后进行重新分类,否则标记为疑难客户,以供等待人工处理。一种基于k-means算法的信息归类装置,包括如下模块:信息集建立模块,用于获取原始信息,对所述原始信息进行过滤得到客户信息集;聚合度获取模块,用于提取所述客户信息集中与其它数据不成正态分布的数据作为不规则数据,计算所述不规则数据与所述客户信息集中其它各规则数据之间的聚合度数值;预处理模块,用于根据所述聚合度数值与预设的聚合度阈值进行比较结果对所述客户信息集中的样本数据进行数据筛选;样本分析模块,用于随机抽取数据筛选后的客户信息集中的若干样本数据作为质心,计算所述预处理后的客户信息集中的剩余样本数据与所述各质心之间的距离;结果生成模块,用于获取所述距离中最小距离对应的质心A与样本数据A,并将所述样本数据A与所述质心A归为一类,以此类推直至所述预处理后的客户信息集中的所有数据完成归类,得到归类结果。在其中一个可能的实施例中,所述信息集建立模块,还用于:从网络中抓取网页,根据预置筛选规则从所述网页中抽取出若干原始信息;加载客户信息的元素规则,判断所述各原始信息中的元素是否符合所述元素规则;将符合所述元素规则的原始信息标记为备选信息,否则不标记;汇集所有所述备选信息,得到所述客户信息集。一种计算机设备,包括存储器和处理器,所述存储器中存储有计算机可读指令,所述计算机可读指令被所述处理器执行时,使得所述处理器执行上述基于k-means算法的信息归类方法的步骤。一种存储有计算机可读指令的存储介质,所述计算机可读指令被一个或多个处理器执行时,使得一个或多个处理器执行上述基于k-means算法的信息归类方法的步骤。与现有机制相比,本申请通过获取原始信息,对所述原始信息进行过滤得到客户信息集;提取所述客户信息集中与其它数据不成正态分布的数据作为不规则数据,计算所述不规则数据与所述客户信息集中其它各规则数据之间的聚合度数值;根据所述聚合度数值与预设的聚合度阈值进行比较结果对所述客户信息集中的样本数据进行数据筛选;随机抽取数据筛选后的客户信息集中的若干样本数据作为质心,计算所述预处理后的客户信息集中的剩余样本数据与所述各质心之间的距离;获取所述距离中最小距离对应的质心A与样本数据A,并将所述样本数据A与所述质心A归为一类,以此类推直至所述预处理后的客户信息集中的所有数据完成归本文档来自技高网...

【技术保护点】
1.一种基于k-means算法的信息归类方法,其特征在于,所述基于k-means算法的信息归类方法包括:/n获取原始信息,对所述原始信息进行过滤得到客户信息集;/n提取所述客户信息集中与其它数据不成正态分布的数据作为不规则数据,计算所述不规则数据与所述客户信息集中其它各规则数据之间的聚合度数值;/n根据所述聚合度数值与预设的聚合度阈值进行比较结果对所述客户信息集中的样本数据进行数据筛选;/n随机抽取数据筛选后的客户信息集中的若干样本数据作为质心,计算所述预处理后的客户信息集中的剩余样本数据与所述各质心之间的距离;/n获取所述距离中最小距离对应的质心A与样本数据A,并将所述样本数据A与所述质心A归为一类,以此类推直至所述预处理后的客户信息集中的所有数据完成归类,得到归类结果。/n

【技术特征摘要】
1.一种基于k-means算法的信息归类方法,其特征在于,所述基于k-means算法的信息归类方法包括:
获取原始信息,对所述原始信息进行过滤得到客户信息集;
提取所述客户信息集中与其它数据不成正态分布的数据作为不规则数据,计算所述不规则数据与所述客户信息集中其它各规则数据之间的聚合度数值;
根据所述聚合度数值与预设的聚合度阈值进行比较结果对所述客户信息集中的样本数据进行数据筛选;
随机抽取数据筛选后的客户信息集中的若干样本数据作为质心,计算所述预处理后的客户信息集中的剩余样本数据与所述各质心之间的距离;
获取所述距离中最小距离对应的质心A与样本数据A,并将所述样本数据A与所述质心A归为一类,以此类推直至所述预处理后的客户信息集中的所有数据完成归类,得到归类结果。


2.根据权利要求1所述的基于k-means算法的信息归类方法,其特征在于,所述获取原始信息,对所述原始信息进行过滤得到客户信息集包括:
从网络中抓取网页,根据预置筛选规则从所述网页中抽取出若干原始信息;
加载客户信息的元素规则,判断所述各原始信息中的元素是否符合所述元素规则;
将符合所述元素规则的原始信息标记为备选信息,否则不标记;
汇集所有所述备选信息,得到所述客户信息集。


3.根据权利要求2述的基于k-means算法的信息归类方法,其特征在于,所述根据预置筛选规则从所述网页中抽取出若干原始信息包括:
根据所述网页的网页结构,将所述网页中的内容划分为结构化数据和非结构化数据;
从所述结构化数据中提取出所有预置客户名对应的行;
根据预设分段阈值将所述非结构化数据划分为多个子段,提取所有包含所述预置客户名的子段;
汇总所述各预置客户名对应的行和所述各包含所述预置客户名的子段,得到所述原始信息。


4.根据权利要求2或3所述的基于k-means算法的信息归类方法,其特征在于,在所述提取所述客户信息集中与其它数据不成正态分布的数据作为不规则数据,计算所述不规则数据与所述客户信息集中其它各规则数据之间的聚合度数值之前,还包括:
将所述客户信息集中的客户信息按照元素类别进行分类,并将分类后的客户信息按照所述元素类别的属性分别建立对应的信息分布坐标图;
根据所述信息分布坐标图中各点之间的距离,确定不规则点;
将所述不规则点对应的客户信息作为所述不规则数据。


5.根据权利要求1所述的基于k-means算法的信息归类方法,其特征在于,所述根据所述聚合度数值与预设的聚合度阈值进行比较结果对所述客户信息集中的样本数据进行数据筛选包括:
以任一所述规则数据在归类坐标系上的位置为圆心,并以对应的预置类别参数的取值为半径画圆A,计算所述不规则数据到所述圆心的距离,以所述距离作为聚合度数值;
若所述聚合度数值大于预设聚合度阈值,则确定所述不规则数据为高聚合数据,否则确定所述不...

【专利技术属性】
技术研发人员:高越
申请(专利权)人:中国平安人寿保险股份有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1