数据聚类的存储方法、装置及计算机可读存储介质制造方法及图纸

技术编号:24574315 阅读:21 留言:0更新日期:2020-06-21 00:09
本发明专利技术涉及一种人工智能技术,揭露了一种数据聚类的存储方法,包括:将数据集进行文本向量化操作得到数据向量,计算所述数据向量与数据库内的多组数据簇的相似度得到相似度集,判断数值最大的相似度值是否大于预设阈值,若所述数值最大的相似度值大于所述预设阈值,将所述数据集合并至与所述数值最大的相似度值对应的数据簇中得到原始合并数据簇,随机确定K个簇心,根据所述簇心计算所述原始合并数据簇与每组数据簇的聚类系数,在所述原始合并数据簇内去除聚类系数大于预设聚类系数的数据得到标准合并数据簇。本发明专利技术还提出一种数据聚类的存储装置、电子设备以及一种计算机可读存储介质。本发明专利技术可以实现高效、智能的数据聚类的存储功能。

Storage method, device and computer readable storage medium of data clustering

【技术实现步骤摘要】
数据聚类的存储方法、装置及计算机可读存储介质
本专利技术涉及人工智能
,尤其涉及一种数据聚类的存储的方法、装置、电子设备及计算机可读存储介质。
技术介绍
随着大数据及人工智能的兴起,对于庞大数据的需求也越来越高,现有的数据存储多依赖于硬件水平的提升,如扩大硬件的存储容量等方式,扩大硬件存储容量虽然可达到数据存储的目的,但消耗了大量的存储资源,同时在数据读取阶段也会影响读取速度。
技术实现思路
本专利技术提供一种数据聚类的存储方法、装置、电子设备及计算机可读存储介质,其主要目的在于优化存储资源。为实现上述目的,本专利技术提供的一种数据聚类的存储方法,包括:接收客户端输入的数据集,将所述数据集进行文本向量化操作得到数据向量;计算所述数据向量与预先存储在数据库的多组数据簇的相似度得到相似度集;从所述相似度集中提取出数值最大的相似度值,判断所述数值最大的相似度值是否大于预设阈值,若所述数值最大的相似度值小于所述预设阈值,将所述数据集存储至所述数据库内单独的存储空间;若所述数值最大的相似度值大于所述预设阈值,在所述数据库内,将所述数据集合并至与所述数值最大的相似度值对应的数据簇中得到原始合并数据簇,随机确定K个所述原始合并数据簇的簇心;根据所述簇心计算所述原始合并数据簇与每组数据簇的聚类系数;在所述原始合并数据簇内去除聚类系数大于预设聚类系数的数据得到标准合并数据簇。可选地,所述根据所述簇心计算所述原始合并数据簇与每组数据簇的聚类系数,包括:计算所述原始合并数据簇内每个数据xi与所述数据xi在同一簇心的其他所有数据之间的凝聚度a(xi);在所述原始合并数据簇与所述每组数据簇内,遍历其他K-1个簇心的所有数据;计算所述其他K-1簇心的所有数据与所述数据xi的分离度,并排序得到分离度最小值b(xi);根据所述凝聚度和分离度最小值b(xi)计算得出所述聚类系数s(xi)。可选地,所述聚类系数包括采用如下的方式计算:其中,a(x)为所述的凝聚度,b(x)为所述分离度最小值,s(x)为所述聚类系数。可选地,所述随机确定K个所述原始合并数据簇的簇心,包括:根据所述数据向量的维度构建坐标系;将所述原始合并数据簇投射到所述坐标系内得到合并坐标数据集;求解所述合并坐标数据集内数据所在的数据区间,根据所述数据区间确定K值,所述K值作为所述原始合并数据簇的簇心的个数。可选地,所述将所述数据集进行文本向量化操作得到数据向量,包括:对所述数据集进行切词、去停用词的预处理操作得到标准数据集;将所述标准数据集作为预先构建的词向量化公式的参数,求解所述词向量化公式得到所述数据向量。可选地,所述数据向量采用下述方式表示:其中,i表示词的编号,vi表示词i的N维矩阵向量,vj表示词i第j维的数值。可选地,所述计算所述数据向量与预先存储在数据库的多组数据簇的相似度包括:利用下述公式计算所述相似度:其中,x表示所述数据向量,n表示所述数据向量的维度,yi表示所述数据簇内的数据向量,sim(x,yi)表示所述数据向量与所述数据簇内数据向量的相似度值。为了解决上述问题,本专利技术还提供一种数据聚类的存储装置,所述装置包括:文本向量化模块,用于接收客户端输入的数据集,将所述数据集进行文本向量化操作得到数据向量;相似度计算及判断模块,用于计算所述数据向量与预先存储在数据库的多组数据簇的相似度得到相似度集,从所述相似度集中提取出数值最大的相似度值,判断所述数值最大的相似度值是否大于预设阈值,若所述数值最大的相似度值小于所述预设阈值,在所述数据库中重新开辟一个存储空间,将所述数据集存储至所述存储空间内;簇心计算模块,用于若所述数值最大的相似度值大于所述预设阈值,在所述数据库内,将所述数据集合并至与所述数值最大的相似度值对应的数据簇中得到原始合并数据簇,随机确定K个所述原始合并数据簇的簇心,根据所述簇心计算所述原始合并数据簇与每组数据簇的聚类系数;数据合并模块,用于在所述原始合并数据簇内去除聚类系数大于预设聚类系数的数据得到标准合并数据簇。为了解决上述问题,本专利技术还提供一种电子设备,所述电子设备包括:存储器,存储至少一个指令;及处理器,执行所述存储器中存储的指令以实现上述所述的数据聚类的存储方法。为了解决上述问题,本专利技术还提供一种计算机可读存储介质,所述计算机可读存储介质中存储有至少一个指令,所述至少一个指令被电子设备中的处理器执行以实现上述所述的数据聚类的存储方法。本专利技术实施例通过两次相似度的判断,分别实现了聚类以及去除相似数据的目的,首先通过计算数据向量与预先存储在数据库的多组数据簇的相似度得到相似度集,并根据所述相似度集进行分类存储,提高了数据分类的智能化程度,根据对聚类系数的判断去除相似数据,防止相似数据占用大量存储内存的同时,提高了整个存储系统的纯洁性。因此本专利技术提出的数据聚类的存储方法、装置及计算机可读存储介质,可以实现对存储系统的优化。附图说明图1为本专利技术一实施例提供的数据聚类的存储方法的流程示意图;图2为本专利技术一实施例提供的数据聚类的存储方法的模块示意图;图3为本专利技术一实施例提供的数据聚类的存储方法的电子设备的内部结构示意图;本专利技术目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。具体实施方式应当理解,此处所描述的具体实施例仅仅用以解释本专利技术,并不用于限定本专利技术。本专利技术提供一种数据聚类的存储方法。参照图1所示,为本专利技术一实施例提供的数据聚类的存储方法的流程示意图。该方法可以由一个装置执行,该装置可以由软件和/或硬件实现。在本实施例中,数据聚类的存储方法包括:S1、接收客户端输入的数据集,将所述数据集进行文本向量化操作得到数据向量。本专利技术中,所述数据集可包括多类数据,如智能机器平台中存储的问题数据及答案数据。所述客户端输入数据集有多种方式,如提前开发一个智能机器平台的问答输入网页,用户在所述问答输入网页中输入问题数据及答案数据。所述文本向量化操作包括:对所述数据集进行切词、去停用词的预处理操作得到标准数据集,将所述标准数据集作为预先构建的词向量化公式的参数,求解所述词向量化公式得到数据向量。进一步地,所述词向量化公式有多种,如one-hot词向量化、Word2Vec方法等。经过上述文本向量化操作后得到的数据向量的形式如下所示:其中,i表示词的编号,vi表示词i的N维矩阵向量,vj表示词i第j维的数值。S2、计算所述数据向量与预先存储在数据库的多组数据簇的相似度得到相似度集。所述数据簇是预先按照某个标签归类为同一类的数据集,如上述智能机器平台中存储了多种保险行业类的问答数据,有的问答数据是关于汽车保险、有的问答数据是关于教本文档来自技高网...

【技术保护点】
1.一种数据聚类的存储方法,其特征在于,所述方法包括:/n接收客户端输入的数据集,将所述数据集进行文本向量化操作得到数据向量;/n计算所述数据向量与预先存储在数据库的多组数据簇的相似度,得到相似度集;/n从所述相似度集中提取出数值最大的相似度值,判断所述数值最大的相似度值是否大于预设阈值,若所述数值最大的相似度值小于所述预设阈值,将所述数据集存储至所述数据库内单独的存储空间;/n若所述数值最大的相似度值大于所述预设阈值,在所述数据库内,将所述数据集合并至与所述数值最大的相似度值对应的数据簇中,得到原始合并数据簇,随机确定K个所述原始合并数据簇的簇心;/n根据所述簇心计算所述原始合并数据簇与每组数据簇的聚类系数;/n在所述原始合并数据簇内去除聚类系数大于预设聚类系数的数据得到标准合并数据簇。/n

【技术特征摘要】
1.一种数据聚类的存储方法,其特征在于,所述方法包括:
接收客户端输入的数据集,将所述数据集进行文本向量化操作得到数据向量;
计算所述数据向量与预先存储在数据库的多组数据簇的相似度,得到相似度集;
从所述相似度集中提取出数值最大的相似度值,判断所述数值最大的相似度值是否大于预设阈值,若所述数值最大的相似度值小于所述预设阈值,将所述数据集存储至所述数据库内单独的存储空间;
若所述数值最大的相似度值大于所述预设阈值,在所述数据库内,将所述数据集合并至与所述数值最大的相似度值对应的数据簇中,得到原始合并数据簇,随机确定K个所述原始合并数据簇的簇心;
根据所述簇心计算所述原始合并数据簇与每组数据簇的聚类系数;
在所述原始合并数据簇内去除聚类系数大于预设聚类系数的数据得到标准合并数据簇。


2.如权利要求1所述的数据聚类的存储方法,其特征在于,所述根据所述簇心计算所述原始合并数据簇与每组数据簇的聚类系数,包括:
计算所述原始合并数据簇内每个数据xi与所述数据xi在同一簇心的其他所有数据之间的凝聚度a(xi);
在所述原始合并数据簇与所述每组数据簇内,遍历其他K-1个簇心的所有数据;
计算所述其他K-1簇心的所有数据与所述数据xi的分离度,并排序得到分离度最小值b(xi);
根据所述凝聚度和分离度最小值b(xi)计算得出所述聚类系数s(xi)。


3.如权利要求2所述的数据聚类的存储方法,其特征在于,所述聚类系数包括采用如下的方式计算:



其中,a(x)为所述的凝聚度,b(x)为所述分离度最小值,s(x)为所述聚类系数。


4.如权利要求1所述的数据聚类的存储方法,其特征在于,所述随机确定K个所述原始合并数据簇的簇心,包括:
根据所述数据向量的维度构建坐标系;
将所述原始合并数据簇投射到所述坐标系内得到合并坐标数据集;
求解所述合并坐标数据集内数据所在的数据区间,根据所述数据区间确定K值,所述K值作为所述原始合并数据簇的簇心的个数。


5.如权利要求1至4任意一项所述的数据聚类的存储方法,其特征在于,所述将所述数据集进行文本向量化操作得到数据向量,包括:
对所述数据集进行切词、去...

【专利技术属性】
技术研发人员:朱怡霖
申请(专利权)人:深圳壹账通智能科技有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1