一种数据的聚类方法和聚类装置制造方法及图纸

技术编号:15542216 阅读:119 留言:0更新日期:2017-06-05 11:15
本发明专利技术的数据的聚类方法和聚类装置,用于解决现有问题集聚类过程中,受初始条件影响聚类效果差的技术问题。数据的聚类方法,包括:获取待处理数据,所述待处理数据包括测试数据和非测试数据;对测试数据进行第一分类处理,得到第一分类结果;采用初始预设值对测试数据进行第二分类处理,得到第二分类结果;比较所述第二分类结果和所述第一分类结果,当以第一分类结果为标准得到第二分类结果的准确率大于或等于阈值时,将所述初始预设值作为目标预设值;当小于阈值时,不断调整所述初始预设值,直至将所述初始预设值调整为目标预设值时得到新的第二分类结果的准确率大于或等于阈值;采用目标预设值对非测试数据进行第二分类处理。

Data clustering method and clustering device

The clustering method and the clustering device of the present invention are used to solve the technical problem of the poor influence of the initial conditions in the prior problem set clustering process. Including the clustering method, the data of data to be processed, the data to be processed including test data and test data; the test data is the first classification, the classification results obtained first; the initial default values for the test data of second classification second classification results; comparing the classification results and the second the first classification results, the accuracy of the classification results obtained when in the first second classification results as the standard is equal to or greater than the threshold, the initial default value as the target value; when less than the threshold, constantly adjusting the initial default value, until the initial preset accuracy value is adjusted to a preset value target second classification results of greater than or equal to the threshold; the default value of non target test data for the second classification.

【技术实现步骤摘要】
一种数据的聚类方法和聚类装置
本专利技术涉及一种数据处理方法和装置,特别是涉及一种语料数据的处理方法和装置。
技术介绍
在语言处理的自动问答领域中,需要对以语言为载体的问题进行确定,进而建立问题与答案的对应关系,建立相似问题的问题集,即问题集的聚合是确定“问题-答案”业务逻辑的基础技术和重要步骤。在问题集的聚合处理过程中,现有技术采用自动聚类,对相似问题语句进行聚类形成不同的问题集。在聚类过程中需要确定聚类中心的数量和初始位置,以反映聚类中心的类间相异度。然后进行聚类的迭代过程,直至聚类中心位置确定或达到预设精度或迭代次数。由于问题集中存在一些特征分布稀疏不均匀的问题语句数据,使得聚类区域的大小和形状不规整,因此使得类间相异度量难于确定,聚类中心数量和初始位置无法优化。这就造成进行大样本的问题集的聚类时,对噪声问题和离群孤立问题语句数据较敏感,使得少量数据对聚类结果产生较大影响,往往不能形成问题集的最优聚类。
技术实现思路
有鉴于此,本专利技术实施例提供了一种数据的聚类方法和聚类装置,用于解决现有问题集聚类过程中,受初始条件影响聚类效果差的技术问题。本专利技术实施例的数据的聚类方法包括:获取待处理数据,所述待处理数据包括测试数据和非测试数据;对测试数据进行第一分类处理,得到第一分类结果;采用初始预设值对测试数据进行第二分类处理,得到第二分类结果,所述第二分类处理包括:分别获取第M句数据的句向量与已聚类的L个信息组的句向量平均值之间的最大相似度值,当所述最大相似度值大于所述初始预设值时,将第M句数据聚类到所述最大相似度值对应的信息组中;当所述最大相似度值小于所述初始预设值时,将第M句数据作为第L+1个信息组,所述L小于或等于M-1;比较所述第二分类结果和所述第一分类结果,当以第一分类结果为标准得到第二分类结果的准确率大于或等于阈值时,将所述初始预设值作为目标预设值;当以第一分类结果为标准得到第二分类结果的准确率小于阈值时,不断调整所述初始预设值,直至将所述初始预设值调整为目标预设值时得到新的第二分类结果的准确率大于或等于阈值;采用目标预设值对非测试数据进行第二分类处理。本专利技术实施例的数据的聚类装置包括:数据获取模块,用于获取待处理数据,将待处理数据划分为测试数据和非测试数据;第一分类模块,用于对测试数据进行第一分类处理,得到第一分类结果;第二分类模块,用于采用初始预设值对测试数据进行第二分类处理,得到第二分类结果,用于采用目标预设值对非测试数据进行分类处理;进一步用于分别获取第M句数据的句向量与已聚类的L个信息组的句向量平均值之间的最大相似度值,当所述最大相似度值大于所述初始预设值时,将第M句数据聚类到所述最大相似度值对应的信息组中;当所述最大相似度值小于所述初始预设值时,将第M句数据作为第L+1个信息组,所述L小于或等于M-1;参数确定模块,用于比较第二分类结果和第一分类结果,当以第一分类结果为标准得到第二分类结果的准确率大于或等于阈值时,将初始预设值作为目标预设值;当以第一分类结果为标准得到第二分类结果的准确率小于阈值时,不断调整初始预设值,直至将初始预设值调整为目标预设值时得到新的第二分类结果的准确率大于或等于阈值。本专利技术的聚类方法和聚类装置将向量化的语料数据中的测试数据用于半监督学习的聚类和自动聚类,并根据半监督学习的聚类结果调整自动聚类算法的初始预设值形成目标预设值,使得自动聚类算法的聚类结果与半监督学习的聚类结果满足趋同。这样利用采用目标预设值的自动聚类算法对向量化的语料数据中的非测试数据进行聚类,可以有效提高初始分类数据的准确性,改善聚类模型的聚类中心的初始参数,使得类间相异度获得保证,聚类中心位置也可以很好的确定聚类模型的稳定性。使得实际应用中问题集的聚类效果准确,问题有效分组。附图说明图1为本专利技术的数据的聚类方法一实施例的流程图。图2为本专利技术的数据的聚类方法一实施例的第二分类处理的流程图。图3为本专利技术的数据的聚类装置一实施例的架构示意图。具体实施方式下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。图纸中的步骤编号仅用于作为该步骤的附图标记,不表示执行顺序。图1为本专利技术的数据的聚类方法一实施例的流程图。如图1所示,包括:步骤100:获取待处理数据,所述待处理数据包括测试数据和非测试数据。在本专利技术一实施例的数据的聚类方法中,待处理数据为矢量化数据,如问题集或背景集中的语句语料。本实施例从待处理数据中任意选取部分作为测试数据,剩余部分作为非测试数据,其中测试数据的数量远小于非测试数据的数量。步骤200:对测试数据进行第一分类处理,得到第一分类结果。在本专利技术一实施例的数据的聚类方法中,第一分类处理采用单纯的人工分类或半监督学习的人工分类。需要说明的是,在本专利技术的其它实施例中,第一分类处理还可以采用其它非人工的方式完成,只要第一分类处理与第二分类处理的方式不同且第一分类结果的准确率在可以接受的范围内即可,其不限制本专利技术的保护范围。步骤300:采用初始预设值对测试数据进行第二分类处理,得到第二分类结果。在本专利技术一实施例的数据的聚类方法中,第二分类处理包括:分别获取第M句数据的句向量与已聚类的L个信息组的句向量平均值之间的最大相似度值,当所述最大相似度值大于所述初始预设值时,将第M句数据聚类到所述最大相似度值对应的信息组中;当所述最大相似度值小于所述初始预设值时,将第M句数据作为第L+1个信息组,L值小于或等于M-1。本实施例中的第二分类处理,每个句数据的句向量分别与每个信息组的句向量平均值比较相似度,通过对初始预设值调整可以改变处理过程中第M句数据的聚类方向和L个信息组的L值,有利于使得第二分类处理可以根据要求进行高效调整。步骤400:比较所述第二分类结果和所述第一分类结果,当以第一分类结果为标准得到第二分类结果的准确率大于或等于阈值时,将所述初始预设值作为目标预设值;当以第一分类结果为标准得到第二分类结果的准确率小于阈值时,不断调整所述初始预设值,直至将所述初始预设值调整为目标预设值时得到新的第二分类结果的准确率大于或等于阈值。步骤500:采用目标预设值对非测试数据进行第二分类处理。本专利技术实施例的数据的聚类方法分别利用高可靠性分类方法(第一种分类处理)和高效率分类方法(第二种分类处理)对同一组测试数据进行分类,利用高可靠性的第一种分类处理的结果为标准,通过修改高效率的第二种分类处理的初始预设值,使得第二种分类处理的结果最后与第一种分类处理的结果相同或趋同,形成第二种分类处理方法的目标预设值,并利用获得的高效率分类方法处理大量的非测试数据以获得处理效率。有效结合了准确率和效率,避免了现有聚类方法中初始预设值使用随机或伪随机机制进行确定,提高了聚类效果稳定性。图2为本专利技术的数据的聚类方法一实施例的第二分类处理的流程图。如图2所示包括:步骤310:获取T个句向量QT,其中T≥M,M≥2;步骤320:初始K值、中心点PK-1、以及聚类问题集{K,[PK-1]},其中,K表示聚类的类别数,K的初始值为本文档来自技高网...
一种数据的聚类方法和聚类装置

【技术保护点】
一种数据的聚类方法,其特征在于,包括:获取待处理数据,所述待处理数据包括测试数据和非测试数据;对测试数据进行第一分类处理,得到第一分类结果;采用初始预设值对测试数据进行第二分类处理,得到第二分类结果,所述第二分类处理包括:分别获取第M句数据的句向量与已聚类的L个信息组的句向量平均值之间的最大相似度值,当所述最大相似度值大于所述初始预设值时,将第M句数据聚类到所述最大相似度值对应的信息组中;当所述最大相似度值小于所述初始预设值时,将第M句数据作为第L+1个信息组,所述L小于或等于M‑1;比较所述第二分类结果和所述第一分类结果,当以第一分类结果为标准得到第二分类结果的准确率大于或等于阈值时,将所述初始预设值作为目标预设值;当以第一分类结果为标准得到第二分类结果的准确率小于阈值时,不断调整所述初始预设值,直至将所述初始预设值调整为目标预设值时得到新的第二分类结果的准确率大于或等于阈值;采用目标预设值对非测试数据进行第二分类处理。

【技术特征摘要】
1.一种数据的聚类方法,其特征在于,包括:获取待处理数据,所述待处理数据包括测试数据和非测试数据;对测试数据进行第一分类处理,得到第一分类结果;采用初始预设值对测试数据进行第二分类处理,得到第二分类结果,所述第二分类处理包括:分别获取第M句数据的句向量与已聚类的L个信息组的句向量平均值之间的最大相似度值,当所述最大相似度值大于所述初始预设值时,将第M句数据聚类到所述最大相似度值对应的信息组中;当所述最大相似度值小于所述初始预设值时,将第M句数据作为第L+1个信息组,所述L小于或等于M-1;比较所述第二分类结果和所述第一分类结果,当以第一分类结果为标准得到第二分类结果的准确率大于或等于阈值时,将所述初始预设值作为目标预设值;当以第一分类结果为标准得到第二分类结果的准确率小于阈值时,不断调整所述初始预设值,直至将所述初始预设值调整为目标预设值时得到新的第二分类结果的准确率大于或等于阈值;采用目标预设值对非测试数据进行第二分类处理。2.如权利要求1所述的数据的聚类方法,其特征在于,所述第一分类处理为人工分类。3.如权利要求1所述的数据的聚类方法,其特征在于,对所述测试数据进行所述第一分类处理得到的所述第一分类结果中的分类数目与对所述测试数据进行所述第二分类处理得到的所述第二分类结果中的分类数目相同。4.如权利要求1所述的数据的聚类方法,其特征在于,对所述测试数据进行所述第一分类处理得到的所述第一分类结果中各分类的中心点与对所述测试数据进行所述第二分类处理得到的所述第二分类结果中各分类的中心点相同。5.如权利要求1所述的数据的聚类方法,其特征在于,所述测试数据进行所述第二分类处理得到的所述第二分类结果中各分类的中心点动态变化。6.如权利要求1所述的数据的聚类方法,其特征在于,第M句数据的句向量通过以下方式获得:对第M句数据进行预处理和分词处理,得到第M句数据的特征词;获取所述特征词的词向量,并根据所述词向量获取第M句数据的句向量。7.如权利要求6所述的数据的聚类方法,其特征在于,得到所述特征词之后,所述方法进一步包括:采用以下任一种或两种方式对所述特征词进行过滤处理:根据词性对所述特征词进行过滤,保留名词、动词以及形容词;根据频次对所述特征词进行过滤,保留频次大于频次阈值的特征词。8.如权利要求6所述的问句信息处理方法,其特征在于,所述第二分类处理具体包括:对T个句向量QT进行聚类,其中T≥M,M≥2;初始K值、中心点PK-1、以及聚类问题集{K,[PK-1]},其中,K表示聚类的类别数,K的初始值为1,中心点PK-1的初始值为P0,P0=Q1,Q1表示第1个句向量,聚类问题集的初始值为{1,[Q1]};依次对剩下的QT进行聚类,计算当前句向量与每个聚类问题集的中心点的相似度,如果当前句向量与某个聚类问题集的中心点的相似度大于或等于预设值,则将当前句向量聚类到相应的聚类问题集中,保持K值不变,将相应的中心点更新为聚类问题集中所有句向量的向量平均值,相应的聚类问题集为{K,[句向量的向量平均值]};如果当前句向量与所有聚类问题集中的中心点的相似度均小于预设值,则令K=K+1,增加新的中心点,所述新的中心点的值为当前句向量,并增加新的聚类问题集{K,[当前句向量]}。9.一种数据的聚类装置,其特征在于,包括:数据获取模块,用于获取待处理数据,将待处理数据划分为测试数据和非...

【专利技术属性】
技术研发人员:谢瑜张昊朱频频
申请(专利权)人:上海智臻智能网络科技股份有限公司
类型:发明
国别省市:上海,31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1