The clustering method and the clustering device of the present invention are used to solve the technical problem of the poor influence of the initial conditions in the prior problem set clustering process. Including the clustering method, the data of data to be processed, the data to be processed including test data and test data; the test data is the first classification, the classification results obtained first; the initial default values for the test data of second classification second classification results; comparing the classification results and the second the first classification results, the accuracy of the classification results obtained when in the first second classification results as the standard is equal to or greater than the threshold, the initial default value as the target value; when less than the threshold, constantly adjusting the initial default value, until the initial preset accuracy value is adjusted to a preset value target second classification results of greater than or equal to the threshold; the default value of non target test data for the second classification.
【技术实现步骤摘要】
一种数据的聚类方法和聚类装置
本专利技术涉及一种数据处理方法和装置,特别是涉及一种语料数据的处理方法和装置。
技术介绍
在语言处理的自动问答领域中,需要对以语言为载体的问题进行确定,进而建立问题与答案的对应关系,建立相似问题的问题集,即问题集的聚合是确定“问题-答案”业务逻辑的基础技术和重要步骤。在问题集的聚合处理过程中,现有技术采用自动聚类,对相似问题语句进行聚类形成不同的问题集。在聚类过程中需要确定聚类中心的数量和初始位置,以反映聚类中心的类间相异度。然后进行聚类的迭代过程,直至聚类中心位置确定或达到预设精度或迭代次数。由于问题集中存在一些特征分布稀疏不均匀的问题语句数据,使得聚类区域的大小和形状不规整,因此使得类间相异度量难于确定,聚类中心数量和初始位置无法优化。这就造成进行大样本的问题集的聚类时,对噪声问题和离群孤立问题语句数据较敏感,使得少量数据对聚类结果产生较大影响,往往不能形成问题集的最优聚类。
技术实现思路
有鉴于此,本专利技术实施例提供了一种数据的聚类方法和聚类装置,用于解决现有问题集聚类过程中,受初始条件影响聚类效果差的技术问题。本专利技术实施例的数据的聚类方法包括:获取待处理数据,所述待处理数据包括测试数据和非测试数据;对测试数据进行第一分类处理,得到第一分类结果;采用初始预设值对测试数据进行第二分类处理,得到第二分类结果,所述第二分类处理包括:分别获取第M句数据的句向量与已聚类的L个信息组的句向量平均值之间的最大相似度值,当所述最大相似度值大于所述初始预设值时,将第M句数据聚类到所述最大相似度值对应的信息组中;当所述最大相似度值小于所述 ...
【技术保护点】
一种数据的聚类方法,其特征在于,包括:获取待处理数据,所述待处理数据包括测试数据和非测试数据;对测试数据进行第一分类处理,得到第一分类结果;采用初始预设值对测试数据进行第二分类处理,得到第二分类结果,所述第二分类处理包括:分别获取第M句数据的句向量与已聚类的L个信息组的句向量平均值之间的最大相似度值,当所述最大相似度值大于所述初始预设值时,将第M句数据聚类到所述最大相似度值对应的信息组中;当所述最大相似度值小于所述初始预设值时,将第M句数据作为第L+1个信息组,所述L小于或等于M‑1;比较所述第二分类结果和所述第一分类结果,当以第一分类结果为标准得到第二分类结果的准确率大于或等于阈值时,将所述初始预设值作为目标预设值;当以第一分类结果为标准得到第二分类结果的准确率小于阈值时,不断调整所述初始预设值,直至将所述初始预设值调整为目标预设值时得到新的第二分类结果的准确率大于或等于阈值;采用目标预设值对非测试数据进行第二分类处理。
【技术特征摘要】
1.一种数据的聚类方法,其特征在于,包括:获取待处理数据,所述待处理数据包括测试数据和非测试数据;对测试数据进行第一分类处理,得到第一分类结果;采用初始预设值对测试数据进行第二分类处理,得到第二分类结果,所述第二分类处理包括:分别获取第M句数据的句向量与已聚类的L个信息组的句向量平均值之间的最大相似度值,当所述最大相似度值大于所述初始预设值时,将第M句数据聚类到所述最大相似度值对应的信息组中;当所述最大相似度值小于所述初始预设值时,将第M句数据作为第L+1个信息组,所述L小于或等于M-1;比较所述第二分类结果和所述第一分类结果,当以第一分类结果为标准得到第二分类结果的准确率大于或等于阈值时,将所述初始预设值作为目标预设值;当以第一分类结果为标准得到第二分类结果的准确率小于阈值时,不断调整所述初始预设值,直至将所述初始预设值调整为目标预设值时得到新的第二分类结果的准确率大于或等于阈值;采用目标预设值对非测试数据进行第二分类处理。2.如权利要求1所述的数据的聚类方法,其特征在于,所述第一分类处理为人工分类。3.如权利要求1所述的数据的聚类方法,其特征在于,对所述测试数据进行所述第一分类处理得到的所述第一分类结果中的分类数目与对所述测试数据进行所述第二分类处理得到的所述第二分类结果中的分类数目相同。4.如权利要求1所述的数据的聚类方法,其特征在于,对所述测试数据进行所述第一分类处理得到的所述第一分类结果中各分类的中心点与对所述测试数据进行所述第二分类处理得到的所述第二分类结果中各分类的中心点相同。5.如权利要求1所述的数据的聚类方法,其特征在于,所述测试数据进行所述第二分类处理得到的所述第二分类结果中各分类的中心点动态变化。6.如权利要求1所述的数据的聚类方法,其特征在于,第M句数据的句向量通过以下方式获得:对第M句数据进行预处理和分词处理,得到第M句数据的特征词;获取所述特征词的词向量,并根据所述词向量获取第M句数据的句向量。7.如权利要求6所述的数据的聚类方法,其特征在于,得到所述特征词之后,所述方法进一步包括:采用以下任一种或两种方式对所述特征词进行过滤处理:根据词性对所述特征词进行过滤,保留名词、动词以及形容词;根据频次对所述特征词进行过滤,保留频次大于频次阈值的特征词。8.如权利要求6所述的问句信息处理方法,其特征在于,所述第二分类处理具体包括:对T个句向量QT进行聚类,其中T≥M,M≥2;初始K值、中心点PK-1、以及聚类问题集{K,[PK-1]},其中,K表示聚类的类别数,K的初始值为1,中心点PK-1的初始值为P0,P0=Q1,Q1表示第1个句向量,聚类问题集的初始值为{1,[Q1]};依次对剩下的QT进行聚类,计算当前句向量与每个聚类问题集的中心点的相似度,如果当前句向量与某个聚类问题集的中心点的相似度大于或等于预设值,则将当前句向量聚类到相应的聚类问题集中,保持K值不变,将相应的中心点更新为聚类问题集中所有句向量的向量平均值,相应的聚类问题集为{K,[句向量的向量平均值]};如果当前句向量与所有聚类问题集中的中心点的相似度均小于预设值,则令K=K+1,增加新的中心点,所述新的中心点的值为当前句向量,并增加新的聚类问题集{K,[当前句向量]}。9.一种数据的聚类装置,其特征在于,包括:数据获取模块,用于获取待处理数据,将待处理数据划分为测试数据和非...
【专利技术属性】
技术研发人员:谢瑜,张昊,朱频频,
申请(专利权)人:上海智臻智能网络科技股份有限公司,
类型:发明
国别省市:上海,31
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。