一种短文本框聚类方法、系统、设备及存储介质技术方案

技术编号：28623315 阅读：26 留言：0更新日期：2021-05-28 16:19

本发明专利技术涉及一种短文本框聚类方法、系统、设备及存储介质，该方法包括：对原始短文本进行预处理；提取短文本特征词；将短文本特征词转换为短文本特征向量；先初始化聚类中心，然后将聚类中心映射到LSH表中；再根据短文本到聚类中心的文本相似度，选择若干个候选类；根据哈希值选择短文本特征向量的簇集合；重新计算短文本特征向量的簇集合的新聚类中心；循环执行直到新聚类中心不再发生变化，输出文本聚类结果。本发明专利技术中，采用WMD‑IP距离作为文本相似度，考虑词向量的位置，这样便可更充分的利用词语的语义信息，减少中间计算过程的复杂度，提高短文本框聚类结果的精度。

全部详细技术资料下载

【技术实现步骤摘要】
一种短文本框聚类方法、系统、设备及存储介质
本专利技术涉及一种短文本框聚类方法、系统、设备及存储介质，属于机器学习和模式识别领域。
技术介绍
随着移动互联网设备的日益普及以及在线网络社交媒体平台的快速发展与应用，新浪微博、知乎、微信、抖音、推特、贴吧、论坛等社交媒体软件在人们日常生活中的使用越来越广泛，它们吸引了数以亿计的互联网用户。这些互联网用户每天都产生海量的文本数据通过这些软件进行传播，这些文本数据字数少，特征随着时间发生变化，承载了大量的信息。如何处理这些短文本数据，对这些短文本数据进行聚类与分析具有重要的研究意义与应用价值。目前，常用的文本聚类方法有以下几种：基于划分的聚类方法、基于层次的聚类方法、基于网格的聚类方法和基于密度的聚类方法。基于划分的聚类方法有K-means算法、CLARANS算法和PAM算法等，通过预先设定聚类数目，对数据样本集合不断迭代与划分，达到簇内数据相似度高，簇间数据相似度低。这种方法在处理大规模样本时结果多是局部最优，对于类簇中心的选择十分敏感，无法解决非凸数据。基于层次的聚类方法有变色龙算法、AGNES算法和CURE算法等，通过将样本集合合并或者分裂成更高或者更细致的子样本集合，最终将样本集合形成一棵层次树，树中的每个节点表示一个簇。这种方法处理大量数据样本的算法平均时间复杂度过高并且已有的操作无法撤回。基于网格的聚类方法有STING算法和CLIQUE算法等，通过对数据样本空间进行划分得到网格结构，按照一定的规则对网格进行聚类合并。这种方法对参数十...

【技术保护点】
1.一种短文本框聚类方法，其特征在于，包括步骤：/n(1)对提取的原始的短文本进行数据预处理,得到短文本的分词；/n(2)提取每个短文本的特征词；/n(3)将短文本的特征词转化为特征词向量；/n(4)先初始化聚类中心，然后采用局部敏感哈希算法将聚类中心映射到LSH表中；/n(5)根据短文本到聚类中心的文本相似度，选择若干个候选类；/n(6)计算每个短文本特征向量在各个候选类中的哈希值，并从LSH表中查找短文本特征向量的最近邻点，选择最近邻点所在的聚类中心作为短文本特征向量的簇集合；/n(7)重新计算短文本特征向量的簇集合的新聚类中心；/n(8)判断新聚类中心是否发生变化，当新聚类中心发生变化，则重复步骤(5)-(7)；当新聚类中心没有发生变化，则输出短文本聚类结果。/n

【技术特征摘要】
1.一种短文本框聚类方法，其特征在于，包括步骤：
(1)对提取的原始的短文本进行数据预处理,得到短文本的分词；
(2)提取每个短文本的特征词；
(3)将短文本的特征词转化为特征词向量；
(4)先初始化聚类中心，然后采用局部敏感哈希算法将聚类中心映射到LSH表中；
(5)根据短文本到聚类中心的文本相似度，选择若干个候选类；
(6)计算每个短文本特征向量在各个候选类中的哈希值，并从LSH表中查找短文本特征向量的最近邻点，选择最近邻点所在的聚类中心作为短文本特征向量的簇集合；
(7)重新计算短文本特征向量的簇集合的新聚类中心；
(8)判断新聚类中心是否发生变化，当新聚类中心发生变化，则重复步骤(5)-(7)；当新聚类中心没有发生变化，则输出短文本聚类结果。

2.根据权利要求1所述的一种短文本框聚类方法，其特征在于，步骤(1)中，对提取的原始的短文本进行数据预处理，具体为：
1)数据清洗：去除原始的短文本中的拼写错误、缩略词、口语化表达、不规范的语法表达、表情符号、字符乱码、链接和无用符号；
2)对数据清洗后的短文本进行文本分词：对于英文文本，直接利用空格对英文文本进行分词；对于中文文本，利用jieba分词器对中文文本进行分词；
3)进行停用词处理：通过建立停用词字典，将文本分词结果与停用词字典内的词进行匹配，如匹配成功，则去除该词，否则，保留。

3.根据权利要求1所述的一种短文本框聚类方法，其特征在于，步骤(2)中，提取每个短文本的特征词，具体过程为：
计算每个短文本分词的词频、逆文档频率及词频与逆文档频率的乘积；对每一个短文本分词的词频与逆文档频率的乘积从大到小进行排序，提取词频与逆文档频率的乘积中前N个词作为短文本特征词，用于表示该短文本；
对于短文本j中第i个特征词ti，特征词ti的词频计算公式为：
式(I)中，nij为特征词ti在短文本j中出现的次数，∑k＝1nkj表示短文本j中的总词数；
特征词ti的逆文档频率的计算公式为：idfi＝log(N/ni)(II)，
式(II)中，N表示短文本的总数，ni表示包含特征词ti的短文本数量；
词频与逆文档频率的乘积的计算公式为：
式(III)中，wij表示特征词的权重，∑k＝1nkj表示短文本j中总词数,nij为特征词ti在短文本j中出现的次数，N表示短文本的总数，ni表示包含特征词ti的短文本数量。

4.根据权利要求1所述的一种短文本框聚类方法，其特征在于，步骤(4)中，初始化聚类中心的过程为：
根据步骤(3)得到的特征词向量，得到短文本特征向量di，di＝[v1,v2,…,vn]，i的取值为1,2,3……m；进而得到短文本特征向量集合{d1,d2,d3,…,dm}；
从短文本特征向量集合{d1,d2,d3,…,dm}中选择k个短文本作为聚类中心，k≤m，且k为正整数，实现初始化聚类中心。

5.根据权利要求4所述的一种短文本框聚类方法，其特征在于，步骤(4)中，采用局部敏感哈希算法将聚类中心映射到LSH表中，具体过程为：
将聚类中心代入选择的哈希函数，得到对应的哈希值；每个哈希值对应一个哈希桶，然后将该聚类中心放入对应的哈希桶中，将所有的聚类中心经过局部敏感哈希到相应的哈希桶内则得到LSH表。

6.根据权利要求5所述的一种短文本框聚类方法，其特征在于，步骤(4)中，采用半监督学习方法改进局部敏感哈希方法...

【专利技术属性】
技术研发人员：王超俊，何清刚，魏玉良，王凯，王佰玲，
申请(专利权)人：哈尔滨工业大学威海，
类型：发明
国别省市：山东;37

全部详细技术资料下载我是这个专利的主人