一种短文本框聚类方法、系统、设备及存储介质技术方案

技术编号:28623315 阅读:26 留言:0更新日期:2021-05-28 16:19
本发明专利技术涉及一种短文本框聚类方法、系统、设备及存储介质,该方法包括:对原始短文本进行预处理;提取短文本特征词;将短文本特征词转换为短文本特征向量;先初始化聚类中心,然后将聚类中心映射到LSH表中;再根据短文本到聚类中心的文本相似度,选择若干个候选类;根据哈希值选择短文本特征向量的簇集合;重新计算短文本特征向量的簇集合的新聚类中心;循环执行直到新聚类中心不再发生变化,输出文本聚类结果。本发明专利技术中,采用WMD‑IP距离作为文本相似度,考虑词向量的位置,这样便可更充分的利用词语的语义信息,减少中间计算过程的复杂度,提高短文本框聚类结果的精度。

【技术实现步骤摘要】
一种短文本框聚类方法、系统、设备及存储介质
本专利技术涉及一种短文本框聚类方法、系统、设备及存储介质,属于机器学习和模式识别领域。
技术介绍
随着移动互联网设备的日益普及以及在线网络社交媒体平台的快速发展与应用,新浪微博、知乎、微信、抖音、推特、贴吧、论坛等社交媒体软件在人们日常生活中的使用越来越广泛,它们吸引了数以亿计的互联网用户。这些互联网用户每天都产生海量的文本数据通过这些软件进行传播,这些文本数据字数少,特征随着时间发生变化,承载了大量的信息。如何处理这些短文本数据,对这些短文本数据进行聚类与分析具有重要的研究意义与应用价值。目前,常用的文本聚类方法有以下几种:基于划分的聚类方法、基于层次的聚类方法、基于网格的聚类方法和基于密度的聚类方法。基于划分的聚类方法有K-means算法、CLARANS算法和PAM算法等,通过预先设定聚类数目,对数据样本集合不断迭代与划分,达到簇内数据相似度高,簇间数据相似度低。这种方法在处理大规模样本时结果多是局部最优,对于类簇中心的选择十分敏感,无法解决非凸数据。基于层次的聚类方法有变色龙算法、AGNES算法和CURE算法等,通过将样本集合合并或者分裂成更高或者更细致的子样本集合,最终将样本集合形成一棵层次树,树中的每个节点表示一个簇。这种方法处理大量数据样本的算法平均时间复杂度过高并且已有的操作无法撤回。基于网格的聚类方法有STING算法和CLIQUE算法等,通过对数据样本空间进行划分得到网格结构,按照一定的规则对网格进行聚类合并。这种方法对参数十分敏感,聚类精确度不高。基于密度的聚类方法有DBSCAN算法、OPTICS算法和DENCLUE算法等,通过数据密集程度划分数据样本,首先找出密度较高的样本点,将该样本点周围相近的密度较高的样本点练成一片,最终形成各个类簇。这种方法聚类结果精度与参数设置密切相关,实用性不强。
技术实现思路
针对现有技术的不足,本专利技术提供了一种短文本框聚类方法及系统,对原始短文本数据预处理,提取短文本特征词,将短文本特征词转换为短文本特征向量,对短文本特征向量进行聚类,循环执行直到聚类中心不再发生变化,输出文本聚类结果。本专利技术还提供了一种计算机设备及存储介质。术语解释:1.Word2Vec:词向量语言模型,Word2Vec是Google公司在2013年开源的一种能够将文本转化为词向量的浅层神经网络概率语言模型,该模型根据给定的语料库,通过一个训练后的优化模型将文本转化为向量的语言模型。CBOW模型和Skip-gram模型分别是Word2vec常用的词向量语言模型。2.Skip-gram模型:ContinuousSkip-gramModel,Skip-gram模型可根据当前词来预测其上下文。3.局部敏感哈希算法:局部敏感哈希,LocalitySensitiveHashing,简称LSH。通过选取的哈希函数的映射变换能够将原始的数据集划分为若干较小的子集,且每个子集中的元素个数较小且相邻。如果两个文本在原有的数据空间是相似的,那么分别经过哈希函数转换以后的它们也具有很高的相似度;相反,如果它们本身是不相似的,那么经过转换后它们应仍不具有相似性。将相似的对象以较高的碰撞概率哈希到同一个哈希“桶”中,通过过滤掉大量的不相似的对象来避免不必要的相似性计算,降低相似性计算的代价,以快速获取近邻对象。4.WMD距离:WordMover’sDistance,简称WMD距离,词移距离,用于衡量任意两个文本之间的相似度。5.词频:简称TF,是指文本特征词在文本中出现的次数,如某个文本特征词出现的次数越多,则该文本特征词越重要,且该特征词对文本分类的意义也越大。6.逆文档频率:简称IDF,是指某一特征词对全部文本文档重要程度的度量。特征词的IDF值越大,则该特征词对整个文本集合的影响力也越大。7.词频与逆文档频率的乘积:简称TF-IDF权值,该方法用于信息检索和数据挖掘,是一种常用的统计方法。它用于衡量特征词对文本的重要程度。8.框聚类:指代后续提到的短文本聚类方法,即采用局部敏感哈希算法计算短文本哈希值,从LSH表中查找样本点的最近邻点,选择最近邻点所在的聚类中心作为样本点的簇集合,此过程类似于将样本点放入对应属性方框中,故简称为框聚类。9.半监督学习:利用大量无标记样本和少量有标记样本训练模型,让模型自动地对大量未标记数据进行利用,辅助少量有标记数据进行学习,整个过程不需要人为干预。本专利技术的技术方案为:一种短文本框聚类方法,包括步骤:(1)对提取的原始的短文本进行数据预处理,得到短文本的分词;(2)提取每个短文本的特征词;(3)将短文本的特征词转化为特征词向量;(4)先初始化聚类中心,然后采用局部敏感哈希算法将聚类中心映射到LSH表中;(5)根据短文本到聚类中心的文本相似度,选择若干个候选类;候选类的个数为人为设定,一般选取3-5个,根据具体情况而定,候选类的个数会有所变化;(6)计算每个短文本特征向量在各个候选类中的哈希值,并从LSH表中查找短文本特征向量的最近邻点,选择最近邻点所在的聚类中心作为短文本特征向量的簇集合;各个候选类分别对应一个哈希函数,将短文本带入哈希函数中便可计算得到哈希值;短文本特征向量的簇集合即短文本特征向量所归属的聚类;(7)重新计算短文本特征向量的簇集合的新聚类中心;(8)判断新聚类中心是否发生变化,当新聚类中心发生变化,则重复步骤(5)-(7);当新聚类中心没有发生变化,则输出短文本聚类结果。根据本专利技术优选的,步骤(1)中,对提取的原始的短文本进行数据预处理,具体为:1)数据清洗:去除原始的短文本中的拼写错误、缩略词、口语化表达、不规范的语法表达、表情符号、字符乱码、链接和无用符号;无用符号例如“@、#、[]、【】”;对数据集进行数据清洗,减少数据噪声,达到格式标准化和去除重复数据的目的。2)对数据清洗后的短文本进行文本分词:对于英文文本,直接利用空格对英文文本进行分词;对于中文文本,利用jieba分词器对中文文本进行分词;3)进行停用词处理:通过建立停用词字典,将文本分词结果与停用词字典内的词进行匹配,如匹配成功,则去除该词,否则,保留。停用词字典通过借鉴专用领域通用词典和从大样本中提取关键词两种方法得到。不同的聚类任务有不同的专用领域通用词典,同时不同的聚类任务也要从相对应的样本中提取关键词。根据本专利技术优选的,步骤(2)中,提取每个短文本的特征词,具体过程为:计算每个短文本分词的词频(TF)、逆文档频率(IDF)及词频与逆文档频率的乘积(TF-IDF);对每一个短文本分词的词频与逆文档频率的乘积从大到小进行排序,提取词频与逆文档频率的乘积中前N个词作为短文本特征词,用于表示该短文本;提取词频与逆文档频率的乘积中前N个词作为短文本特征词可以有效地避免短文本特征词向量维度过高、数据稀疏以及计算效率低等本文档来自技高网
...

【技术保护点】
1.一种短文本框聚类方法,其特征在于,包括步骤:/n(1)对提取的原始的短文本进行数据预处理,得到短文本的分词;/n(2)提取每个短文本的特征词;/n(3)将短文本的特征词转化为特征词向量;/n(4)先初始化聚类中心,然后采用局部敏感哈希算法将聚类中心映射到LSH表中;/n(5)根据短文本到聚类中心的文本相似度,选择若干个候选类;/n(6)计算每个短文本特征向量在各个候选类中的哈希值,并从LSH表中查找短文本特征向量的最近邻点,选择最近邻点所在的聚类中心作为短文本特征向量的簇集合;/n(7)重新计算短文本特征向量的簇集合的新聚类中心;/n(8)判断新聚类中心是否发生变化,当新聚类中心发生变化,则重复步骤(5)-(7);当新聚类中心没有发生变化,则输出短文本聚类结果。/n

【技术特征摘要】
1.一种短文本框聚类方法,其特征在于,包括步骤:
(1)对提取的原始的短文本进行数据预处理,得到短文本的分词;
(2)提取每个短文本的特征词;
(3)将短文本的特征词转化为特征词向量;
(4)先初始化聚类中心,然后采用局部敏感哈希算法将聚类中心映射到LSH表中;
(5)根据短文本到聚类中心的文本相似度,选择若干个候选类;
(6)计算每个短文本特征向量在各个候选类中的哈希值,并从LSH表中查找短文本特征向量的最近邻点,选择最近邻点所在的聚类中心作为短文本特征向量的簇集合;
(7)重新计算短文本特征向量的簇集合的新聚类中心;
(8)判断新聚类中心是否发生变化,当新聚类中心发生变化,则重复步骤(5)-(7);当新聚类中心没有发生变化,则输出短文本聚类结果。


2.根据权利要求1所述的一种短文本框聚类方法,其特征在于,步骤(1)中,对提取的原始的短文本进行数据预处理,具体为:
1)数据清洗:去除原始的短文本中的拼写错误、缩略词、口语化表达、不规范的语法表达、表情符号、字符乱码、链接和无用符号;
2)对数据清洗后的短文本进行文本分词:对于英文文本,直接利用空格对英文文本进行分词;对于中文文本,利用jieba分词器对中文文本进行分词;
3)进行停用词处理:通过建立停用词字典,将文本分词结果与停用词字典内的词进行匹配,如匹配成功,则去除该词,否则,保留。


3.根据权利要求1所述的一种短文本框聚类方法,其特征在于,步骤(2)中,提取每个短文本的特征词,具体过程为:
计算每个短文本分词的词频、逆文档频率及词频与逆文档频率的乘积;对每一个短文本分词的词频与逆文档频率的乘积从大到小进行排序,提取词频与逆文档频率的乘积中前N个词作为短文本特征词,用于表示该短文本;
对于短文本j中第i个特征词ti,特征词ti的词频计算公式为:
式(I)中,nij为特征词ti在短文本j中出现的次数,∑k=1nkj表示短文本j中的总词数;
特征词ti的逆文档频率的计算公式为:idfi=log(N/ni)(II),
式(II)中,N表示短文本的总数,ni表示包含特征词ti的短文本数量;
词频与逆文档频率的乘积的计算公式为:
式(III)中,wij表示特征词的权重,∑k=1nkj表示短文本j中总词数,nij为特征词ti在短文本j中出现的次数,N表示短文本的总数,ni表示包含特征词ti的短文本数量。


4.根据权利要求1所述的一种短文本框聚类方法,其特征在于,步骤(4)中,初始化聚类中心的过程为:
根据步骤(3)得到的特征词向量,得到短文本特征向量di,di=[v1,v2,…,vn],i的取值为1,2,3……m;进而得到短文本特征向量集合{d1,d2,d3,…,dm};
从短文本特征向量集合{d1,d2,d3,…,dm}中选择k个短文本作为聚类中心,k≤m,且k为正整数,实现初始化聚类中心。


5.根据权利要求4所述的一种短文本框聚类方法,其特征在于,步骤(4)中,采用局部敏感哈希算法将聚类中心映射到LSH表中,具体过程为:
将聚类中心代入选择的哈希函数,得到对应的哈希值;每个哈希值对应一个哈希桶,然后将该聚类中心放入对应的哈希桶中,将所有的聚类中心经过局部敏感哈希到相应的哈希桶内则得到LSH表。


6.根据权利要求5所述的一种短文本框聚类方法,其特征在于,步骤(4)中,采用半监督学习方法改进局部敏感哈希方法...

【专利技术属性】
技术研发人员:王超俊何清刚魏玉良王凯王佰玲
申请(专利权)人:哈尔滨工业大学威海
类型:发明
国别省市:山东;37

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1