一种文本聚类的方法及装置制造方法及图纸

技术编号：24497959 阅读：14 留言：0更新日期：2020-06-13 03:48

本发明专利技术公开了一种文本聚类的方法及装置，涉及数据处理技术领域，为解决现有技术中实际特征相似的文本不能实现聚类的问题而发明专利技术。该方法主要包括：根据预训练BERT模型，提取待分类文本中每个句子的原始特征向量；计算所述待分类文本中的当前句子与所述待分类文本中其他句子之间的欧式距离；采用预置注意力机制算法，计算所述待分类文本中每个句子与所述待分类文本中其他句子相比的注意力特征；根据所述注意力特征，采用K‑means聚类算法，将所述待分类文本进行聚类。本发明专利技术主要应用于文本聚类的过程中。

A method and device of text clustering

全部详细技术资料下载

【技术实现步骤摘要】
一种文本聚类的方法及装置
本专利技术涉及一种数据处理
，特别是涉及一种文本聚类的方法及装置。
技术介绍
当今互联网技术的高速普及和社交媒体的广泛使用，促使文本数据数量飞速增长，文本数据如评价信息、客户咨询问题、微博评论等。通过文本聚类可以区分不同的消费群体，也可以提取并概括数据中的特点，通常用于文档聚类、信息过滤、信息推荐或优化搜索等等。通常聚类算法分为划分法、层次法、基于密度的方法、基于网格的方法、基于模型的方法。通常的文本聚类方法包括使用对文本分词、去停用词、使用词频和逆向词频的方式得到文本的特征，然后基于特征进行聚类。现有技术中，采用循环神经网络和注意力机制获取多个待分类短文本的语义特征向量，然后利用聚类算法根据N个初始聚类中心点，对多个待分类短文本的语义特征向量行迭代聚类，将多个待分类短文本的语义特征向量分为多个短文本类。其中，语义特征向量包括上下文局部特征、全局特征。上述聚类方法在特征提取上存在信息丢失的问题，而导致实际特征相似的文本不能实现聚类的问题。
技术实现思路
有鉴于此，本专利技术提供一种文本聚类的方法及装置，主要目的在于解决现有技术中实际特征相似的文本不能实现聚类的问题。依据本专利技术一个方面，提供了一种文本聚类的方法，包括：根据预训练BERT模型，提取待分类文本中每个句子的原始特征向量；计算所述待分类文本中的当前句子与所述待分类文本中其他句子之间的欧式距离；采用预置注意力机制算法，计算所述待分类文本中每个句子与所述待分类文...

【技术保护点】
1.一种文本聚类的方法，其特征在于，包括：/n根据预训练BERT模型，提取待分类文本中每个句子的原始特征向量；/n计算所述待分类文本中的当前句子与所述待分类文本中其他句子之间的欧式距离；/n采用预置注意力机制算法，计算所述待分类文本中每个句子与所述待分类文本中其他句子相比的注意力特征，所述预置注意力机制算法的计算公式为

【技术特征摘要】
1.一种文本聚类的方法，其特征在于，包括：
根据预训练BERT模型，提取待分类文本中每个句子的原始特征向量；
计算所述待分类文本中的当前句子与所述待分类文本中其他句子之间的欧式距离；
采用预置注意力机制算法，计算所述待分类文本中每个句子与所述待分类文本中其他句子相比的注意力特征，所述预置注意力机制算法的计算公式为其中Qi是当前句子的原始特征向量，K是所述当前句子的被考察句子的原始特征向量，d是所述当前句子与所述被考察句子的欧式距离，所述当前句子和所述被考察句子都属于所述待分类文本；
根据所述注意力特征，采用K-means聚类算法，将所述待分类文本进行聚类。

2.如权利要求1所述的方法，其特征在于，所述根据预训练BERT模型，提取待分类文本中每个句子的原始特征向量，包括：
获取所述预训练BERT模型，并启动BERT服务；
调用所述BERT服务，生成所述待分类文本中每个句子的原始特征向量。

3.如权利要求1所述的方法，其特征在于，所述采用预置注意力机制算法，计算所述待分类文本中每个句子与所述待分类文本中其他句子相比的注意力特征之前，所述方法还包括：
统计所述待分类文本中的句子总数；
计算所述当前句子的待注意句子数量，所述待注意句子数量是预置比例与所述句子总数的乘积；
按照所述欧式距离从小到大的顺序，选取所述待注意句子数量的所述欧式距离所对应的待聚类句子；
所述采用预置注意力机制算法，计算所述待分类文本中每个句子与所述待分类文本中其他句子相比的注意力特征，包括：
采用预置注意力机制算法，计算所述待分类文本中每个句子与所述待聚类句子中其他句子相比的注意力特征。

4.如权利要求3所述的方法，其特征在于，所述根据所述注意力特征，采用K-means聚类算法，将所述待分类文本进行聚类，包括：
在所述注意力特征中，选取预置数量的质心组，每个所述质心组中包括待分组数的所述注意力特征的聚类质心，所述预置数量是从所述句子总数中随机选取所述待分组数的组合数；
根据所述注意力特征与所述聚类质心，计算所述每个质心组的类簇平方和；
根据最小的所述类簇平方和对应的质心组，将所述待分类文本进行聚类。

5.如权利要求4所述的方法，其特征在于，所述根据所述注意力特征与所述聚类质心，计算所述每个质心组的类簇...

【专利技术属性】
技术研发人员：陈瑞清，许开河，王少军，
申请(专利权)人：平安科技深圳有限公司，
类型：发明
国别省市：广东;44

全部详细技术资料下载我是这个专利的主人