一种文本聚类的方法及装置制造方法及图纸

技术编号:24497959 阅读:14 留言:0更新日期:2020-06-13 03:48
本发明专利技术公开了一种文本聚类的方法及装置,涉及数据处理技术领域,为解决现有技术中实际特征相似的文本不能实现聚类的问题而发明专利技术。该方法主要包括:根据预训练BERT模型,提取待分类文本中每个句子的原始特征向量;计算所述待分类文本中的当前句子与所述待分类文本中其他句子之间的欧式距离;采用预置注意力机制算法,计算所述待分类文本中每个句子与所述待分类文本中其他句子相比的注意力特征;根据所述注意力特征,采用K‑means聚类算法,将所述待分类文本进行聚类。本发明专利技术主要应用于文本聚类的过程中。

A method and device of text clustering

【技术实现步骤摘要】
一种文本聚类的方法及装置
本专利技术涉及一种数据处理
,特别是涉及一种文本聚类的方法及装置。
技术介绍
当今互联网技术的高速普及和社交媒体的广泛使用,促使文本数据数量飞速增长,文本数据如评价信息、客户咨询问题、微博评论等。通过文本聚类可以区分不同的消费群体,也可以提取并概括数据中的特点,通常用于文档聚类、信息过滤、信息推荐或优化搜索等等。通常聚类算法分为划分法、层次法、基于密度的方法、基于网格的方法、基于模型的方法。通常的文本聚类方法包括使用对文本分词、去停用词、使用词频和逆向词频的方式得到文本的特征,然后基于特征进行聚类。现有技术中,采用循环神经网络和注意力机制获取多个待分类短文本的语义特征向量,然后利用聚类算法根据N个初始聚类中心点,对多个待分类短文本的语义特征向量行迭代聚类,将多个待分类短文本的语义特征向量分为多个短文本类。其中,语义特征向量包括上下文局部特征、全局特征。上述聚类方法在特征提取上存在信息丢失的问题,而导致实际特征相似的文本不能实现聚类的问题。
技术实现思路
有鉴于此,本专利技术提供一种文本聚类的方法及装置,主要目的在于解决现有技术中实际特征相似的文本不能实现聚类的问题。依据本专利技术一个方面,提供了一种文本聚类的方法,包括:根据预训练BERT模型,提取待分类文本中每个句子的原始特征向量;计算所述待分类文本中的当前句子与所述待分类文本中其他句子之间的欧式距离;采用预置注意力机制算法,计算所述待分类文本中每个句子与所述待分类文本中其他句子相比的注意力特征,所述预置注意力机制算法的计算公式为其中Qi是当前句子的原始特征向量,K是所述当前句子的被考察句子的原始特征向量,d是所述当前句子与所述被考察句子的欧式距离,所述当前句子和所述被考察句子都属于所述待分类文本;根据所述注意力特征,采用K-means聚类算法,将所述待分类文本进行聚类。依据本专利技术另一个方面,提供了一种文本聚类的装置,包括:提取模块,用于根据预训练BERT模型,提取待分类文本中每个句子的原始特征向量;第一计算模块,用于计算所述待分类文本中的当前句子与所述待分类文本中其他句子之间的欧式距离;第二计算模块,用于采用预置注意力机制算法,计算所述待分类文本中每个句子与所述待分类文本中其他句子相比的注意力特征,所述预置注意力机制算法的计算公式为其中Qi是当前句子的原始特征向量,K是所述当前句子的被考察句子的原始特征向量,d是所述当前句子与所述被考察句子的欧式距离,所述当前句子和所述被考察句子都属于所述待分类文本;聚类模块,用于根据所述注意力特征,采用K-means聚类算法,将所述待分类文本进行聚类。根据本专利技术的又一方面,提供了一种计算机存储介质,所述计算机存储介质中存储有至少一可执行指令,所述可执行指令使处理器执行如上述文本聚类的方法对应的操作。根据本专利技术的再一方面,提供了一种计算机设备,包括:处理器、存储器、通信接口和通信总线,所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信;所述存储器用于存放至少一可执行指令,所述可执行指令使所述处理器执行上述文本聚类的方法对应的操作。借由上述技术方案,本专利技术实施例提供的技术方案至少具有下列优点:本专利技术提供了一种文本聚类的方法及装置,首先根据预训练BERT模型,提取待分类文本中每个句子的原始特征向量,然后计算所述待分类文本中的当前句子与所述待分类文本中其他句子之间的欧式距离,再根据原始特征向量和欧式距离,采用预置注意力机制算法计算待分类文本中每个句子与待分类文本中其他句子相比的注意力特征,最后根据注意力特征,采用K-means聚类算法,将待分类文本进行聚类。与现有技术相比,本专利技术实施例通过预训练BERT模型,能够准确且快速地抽取句子的原始特征向量,采用预置注意力机制算法,通过相似点方式增强原始特征向量,使得各个聚类文本内部更加紧密。上述说明仅是本专利技术技术方案的概述,为了能够更清楚了解本专利技术的技术手段,而可依照说明书的内容予以实施,并且为了让本专利技术的上述和其它目的、特征和优点能够更明显易懂,以下特举本专利技术的具体实施方式。附图说明通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本专利技术的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:图1示出了本专利技术实施例提供的一种文本聚类的方法流程图;图2示出了本专利技术实施例提供的另一种文本聚类的方法流程图;图3示出了本专利技术实施例提供的一种文本聚类的装置组成框图;图4示出了本专利技术实施例提供的另一种文本聚类的装置组成框图;图5示出了本专利技术实施例提供的一种计算机设备的结构示意图。具体实施方式下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。本专利技术实施例提供了一种文本聚类的方法,如图1所示,该方法包括:101、根据预训练BERT模型,提取待分类文本中每个句子的原始特征向量。BERT模型是用于预训练语言表示的自然语言处理模型。BERT模型利用了大量在web上公开可用的纯文本数据,并以非监督的方式进行训练。通过BERT模型进行特征提取,是使用通过web公开的纯文本数据,提取待分类文本中每个句子的原始特征向量,通常是一个[sequence_length,bert_hidden_size]向量。在提取原始特征向量之前,还需要对待分类文本进行拆分,在拆分过程中可以用断句符“?、!、。”对待分类文本进行拆分。由于BERT模型的训练数据是web上的公开数据,所以在实际使用时采用训练完成的预训练BERT模型提取原始特征向量。预训练BERT模型使用大量的语料和大量的参数,通过包含字符信息和时序信息,提取句子的原始特征向量。102、计算所述待分类文本中的当前句子与所述待分类文本中其他句子之间的欧式距离。欧式距离,用于度量句子的相似程度,距离越小相似度越高。所以在本步骤中计算的当前句子与待分类文本中其他句子之间的欧式距离,也是确定文本分类的参数之一。依次选取待分类文本中的所有句子作为当前句子,直至计算待分类文本中所有句子与其他句子之间的欧式距离。103、采用预置注意力机制算法,计算所述待分类文本中每个句子与所述待分类文本中其他句子相比的注意力特征。在原始特征向量的基础上,加入其他句子的原始注意力特征,并以句子之间的距离为关联系数,重新计算待分类文本中每个句子的注意力特征。与原始特征向量相比,注意力特征不仅反映句子本身的特征,还能反映该句子与其他句子的关联特征,使得后续的句子的聚类结果更准确。所述预置注意力机本文档来自技高网...

【技术保护点】
1.一种文本聚类的方法,其特征在于,包括:/n根据预训练BERT模型,提取待分类文本中每个句子的原始特征向量;/n计算所述待分类文本中的当前句子与所述待分类文本中其他句子之间的欧式距离;/n采用预置注意力机制算法,计算所述待分类文本中每个句子与所述待分类文本中其他句子相比的注意力特征,所述预置注意力机制算法的计算公式为

【技术特征摘要】
1.一种文本聚类的方法,其特征在于,包括:
根据预训练BERT模型,提取待分类文本中每个句子的原始特征向量;
计算所述待分类文本中的当前句子与所述待分类文本中其他句子之间的欧式距离;
采用预置注意力机制算法,计算所述待分类文本中每个句子与所述待分类文本中其他句子相比的注意力特征,所述预置注意力机制算法的计算公式为其中Qi是当前句子的原始特征向量,K是所述当前句子的被考察句子的原始特征向量,d是所述当前句子与所述被考察句子的欧式距离,所述当前句子和所述被考察句子都属于所述待分类文本;
根据所述注意力特征,采用K-means聚类算法,将所述待分类文本进行聚类。


2.如权利要求1所述的方法,其特征在于,所述根据预训练BERT模型,提取待分类文本中每个句子的原始特征向量,包括:
获取所述预训练BERT模型,并启动BERT服务;
调用所述BERT服务,生成所述待分类文本中每个句子的原始特征向量。


3.如权利要求1所述的方法,其特征在于,所述采用预置注意力机制算法,计算所述待分类文本中每个句子与所述待分类文本中其他句子相比的注意力特征之前,所述方法还包括:
统计所述待分类文本中的句子总数;
计算所述当前句子的待注意句子数量,所述待注意句子数量是预置比例与所述句子总数的乘积;
按照所述欧式距离从小到大的顺序,选取所述待注意句子数量的所述欧式距离所对应的待聚类句子;
所述采用预置注意力机制算法,计算所述待分类文本中每个句子与所述待分类文本中其他句子相比的注意力特征,包括:
采用预置注意力机制算法,计算所述待分类文本中每个句子与所述待聚类句子中其他句子相比的注意力特征。


4.如权利要求3所述的方法,其特征在于,所述根据所述注意力特征,采用K-means聚类算法,将所述待分类文本进行聚类,包括:
在所述注意力特征中,选取预置数量的质心组,每个所述质心组中包括待分组数的所述注意力特征的聚类质心,所述预置数量是从所述句子总数中随机选取所述待分组数的组合数;
根据所述注意力特征与所述聚类质心,计算所述每个质心组的类簇平方和;
根据最小的所述类簇平方和对应的质心组,将所述待分类文本进行聚类。


5.如权利要求4所述的方法,其特征在于,所述根据所述注意力特征与所述聚类质心,计算所述每个质心组的类簇...

【专利技术属性】
技术研发人员:陈瑞清许开河王少军
申请(专利权)人:平安科技深圳有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1