一种文本聚类方法、文本聚类装置及终端设备制造方法及图纸

技术编号：21089800 阅读：31 留言：0更新日期：2019-05-11 10:02

本申请适用于深度学习技术领域，提供了一种文本聚类方法、文本聚类装置及终端设备，包括：获取训练文本，并对所述训练文本进行分词预处理得到多个待训练词语；利用所述待训练词语对预设的转换模型进行训练，得到训练后的转换模型；获取待聚类文本，对所述待聚类文本进行分词预处理得到多个文本特征词；利用所述训练后的转换模型分别将所述文本特征词转换为词向量，并将所述待聚类文本中的所有词向量进行叠加得到所述待聚类文本的文本向量；对所述文本向量进行聚类得到聚类结果。通过上述方法，能够有效提高文本聚类结果的准确性。

A Text Clustering Method, Text Clustering Device and Terminal Device

全部详细技术资料下载

【技术实现步骤摘要】
一种文本聚类方法、文本聚类装置及终端设备
本申请涉及深度学习
，尤其涉及一种文本聚类方法、文本聚类装置及终端设备。
技术介绍
文本聚类是在传统的聚类分析的基础上发展而来的，其依据是同类的文档相似度较大，不同类的文档相似度较小。作为一种无监督的机器学习方法，聚类不需要训练过程，也不需要预先对文档手工标注类别，因此具有一定的灵活性和较高的自动化处理能力，已经成为对文本信息进行分类和识别的重要手段，为越来越多的研究人员所关注。但是现有的文本聚类方法仍然得不到较高的准确率。
技术实现思路
有鉴于此，本申请实施例提供了一种文本聚类方法、文本聚类装置及终端设备，以解决现有的文本聚类方法的结果准确性较低的问题。本申请实施例的第一方面提供了一种文本聚类方法，包括：获取训练文本，并对所述训练文本进行分词预处理得到多个待训练词语；利用所述待训练词语对预设的转换模型进行训练，得到训练后的转换模型；获取待聚类文本，对所述待聚类文本进行分词预处理得到多个文本特征词；利用所述训练后的转换模型分别将所述文本特征词转换为词向量，并将所述待聚类文本中的所有词向量进行叠加得到所述待聚类文本的文本向量；对所述文本向量进行聚类得到聚类结果。本申请实施例的第二方面提供了一种文本聚类装置，包括：获取单元，用于获取训练文本，并对所述训练文本进行分词预处理得到多个待训练词语；训练单元，用于利用所述待训练词语对预设的转换模型进行训练，得到训练后的转换模型；预处理单元，用于获取待聚类文本，对所述待聚类文本进行分词预处理得到多个文本特征词；叠加单元，用于利用所述训练后的转换模型分别将所述文本特征词转换为词向...

【技术保护点】
1.一种文本聚类方法，其特征在于，包括：获取训练文本，并对所述训练文本进行分词预处理得到多个待训练词语；利用所述待训练词语对预设的转换模型进行训练，得到训练后的转换模型；获取待聚类文本，对所述待聚类文本进行分词预处理得到多个文本特征词；利用所述训练后的转换模型分别将所述文本特征词转换为词向量，并将所述待聚类文本中的所有词向量进行叠加得到所述待聚类文本的文本向量；对所述文本向量进行聚类得到聚类结果。

【技术特征摘要】
1.一种文本聚类方法，其特征在于，包括：获取训练文本，并对所述训练文本进行分词预处理得到多个待训练词语；利用所述待训练词语对预设的转换模型进行训练，得到训练后的转换模型；获取待聚类文本，对所述待聚类文本进行分词预处理得到多个文本特征词；利用所述训练后的转换模型分别将所述文本特征词转换为词向量，并将所述待聚类文本中的所有词向量进行叠加得到所述待聚类文本的文本向量；对所述文本向量进行聚类得到聚类结果。2.如权利要求1所述的文本聚类方法，其特征在于，所述对所述训练文本进行分词预处理得到多个训练词语，包括：去除所述训练文本中的标点符号得到第一预处理文本；去除所述第一预处理文本中的停用词得到第二预处理文本；对所述第二预处理文本进行分词处理得到多个文本特征词。3.如权利要求1所述的文本聚类方法，其特征在于，所述利用所述待训练词语对预设的转换模型进行训练，得到训练后的转换模型，包括：分别统计每个待训练词语在所述训练文本中出现的词频，并根据所述词频构建哈夫曼树；获取初始信息，并根据所述初始信息和构建的哈夫曼树，对所述待训练词语进行训练，得到训练后的转换模型；其中，所述初始信息包括预设窗口、初始参数向量和初始词向量。4.如权利要求3所述的文本聚类方法，其特征在于，所述根据所述初始信息和构建的哈夫曼树，对所述待训练词语进行训练，得到训练后的转换模型，包括：按照所述初始信息中的预设窗口获取所述待训练词语的上下文，并计算所述待训练词语的上下文中包含的所有待训练词语的词向量之和，得到和向量；在所述哈夫曼树中确定从根节点到所述待训练词语的路径；利用贝叶斯公式，并基于所述和向量计算所述路径对应的概率；对所述概率取对数计算得到目标函数，将所述目标函数作为训练后的转换模型。5.如权利要求4所述的文本聚类方法，其特征在于，在对所述概率取对数计算得到目标函数之后，还包括：将所述目标函数对所述初始信息中的初始参数向量求导得到第一增量，并利用θ’＝θ0+αη1对所述初始参数向量进行更新；将所述目标函数对所述和向...

【专利技术属性】
技术研发人员：刘志勇，任晓德，吴又奎，
申请(专利权)人：中科恒运股份有限公司，
类型：发明
国别省市：河北,13

全部详细技术资料下载我是这个专利的主人