一种文本聚类方法、文本聚类装置及终端设备制造方法及图纸

技术编号:21089800 阅读:31 留言:0更新日期:2019-05-11 10:02
本申请适用于深度学习技术领域,提供了一种文本聚类方法、文本聚类装置及终端设备,包括:获取训练文本,并对所述训练文本进行分词预处理得到多个待训练词语;利用所述待训练词语对预设的转换模型进行训练,得到训练后的转换模型;获取待聚类文本,对所述待聚类文本进行分词预处理得到多个文本特征词;利用所述训练后的转换模型分别将所述文本特征词转换为词向量,并将所述待聚类文本中的所有词向量进行叠加得到所述待聚类文本的文本向量;对所述文本向量进行聚类得到聚类结果。通过上述方法,能够有效提高文本聚类结果的准确性。

A Text Clustering Method, Text Clustering Device and Terminal Device

【技术实现步骤摘要】
一种文本聚类方法、文本聚类装置及终端设备
本申请涉及深度学习
,尤其涉及一种文本聚类方法、文本聚类装置及终端设备。
技术介绍
文本聚类是在传统的聚类分析的基础上发展而来的,其依据是同类的文档相似度较大,不同类的文档相似度较小。作为一种无监督的机器学习方法,聚类不需要训练过程,也不需要预先对文档手工标注类别,因此具有一定的灵活性和较高的自动化处理能力,已经成为对文本信息进行分类和识别的重要手段,为越来越多的研究人员所关注。但是现有的文本聚类方法仍然得不到较高的准确率。
技术实现思路
有鉴于此,本申请实施例提供了一种文本聚类方法、文本聚类装置及终端设备,以解决现有的文本聚类方法的结果准确性较低的问题。本申请实施例的第一方面提供了一种文本聚类方法,包括:获取训练文本,并对所述训练文本进行分词预处理得到多个待训练词语;利用所述待训练词语对预设的转换模型进行训练,得到训练后的转换模型;获取待聚类文本,对所述待聚类文本进行分词预处理得到多个文本特征词;利用所述训练后的转换模型分别将所述文本特征词转换为词向量,并将所述待聚类文本中的所有词向量进行叠加得到所述待聚类文本的文本向量;对所述文本向量进行聚类得到聚类结果。本申请实施例的第二方面提供了一种文本聚类装置,包括:获取单元,用于获取训练文本,并对所述训练文本进行分词预处理得到多个待训练词语;训练单元,用于利用所述待训练词语对预设的转换模型进行训练,得到训练后的转换模型;预处理单元,用于获取待聚类文本,对所述待聚类文本进行分词预处理得到多个文本特征词;叠加单元,用于利用所述训练后的转换模型分别将所述文本特征词转换为词向量,并将所述待聚类文本中的所有词向量进行叠加得到所述待聚类文本的文本向量;聚类单元,用于对所述文本向量进行聚类得到聚类结果。本申请实施例的第三方面提供了一种终端设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现本申请实施例第一方面提供的所述方法的步骤。本申请实施例的第四方面提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被一个或多个处理器执行时实现本申请实施例第一方面提供的所述方法的步骤。本申请实施例与现有技术相比存在的有益效果是:本申请实施例通过获取训练文本,对所述训练文本进行分词预处理得到多个待训练词语,并利用所述待训练词语对预设的转换模型进行训练,通过上述方法,能够得到训练后的转换模型;然后获取待聚类文本,对所述待聚类文本进行分词预处理得到多个文本特征词,利用所述训练后的转换模型分别将所述文本特征词转换为词向量,利用训练后的转换模型能够更准确地将待聚类文本的文本特征词转换为词向量;将所述待聚类文本中的所有词向量进行叠加得到所述待聚类文本的文本向量,对所述文本向量进行聚类得到聚类结果。通过上述方法,能够得到较准确的词向量,进而有效提高了文本聚类结果的准确率。附图说明为了更清楚地说明本申请实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。图1是本申请实施例提供的文本聚类方法的实现流程示意图;图2是本申请实施例提供的文本聚类装置的示意图;图3是本申请实施例提供的终端设备的示意图;图4是本申请实施例提供的二叉树的示意图;图5是本申请实施例提供的哈夫曼树的构建过程示意图。。具体实施方式以下描述中,为了说明而不是为了限定,提出了诸如特定系统结构、技术之类的具体细节,以便透彻理解本申请实施例。然而,本领域的技术人员应当清楚,在没有这些具体细节的其它实施例中也可以实现本申请。在其它情况中,省略对众所周知的系统、装置、电路以及方法的详细说明,以免不必要的细节妨碍本申请的描述。应当理解,当在本说明书和所附权利要求书中使用时,术语“包括”指示所描述特征、整体、步骤、操作、元素和/或组件的存在,但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。还应当理解,在此本申请说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本申请。如在本申请说明书和所附权利要求书中所使用的那样,除非上下文清楚地指明其它情况,否则单数形式的“一”、“一个”及“该”意在包括复数形式。还应当进一步理解,在本申请说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合,并且包括这些组合。如在本说明书和所附权利要求书中所使用的那样,术语“如果”可以依据上下文被解释为“当...时”或“一旦”或“响应于确定”或“响应于检测到”。类似地,短语“如果确定”或“如果检测到[所描述条件或事件]”可以依据上下文被解释为意指“一旦确定”或“响应于确定”或“一旦检测到[所描述条件或事件]”或“响应于检测到[所描述条件或事件]”。为了说明本申请所述的技术方案,下面通过具体实施例来进行说明。图1是本申请实施例提供的文本聚类方法的实现流程示意图,如图所示,所述方法可以包括以下步骤:步骤S101,获取训练文本,并对所述训练文本进行分词预处理得到多个待训练词语。英文的最小单位是词,词间靠空格隔开。而中文的最小单位是字,两个词往往是连续出现的,并没有明显的间隔将其隔开。从语义研究的角度来说,词是原子性的语义单位,因此必须先将其正确的切分成词,才能更好的进行语义上的理解。中文文本分类时,首先需要分词。中文文本的分词也就是指将文本原本连续的字符串根据一定规范进行切分将其切分成一个个单独的具有特定语义的词。在一个实施例中,所述对所述训练文本进行分词预处理得到多个训练词语,包括:去除所述训练文本中的标点符号得到第一预处理文本。去除所述第一预处理文本中的停用词得到第二预处理文本。对所述第二预处理文本进行分词处理得到多个文本特征词。在实际应用中,在分词之前,需要对待聚类文本进行分词预处理,去除如“。”、“*”、“/”、“+”等标点符号,还要去除如“the”、“a”、“an”、“that”、“你”、“我”、“他们”、“想要”、“打开”、“可以”等无意义的虚词之类的停用词,进而得到训练所需的文本特征词。其中,停用词是指在信息检索中,为节省存储空间和提高搜索效率,在处理自然语言数据(或文本)之前或之后会自动过滤掉某些字或词。这些停用词一般是由人工输入、非自动化生成的,生成后的停用词会形成一个停用词表。步骤S102,利用所述待训练词语对预设的转换模型进行训练,得到训练后的转换模型。在一个实施例中,所述利用所述待训练词语对预设的转换模型进行训练,,得到训练后的转换模型,包括:分别统计每个待训练词语在所述训练文本中出现的词频,并根据所述词频构建哈夫曼树。获取初始信息,并根据所述初始信息和构建的哈夫曼树,对所述待训练词语进行训练,得到训练后的转换模型。其中,所述初始信息包括预设窗口、初始参数向量和初始词向量。其中,哈夫曼树是一种带权路径长度最短的二叉树,也称最优二叉树。参见图4,图4是本申请实施例提供的二叉树的示意图。如图所示,图4(a)中带权路径长度为WPL=5*2+7*2+2本文档来自技高网...

【技术保护点】
1.一种文本聚类方法,其特征在于,包括:获取训练文本,并对所述训练文本进行分词预处理得到多个待训练词语;利用所述待训练词语对预设的转换模型进行训练,得到训练后的转换模型;获取待聚类文本,对所述待聚类文本进行分词预处理得到多个文本特征词;利用所述训练后的转换模型分别将所述文本特征词转换为词向量,并将所述待聚类文本中的所有词向量进行叠加得到所述待聚类文本的文本向量;对所述文本向量进行聚类得到聚类结果。

【技术特征摘要】
1.一种文本聚类方法,其特征在于,包括:获取训练文本,并对所述训练文本进行分词预处理得到多个待训练词语;利用所述待训练词语对预设的转换模型进行训练,得到训练后的转换模型;获取待聚类文本,对所述待聚类文本进行分词预处理得到多个文本特征词;利用所述训练后的转换模型分别将所述文本特征词转换为词向量,并将所述待聚类文本中的所有词向量进行叠加得到所述待聚类文本的文本向量;对所述文本向量进行聚类得到聚类结果。2.如权利要求1所述的文本聚类方法,其特征在于,所述对所述训练文本进行分词预处理得到多个训练词语,包括:去除所述训练文本中的标点符号得到第一预处理文本;去除所述第一预处理文本中的停用词得到第二预处理文本;对所述第二预处理文本进行分词处理得到多个文本特征词。3.如权利要求1所述的文本聚类方法,其特征在于,所述利用所述待训练词语对预设的转换模型进行训练,得到训练后的转换模型,包括:分别统计每个待训练词语在所述训练文本中出现的词频,并根据所述词频构建哈夫曼树;获取初始信息,并根据所述初始信息和构建的哈夫曼树,对所述待训练词语进行训练,得到训练后的转换模型;其中,所述初始信息包括预设窗口、初始参数向量和初始词向量。4.如权利要求3所述的文本聚类方法,其特征在于,所述根据所述初始信息和构建的哈夫曼树,对所述待训练词语进行训练,得到训练后的转换模型,包括:按照所述初始信息中的预设窗口获取所述待训练词语的上下文,并计算所述待训练词语的上下文中包含的所有待训练词语的词向量之和,得到和向量;在所述哈夫曼树中确定从根节点到所述待训练词语的路径;利用贝叶斯公式,并基于所述和向量计算所述路径对应的概率;对所述概率取对数计算得到目标函数,将所述目标函数作为训练后的转换模型。5.如权利要求4所述的文本聚类方法,其特征在于,在对所述概率取对数计算得到目标函数之后,还包括:将所述目标函数对所述初始信息中的初始参数向量求导得到第一增量,并利用θ’=θ0+αη1对所述初始参数向量进行更新;将所述目标函数对所述和向...

【专利技术属性】
技术研发人员:刘志勇任晓德吴又奎
申请(专利权)人:中科恒运股份有限公司
类型:发明
国别省市:河北,13

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1