基于长文本的聚类方法与系统技术方案

技术编号:34771806 阅读:19 留言:0更新日期:2022-08-31 19:34
本发明专利技术公开了一种基于长文本的聚类方法,包括:获取待处理的长文本数据;分别对所述长文本数据进行分词处理与分字处理,得到多个关键词以及多个关键字;向量化所述多个关键词以及与多个关键字,得到每个关键词对应的目标词向量以及与每个关键字的目标字向量;对得到的多个目标词向量以及多个目标字向量进行拼接,得到拼接向量;对所述拼接向量进行特征选择,得到目标隐层向量;对所述目标隐层向量进行特征提取,得到所述长文本数据的文本向量;基于预设的聚类算法对所述文本向量进行聚类处理,得到所述长文本数据对应的聚类结果。本发明专利技术用以解决现有技术中聚类不准确的问题。以解决现有技术中聚类不准确的问题。以解决现有技术中聚类不准确的问题。

【技术实现步骤摘要】
基于长文本的聚类方法与系统


[0001]本专利技术实施例涉及文本数据的处理
,尤其涉及一种基于长文本的聚类方法与系统。

技术介绍

[0002]聚类是在无监督的条件下,将文本归类,提取信息的有效算法。简单理解聚类算法,就是将特征相似的数据归为一个簇,特征不同的数据分在不同簇。
[0003]将数据聚类的第一步就是将数据的相关特征转换成向量,再输入聚类模型。我们可以这样理解,如果数据能够用数字向量有效表示其特征,就可以应用聚类算法做聚类。所以聚类算法实际的应用范围非常广泛,如用户画像、生物种群标记、图像分割。
[0004]专利技术人在文本处理时发现,实际业务中,需要处理的聚类文本经常含有很多冗余无效信息,或者文本长度太长,简单处理难以把握文本表达的核心含义。按聚类常规的处理,文本长度太长,将分词出的词向量进行相加,聚类时会被很多冗余的信息干扰,往往达不到很好的聚类效果。如果只是将文本长度截短,也不能有效保证关键信息在保留的部分,导致聚类结果不准确。

技术实现思路

[0005]有鉴于此,本专利技术实施例的目的是提供一种基于长文本的聚类方法与系统,用以解决长文本数据进行聚类时,聚类结果的准确度低的问题。
[0006]为实现上述目的,本专利技术实施例提供了一种基于长文本的聚类方法,包括:
[0007]获取待处理的长文本数据;
[0008]分别对所述长文本数据进行分词处理与分字处理,得到多个关键词以及多个关键字;
[0009]向量化所述多个关键词以及与多个关键字,得到每个关键词对应的目标词向量以及与每个关键字的目标字向量;
[0010]对得到的多个目标词向量以及多个目标字向量进行拼接,得到拼接向量;
[0011]对所述拼接向量进行特征选择,得到目标隐层向量;
[0012]对所述目标隐层向量进行特征提取,得到所述长文本数据的文本向量;
[0013]基于预设的聚类算法对所述文本向量进行聚类处理,得到所述长文本数据对应的聚类结果。
[0014]进一步地,所述分别对所述长文本数据进行分词处理与分字处理,得到多个关键词以及多个关键字包括:
[0015]基于预设的分词模型对所述长文本数据进行分词处理,得到多个关键词;
[0016]将所述长文本数据以字为单位进行分割,得到多个关键字。
[0017]进一步地,所述对得到的多个目标词向量以及多个目标字向量进行拼接,得到拼接向量包括:
[0018]将多个目标字向量按顺序进行拼接,得到拼接字向量E1;
[0019]将多个目标词向量按顺序进行拼接,得到拼接词向量E2;
[0020]拼接所述拼接字向量E1与所述拼接词向量E2,得到拼接向量E3。
[0021]进一步地,所述对所述拼接向量进行特征选择,得到目标隐层向量包括:
[0022]在开始时刻按顺序输入所述拼接向量到预设的LSTM模型中,其中,所述LSTM模型用于对所述拼接向量的第一向量进行压缩,并将压缩后得到的第一向量传入下一时刻;
[0023]下一时刻所述LSTM模型的循环神经网络接收上一时刻的压缩后的第一向量和所述拼接向量的第二向量,将二者压缩成新的向量传入下一时刻;
[0024]在压缩完所述拼接向量中的所有向量后得到每一时刻的隐层向量,将每一时刻的隐层向量进行拼接,得到目标隐层向量。
[0025]进一步地,所述对所述目标隐层向量进行特征提取,得到所述长文本数据的文本向量包括:
[0026]通过预设的编码器对所述目标隐层向量进行特征编码,得到编码向量;所述预设的编码器基于自注意力层为所述目标隐层向量中的预设信息赋予新的权重;
[0027]通过预设的解码器对所述编码向量进行解码,得到所述文本向量。
[0028]进一步地,所述通过预设的解码器对所述编码向量进行解码,得到所述文本向量包括:
[0029]通过所述预设的解码器中的解码自注意力层基于权重对所述编码向量进行解码;
[0030]将解码后的编码向量重新组合,得到所述文本向量。
[0031]进一步地,所述方法还包括:
[0032]基于预设评估条件与所述聚类结果对所述聚类模型进行评估,以更新所述聚类模型。
[0033]为实现上述目的,本专利技术实施例提供了一种基于长文本的聚类系统,包括:
[0034]获取模块,用于获取待处理的长文本数据;
[0035]处理模块,用于分别对所述长文本数据进行分词处理与分字处理,得到多个关键词以及多个关键字;
[0036]向量化模块,用于向量化所述多个关键词以及与多个关键字,得到每个关键词对应的目标词向量以及与每个关键字的目标字向量;
[0037]拼接模块,用于对得到的多个目标词向量以及多个目标字向量进行拼接,得到拼接向量;
[0038]选择模块,用于对所述拼接向量进行特征选择,得到目标隐层向量;
[0039]提取模块,用于对所述目标隐层向量进行特征提取,得到所述长文本数据的文本向量;
[0040]聚类模块,用于基于预设的聚类算法对所述文本向量进行聚类处理,得到所述长文本数据对应的聚类结果。
[0041]为实现上述目的,本专利技术实施例提供了一种计算机设备,所述计算机设备包括存储器、处理器,所述存储器上存储有可在所述处理器上运行的计算机程序,所述计算机程序被所述处理器执行时实现上述的基于长文本的聚类方法的步骤。
[0042]为实现上述目的,本专利技术实施例提供了一种计算机可读存储介质,所述计算机可
读存储介质内存储有计算机程序,所述计算机程序可被至少一个处理器所执行,以使所述至少一个处理器执行上述的基于长文本的聚类方法的步骤。
[0043]本专利技术实施例提供的基于长文本的聚类方法与系统,通过向量化处理保留了长文本数据中字和词的语义特征,同时利用lstm模型提取长文本数据的有效信息,得到隐层向量,最后利用transformer层的编码器与解码器进一步提取有效特征,得到文本向量,进而对文本向量进行聚类,得到聚类结果,lstm模型与transformer层的应用提高了聚类的准确度。
附图说明
[0044]图1为本专利技术基于长文本的聚类方法实施例一的流程图。
[0045]图2为本专利技术基于长文本的聚类方法实施例一中LSTM模型的示意图。
[0046]图3为本专利技术基于长文本的聚类系统实施例二的程序模块示意图。
[0047]图4为本专利技术计算机设备实施例三的硬件结构示意图。
具体实施方式
[0048]为了使本专利技术的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本专利技术进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本专利技术,并不用于限定本专利技术。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。
[0049]实施例一
[0050]参阅图1,示出了本专利技术实施例本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于长文本的聚类方法,其特征在于,包括:获取待处理的长文本数据;分别对所述长文本数据进行分词处理与分字处理,得到多个关键词以及多个关键字;向量化所述多个关键词以及与多个关键字,得到每个关键词对应的目标词向量以及与每个关键字的目标字向量;对得到的多个目标词向量以及多个目标字向量进行拼接,得到拼接向量;对所述拼接向量进行特征选择,得到目标隐层向量;对所述目标隐层向量进行特征提取,得到所述长文本数据的文本向量;基于预设的聚类算法对所述文本向量进行聚类处理,得到所述长文本数据对应的聚类结果。2.根据权利要求1所述的基于长文本的聚类方法,其特征在于,所述分别对所述长文本数据进行分词处理与分字处理,得到多个关键词以及多个关键字包括:基于预设的分词模型对所述长文本数据进行分词处理,得到多个关键词;将所述长文本数据以字为单位进行分割,得到多个关键字。3.根据权利要求2所述的基于长文本的聚类方法,其特征在于,所述对得到的多个目标词向量以及多个目标字向量进行拼接,得到拼接向量包括:将多个目标字向量按顺序进行拼接,得到拼接字向量E1;将多个目标词向量按顺序进行拼接,得到拼接词向量E2;拼接所述拼接字向量E1与所述拼接词向量E2,得到拼接向量E3。4.根据权利要求1所述的基于长文本的聚类方法,其特征在于,所述对所述拼接向量进行特征选择,得到目标隐层向量包括:在开始时刻按顺序输入所述拼接向量到预设的LSTM模型中,其中,所述LSTM模型用于对所述拼接向量的第一向量进行压缩,并将压缩后得到的第一向量传入下一时刻;下一时刻所述LSTM模型的循环神经网络接收上一时刻的压缩后的第一向量和所述拼接向量的第二向量,将二者压缩成新的向量传入下一时刻;在压缩完所述拼接向量中的所有向量后得到每一时刻的隐层向量,将每一时刻的隐层向量进行拼接,得到目标隐层向量。5.根据权利要求1所述的基于长文本的聚类方法,其特征在于,所述对所述目标隐层向量进行特征提取,得到所述长文本数据的文本向量包括:通...

【专利技术属性】
技术研发人员:邹倩霞
申请(专利权)人:深圳壹账通智能科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1