文本聚类模型训练方法、文本聚类方法、装置及相关设备制造方法及图纸

技术编号:38837796 阅读:13 留言:0更新日期:2023-09-17 09:53
本发明专利技术公开了一种文本聚类模型训练方法、文本聚类方法、装置及相关设备,所述方法包括:从训练文本中获取至少一句训练句子,并确定训练句子的字特征和实体特征;将字特征和实体特征进行融合,得到融合特征;对融合特征进行编码处理和池化平均处理,得到第一句向量组和第二句向量组;将第一句向量组和第二句向量组输入第一对比学习模块进行对比学习,并确定第一损失值;将第一句向量组和所述第二句向量组输入第二对比学习模块进行聚类,并确定第二损失值;当第一损失值和所述第二损失值满足预设条件时,将得到的模型作为文本聚类模型,采用本发明专利技术提高面对复杂语义的医疗问答信息时的聚类准确率。类准确率。类准确率。

【技术实现步骤摘要】
文本聚类模型训练方法、文本聚类方法、装置及相关设备


[0001]本专利技术涉及数据处理领域,尤其涉及一种文本聚类模型训练方法、文本聚类方法、装置及相关设备。

技术介绍

[0002]近来,随着互联网的飞速发展,各种社交媒体大量涌现,在健康相关的医疗领域,出现了许多在线医疗问答网站,它们为患者提供了更多元化的医疗信息获取渠道。
[0003]由于医疗问答信息为非结构化文本,为了充分利用医疗问答信息,抽取和挖掘出有用的医疗意图,一般采用聚类方法。聚类是一种无监督的机器学习方法,文本聚类是根据文档特征将文档聚集为文档簇,通过聚类可以更加高效的对海量数据进行识别并归类,获取有效知识。常用的方法为从医疗问答信息中提取出静态文本向量,采用K

means聚类对提取到的静态文本向量进行聚类。但静态文本向量难以适应复杂语义情况。当医疗问答信息为复杂语义信息时,会导致聚类的准确率较低。
[0004]因此,在面对复杂语义的医疗问答信息时,存在聚类准确率低的问题。

技术实现思路

[0005]本专利技术实施例提供一种文本聚类模型训练方法、文本聚类方法、装置及相关设备,以提高面对复杂语义的医疗问答信息时的聚类准确率。
[0006]为了解决上述技术问题,本申请实施例提供一种文本聚类模型训练方法,包括:从训练文本中获取至少一句训练句子,并确定所述训练句子的字特征和实体特征,其中,所述字特征为所述训练句子中每个字对应的特征,所述实体特征为所述训练句子中每个字对应的实体特征;基于初始文本聚类模型的门控模块,将所述字特征和所述实体特征进行融合,得到融合特征,其中,所述初始文本聚类模型还包括第一编码层、第二编码层、第一对比学习模块和第二对比学习模块,所述第一编码层的随机失活值和所述第二编码层的随机失活值不同;采用所述第一编码层对所述融合特征进行编码和池化平均处理,得到第一句向量组,采用所述第二编码层对所述融合特征进行编码和池化平均处理,得到第二句向量组;将所述第一句向量组和所述第二句向量组均转化为N行L列的矩阵,输入所述第一对比学习模块进行对比学习,并根据学习到的结果确定第一损失值,其中,N和L均为正整数;将所述第一句向量组和所述第二句向量组均转化为M行N列的矩阵,输入所述第二对比学习模块进行聚类,并根据得到的聚类结果确定第二损失值,其中,M为正整数;当所述第一损失值和所述第二损失值满足预设条件时,将得到的模型作为文本聚类模型。
[0007]为了解决上述技术问题,本申请实施例提供一种文本聚类方法,包括:
从待聚类文本中获取至少一个待聚类句子;将所述待聚类句子输入文本聚类模型进行文本聚类,得到聚类结果,其中,所述文本聚类模型为根据上述文本聚类模型训练方法训练得到的模型。
[0008]为了解决上述技术问题,本申请实施例还提供一种文本聚类模型训练装置,包括:训练句子获取模块,用于从训练文本中获取至少一句训练句子,并确定所述训练句子的字特征和实体特征,其中,所述字特征为所述训练句子中每个字对应的特征,所述实体特征为所述训练句子中每个字对应的实体特征;融合特征获取模块,用于基于初始文本聚类模型的门控模块,将所述字特征和所述实体特征进行融合,得到融合特征,其中,所述初始文本聚类模型还包括第一编码层、第二编码层、第一对比学习模块和第二对比学习模块,所述第一编码层的随机失活值和所述第二编码层的随机失活值不同;编码模块,用于采用所述第一编码层对所述融合特征进行编码和池化平均处理,得到第一句向量组,采用所述第二编码层对所述融合特征进行编码和池化平均处理,得到第二句向量组;第一损失值获取模块,用于将所述第一句向量组和所述第二句向量组均转化为N行L列的矩阵,输入所述第一对比学习模块进行对比学习,并根据学习到的结果确定第一损失值,其中,N和L均为正整数;第二损失值获取模块,用于将所述第一句向量组和所述第二句向量组均转化为M行N列的矩阵,输入所述第二对比学习模块进行聚类,并根据得到的聚类结果确定第二损失值,其中,M为正整数;文本聚类模型获取模块,用于当所述第一损失值和所述第二损失值满足预设条件时,将得到的模型作为文本聚类模型。
[0009]为了解决上述技术问题,本申请实施例还提供一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述文本聚类模型训练方法的步骤,或者,所述处理器执行所述计算机程序时实现上述文本聚类方法的步骤。
[0010]为了解决上述技术问题,本申请实施例还提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述文本聚类模型训练方法的步骤,或者,所述计算机程序被处理器执行时实现上述文本聚类方法的步骤。
[0011]本专利技术实施例提供的文本聚类模型训练方法、文本聚类方法、装置及相关设备,从训练文本中获取至少一句训练句子,并确定训练句子的字特征和实体特征;将字特征和实体特征进行融合,得到融合特征;采用所述第一编码层对所述融合特征进行编码和池化平均处理,得到第一句向量组,采用所述第二编码层对所述融合特征进行编码和池化平均处理,得到第二句向量组;将第一句向量组和第二句向量组输入第一对比学习模块进行对比学习,并确定第一损失值;将第一句向量组和所述第二句向量组输入第二对比学习模块进行聚类,并确定第二损失值;当第一损失值和所述第二损失值满足预设条件时,将得到的模型作为文本聚类模型上述步骤基于无标注或者具有少量标注信息的训练文本训练得到文本聚类模型,通过对比学习结合聚类方法,从而提高面对复杂语义的医疗问答信息时的聚
类准确率。
附图说明
[0012]为了更清楚地说明本专利技术实施例的技术方案,下面将对本专利技术实施例的描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
[0013]图1是本申请可以应用于其中的示例性系统架构图;图2是本申请的文本聚类模型训练方法的一个实施例的流程图;图3是本申请的文本聚类方法的一个实施例的流程图;图4是根据本申请的文本聚类模型训练装置的一个实施例的结构示意图;图5是根据本申请的计算机设备的一个实施例的结构示意图。
具体实施方式
[0014]除非另有定义,本文所使用的所有的技术和科学术语与属于本申请的
的技术人员通常理解的含义相同;本文中在申请的说明书中所使用的术语只是为了描述具体的实施例的目的,不是旨在于限制本申请;本申请的说明书和权利要求书及上述附图说明中的术语“包括”和“具有”以及它们的任何变形,意图在于覆盖不排他的包含。本申请的说明书和权利要求书或上述附图中的术语“第一”、“第二”等是用于区别不同对象,而不是用于描述特定顺序。
[0015]在本文中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种文本聚类模型训练方法,其特征在于,所述文本聚类模型训练方法包括:从训练文本中获取至少一句训练句子,并确定所述训练句子的字特征和实体特征,其中,所述字特征为所述训练句子中每个字对应的特征,所述实体特征为所述训练句子中每个字对应的实体特征;基于初始文本聚类模型的门控模块,将所述字特征和所述实体特征进行融合,得到融合特征,其中,所述初始文本聚类模型还包括第一编码层、第二编码层、第一对比学习模块和第二对比学习模块,所述第一编码层的随机失活值和所述第二编码层的随机失活值不同;采用所述第一编码层对所述融合特征进行编码和池化平均处理,得到第一句向量组,采用所述第二编码层对所述融合特征进行编码和池化平均处理,得到第二句向量组;将所述第一句向量组和所述第二句向量组均转化为N行L列的矩阵,输入所述第一对比学习模块进行对比学习,并根据学习到的结果确定第一损失值,其中,N和L均为正整数;将所述第一句向量组和所述第二句向量组均转化为M行N列的矩阵,输入所述第二对比学习模块进行聚类,并根据得到的聚类结果确定第二损失值,其中,M为正整数;当所述第一损失值和所述第二损失值满足预设条件时,将得到的模型作为文本聚类模型。2.如权利要求1所述的文本聚类模型训练方法,其特征在于,所述基于初始文本聚类模型的门控模块,将所述字特征和所述实体特征进行融合,得到融合特征的步骤包括:基于初始文本聚类模型,对字特征进行向量化,得到字向量,对实体特征进行向量化和平均值计算,得到实体向量;基于门控模块,将所述字向量和所述实体向量进行融合,得到融合特征;按照如下公式计算融合特征:Xe
i
=(1

a)
·
xe
i
+a
·
tem
i
其中,Xe
i
是指所述融合特征中的第i个特征,xe
i
是指所述字向量中的第i个特征,tem
i
是指所述实体向量中的第i个特征,i的取值范围为(1,n),i为正整数,n为所述字向量的特征总数,a=δ(w[tem
i
:xe
i
]+b),a为标量,δ()为sigmoid激活函数,w为权重向量,b为权重偏置。3.如权利要求1所述的文本聚类模型训练方法,其特征在于,所述将所述第一句向量组和所述第二句向量组均转化为N行L列的矩阵,输入所述第一对比学习模块进行对比学习,并根据学习到的结果确定第一损失值的步骤包括:按照如下公式确定第一损失值:,,
,其中,l
ins
是指第一损失值,是指所述第一句向量组对应的N行L列矩阵的第i行损失值,是指所述第二句向量组对应的N行L列矩阵的第i行损失值,N是指转化后矩阵的行数,i的取值范围为(1,N),i为正整数,j的取值范围为(1,N),j为正整数,s()为cosine函数,exp()为指数函数,T为温度参数,是指所述第一句向量组对应的N行L列矩阵的第i行特征,是指所述第二句向量组对应的N行L列矩阵的第i行特征,是指所述第一句向量组对应的N行L列矩阵的第j行特征,是指所述第二句向量组对应的N行L列矩阵的第j行特征。4.如权利要求1所述的文本聚类模型训练方法,其特征在于,所述将所述第一句向量组和所述第二句向量组均转化为M行N列的矩阵,输入所述第二对比学习模块进行聚类,并根据得到的聚类结果确定第二损失值的步骤包括:按照如下公式确定第二损失值:,,,其中,l
clu
是指第二损失值,是指所述第一句向量组对应的M行N列矩阵的第i行损失值,是指所述第二句向量组对应的M行N列矩阵的第i行损失值,M是指转化后矩阵的行数,i的取值范围为(1,M),i为正整...

【专利技术属性】
技术研发人员:左勇吴俊江王晓龙
申请(专利权)人:智慧眼科技股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1