【技术实现步骤摘要】
文本聚类模型训练方法、文本聚类方法、装置及相关设备
[0001]本专利技术涉及数据处理领域,尤其涉及一种文本聚类模型训练方法、文本聚类方法、装置及相关设备。
技术介绍
[0002]近来,随着互联网的飞速发展,各种社交媒体大量涌现,在健康相关的医疗领域,出现了许多在线医疗问答网站,它们为患者提供了更多元化的医疗信息获取渠道。
[0003]由于医疗问答信息为非结构化文本,为了充分利用医疗问答信息,抽取和挖掘出有用的医疗意图,一般采用聚类方法。聚类是一种无监督的机器学习方法,文本聚类是根据文档特征将文档聚集为文档簇,通过聚类可以更加高效的对海量数据进行识别并归类,获取有效知识。常用的方法为从医疗问答信息中提取出静态文本向量,采用K
‑
means聚类对提取到的静态文本向量进行聚类。但静态文本向量难以适应复杂语义情况。当医疗问答信息为复杂语义信息时,会导致聚类的准确率较低。
[0004]因此,在面对复杂语义的医疗问答信息时,存在聚类准确率低的问题。
技术实现思路
[0005]本专利技术实施例提供一种文本聚类模型训练方法、文本聚类方法、装置及相关设备,以提高面对复杂语义的医疗问答信息时的聚类准确率。
[0006]为了解决上述技术问题,本申请实施例提供一种文本聚类模型训练方法,包括:从训练文本中获取至少一句训练句子,并确定所述训练句子的字特征和实体特征,其中,所述字特征为所述训练句子中每个字对应的特征,所述实体特征为所述训练句子中每个字对应的实体特征;基于初始文本聚类模型的 ...
【技术保护点】
【技术特征摘要】
1.一种文本聚类模型训练方法,其特征在于,所述文本聚类模型训练方法包括:从训练文本中获取至少一句训练句子,并确定所述训练句子的字特征和实体特征,其中,所述字特征为所述训练句子中每个字对应的特征,所述实体特征为所述训练句子中每个字对应的实体特征;基于初始文本聚类模型的门控模块,将所述字特征和所述实体特征进行融合,得到融合特征,其中,所述初始文本聚类模型还包括第一编码层、第二编码层、第一对比学习模块和第二对比学习模块,所述第一编码层的随机失活值和所述第二编码层的随机失活值不同;采用所述第一编码层对所述融合特征进行编码和池化平均处理,得到第一句向量组,采用所述第二编码层对所述融合特征进行编码和池化平均处理,得到第二句向量组;将所述第一句向量组和所述第二句向量组均转化为N行L列的矩阵,输入所述第一对比学习模块进行对比学习,并根据学习到的结果确定第一损失值,其中,N和L均为正整数;将所述第一句向量组和所述第二句向量组均转化为M行N列的矩阵,输入所述第二对比学习模块进行聚类,并根据得到的聚类结果确定第二损失值,其中,M为正整数;当所述第一损失值和所述第二损失值满足预设条件时,将得到的模型作为文本聚类模型。2.如权利要求1所述的文本聚类模型训练方法,其特征在于,所述基于初始文本聚类模型的门控模块,将所述字特征和所述实体特征进行融合,得到融合特征的步骤包括:基于初始文本聚类模型,对字特征进行向量化,得到字向量,对实体特征进行向量化和平均值计算,得到实体向量;基于门控模块,将所述字向量和所述实体向量进行融合,得到融合特征;按照如下公式计算融合特征:Xe
i
=(1
‑
a)
·
xe
i
+a
·
tem
i
其中,Xe
i
是指所述融合特征中的第i个特征,xe
i
是指所述字向量中的第i个特征,tem
i
是指所述实体向量中的第i个特征,i的取值范围为(1,n),i为正整数,n为所述字向量的特征总数,a=δ(w[tem
i
:xe
i
]+b),a为标量,δ()为sigmoid激活函数,w为权重向量,b为权重偏置。3.如权利要求1所述的文本聚类模型训练方法,其特征在于,所述将所述第一句向量组和所述第二句向量组均转化为N行L列的矩阵,输入所述第一对比学习模块进行对比学习,并根据学习到的结果确定第一损失值的步骤包括:按照如下公式确定第一损失值:,,
,其中,l
ins
是指第一损失值,是指所述第一句向量组对应的N行L列矩阵的第i行损失值,是指所述第二句向量组对应的N行L列矩阵的第i行损失值,N是指转化后矩阵的行数,i的取值范围为(1,N),i为正整数,j的取值范围为(1,N),j为正整数,s()为cosine函数,exp()为指数函数,T为温度参数,是指所述第一句向量组对应的N行L列矩阵的第i行特征,是指所述第二句向量组对应的N行L列矩阵的第i行特征,是指所述第一句向量组对应的N行L列矩阵的第j行特征,是指所述第二句向量组对应的N行L列矩阵的第j行特征。4.如权利要求1所述的文本聚类模型训练方法,其特征在于,所述将所述第一句向量组和所述第二句向量组均转化为M行N列的矩阵,输入所述第二对比学习模块进行聚类,并根据得到的聚类结果确定第二损失值的步骤包括:按照如下公式确定第二损失值:,,,其中,l
clu
是指第二损失值,是指所述第一句向量组对应的M行N列矩阵的第i行损失值,是指所述第二句向量组对应的M行N列矩阵的第i行损失值,M是指转化后矩阵的行数,i的取值范围为(1,M),i为正整...
【专利技术属性】
技术研发人员:左勇,吴俊江,王晓龙,
申请(专利权)人:智慧眼科技股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。