文本聚类模型训练方法、文本聚类方法、装置及相关设备制造方法及图纸

技术编号：38837796 阅读：13 留言：0更新日期：2023-09-17 09:53

本发明专利技术公开了一种文本聚类模型训练方法、文本聚类方法、装置及相关设备，所述方法包括：从训练文本中获取至少一句训练句子，并确定训练句子的字特征和实体特征；将字特征和实体特征进行融合，得到融合特征；对融合特征进行编码处理和池化平均处理，得到第一句向量组和第二句向量组；将第一句向量组和第二句向量组输入第一对比学习模块进行对比学习，并确定第一损失值；将第一句向量组和所述第二句向量组输入第二对比学习模块进行聚类，并确定第二损失值；当第一损失值和所述第二损失值满足预设条件时，将得到的模型作为文本聚类模型，采用本发明专利技术提高面对复杂语义的医疗问答信息时的聚类准确率。类准确率。类准确率。

全部详细技术资料下载

【技术实现步骤摘要】
文本聚类模型训练方法、文本聚类方法、装置及相关设备

[0001]本专利技术涉及数据处理领域，尤其涉及一种文本聚类模型训练方法、文本聚类方法、装置及相关设备。

技术介绍

[0002]近来，随着互联网的飞速发展，各种社交媒体大量涌现，在健康相关的医疗领域，出现了许多在线医疗问答网站，它们为患者提供了更多元化的医疗信息获取渠道。
[0003]由于医疗问答信息为非结构化文本，为了充分利用医疗问答信息，抽取和挖掘出有用的医疗意图，一般采用聚类方法。聚类是一种无监督的机器学习方法，文本聚类是根据文档特征将文档聚集为文档簇，通过聚类可以更加高效的对海量数据进行识别并归类，获取有效知识。常用的方法为从医疗问答信息中提取出静态文本向量，采用K
‑
means聚类对提取到的静态文本向量进行聚类。但静态文本向量难以适应复杂语义情况。当医疗问答信息为复杂语义信息时，会导致聚类的准确率较低。
[0004]因此，在面对复杂语义的医疗问答信息时，存在聚类准确率低的问题。

技术实现思路

[0005]本专利技术实施例提供一种文本聚类模型训练方法、文本聚类方法、装置及相关设备，以提高面对复杂语义的医疗问答信息时的聚类准确率。
[0006]为了解决上述技术问题，本申请实施例提供一种文本聚类模型训练方法，包括：从训练文本中获取至少一句训练句子，并确定所述训练句子的字特征和实体特征，其中，所述字特征为所述训练句子中每个字对应的特征，所述实体特征为所述训练句子中每个字对应的实体特征；基于初始文本聚类模型的...

【技术保护点】

【技术特征摘要】
1.一种文本聚类模型训练方法，其特征在于，所述文本聚类模型训练方法包括：从训练文本中获取至少一句训练句子，并确定所述训练句子的字特征和实体特征，其中，所述字特征为所述训练句子中每个字对应的特征，所述实体特征为所述训练句子中每个字对应的实体特征；基于初始文本聚类模型的门控模块，将所述字特征和所述实体特征进行融合，得到融合特征，其中，所述初始文本聚类模型还包括第一编码层、第二编码层、第一对比学习模块和第二对比学习模块，所述第一编码层的随机失活值和所述第二编码层的随机失活值不同；采用所述第一编码层对所述融合特征进行编码和池化平均处理，得到第一句向量组，采用所述第二编码层对所述融合特征进行编码和池化平均处理，得到第二句向量组；将所述第一句向量组和所述第二句向量组均转化为N行L列的矩阵，输入所述第一对比学习模块进行对比学习，并根据学习到的结果确定第一损失值，其中，N和L均为正整数；将所述第一句向量组和所述第二句向量组均转化为M行N列的矩阵，输入所述第二对比学习模块进行聚类，并根据得到的聚类结果确定第二损失值，其中，M为正整数；当所述第一损失值和所述第二损失值满足预设条件时，将得到的模型作为文本聚类模型。2.如权利要求1所述的文本聚类模型训练方法，其特征在于，所述基于初始文本聚类模型的门控模块，将所述字特征和所述实体特征进行融合，得到融合特征的步骤包括：基于初始文本聚类模型，对字特征进行向量化，得到字向量，对实体特征进行向量化和平均值计算，得到实体向量；基于门控模块，将所述字向量和所述实体向量进行融合，得到融合特征；按照如下公式计算融合特征：Xe
i
=(1
‑
a)
·
xe
i
+a
·
tem
i
其中，Xe
i
是指所述融合特征中的第i个特征，xe
i
是指所述字向量中的第i个特征，tem
i
是指所述实体向量中的第i个特征，i的取值范围为（1，n），i为正整数，n为所述字向量的特征总数，a=δ(w[tem
i
:xe
i
]+b)，a为标量，δ（）为sigmoid激活函数，w为权重向量，b为权重偏置。3.如权利要求1所述的文本聚类模型训练方法，其特征在于，所述将所述第一句向量组和所述第二句向量组均转化为N行L列的矩阵，输入所述第一对比学习模块进行对比学习，并根据学习到的结果确定第一损失值的步骤包括：按照如下公式确定第一损失值：，，
，其中，l
ins
是指第一损失值，是指所述第一句向量组对应的N行L列矩阵的第i行损失值，是指所述第二句向量组对应的N行L列矩阵的第i行损失值，N是指转化后矩阵的行数，i的取值范围为（1，N），i为正整数，j的取值范围为（1，N），j为正整数，s（）为cosine函数，exp（）为指数函数，T为温度参数，是指所述第一句向量组对应的N行L列矩阵的第i行特征，是指所述第二句向量组对应的N行L列矩阵的第i行特征，是指所述第一句向量组对应的N行L列矩阵的第j行特征，是指所述第二句向量组对应的N行L列矩阵的第j行特征。4.如权利要求1所述的文本聚类模型训练方法，其特征在于，所述将所述第一句向量组和所述第二句向量组均转化为M行N列的矩阵，输入所述第二对比学习模块进行聚类，并根据得到的聚类结果确定第二损失值的步骤包括：按照如下公式确定第二损失值：，，，其中，l
clu
是指第二损失值，是指所述第一句向量组对应的M行N列矩阵的第i行损失值，是指所述第二句向量组对应的M行N列矩阵的第i行损失值，M是指转化后矩阵的行数，i的取值范围为（1，M），i为正整...

【专利技术属性】
技术研发人员：左勇，吴俊江，王晓龙，
申请(专利权)人：智慧眼科技股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人