基于弱监督深度学习的不平衡短评语义识别方法技术

技术编号：38761330 阅读：15 留言：0更新日期：2023-09-10 10:34

本公开提供了一种基于弱监督深度学习的不平衡短评语义识别方法，涉及文本识别技术领域；上述基于弱监督深度学习的不平衡短评语义识别方法，包括：获取评审文本；基于预设语料库和所述评审文本，得到预测标签；基于所述评审文本和种子单词集，得到伪标签；基于成本敏感矩阵、所述伪标签和所述预测标签，确定目标标签；其中，所述成本敏感矩阵基于第一矩阵、第二矩阵确定。如此，基于评审文本能够得到干净的预测标签，并基于种子单词集能够得到嘈杂的伪标签，之后，基于伪标签进行弱监督学习，以得到目标标签；这样能够调节样本不平衡，从而提高模型的准确性。模型的准确性。模型的准确性。

全部详细技术资料下载

【技术实现步骤摘要】
基于弱监督深度学习的不平衡短评语义识别方法

[0001]本公开涉及文本识别
，尤其涉及一种基于弱监督深度学习的不平衡短评语义识别方法。

技术介绍

[0002]随着研究生教育规模不断发展、教育质量不断提升，学术论文在检验学生学术水平与科研能力等方面的作用愈发重要，其中专家对学术论文的评审内容很大程度影响毕业生能否获得硕博学位的决定，因此利用文本分类技术对教育评审文本挖掘具有重要意义与实际应用价值。
[0003]然而，在学术论文的评审内容与评价等级之间的关系挖掘方面，由于内在数据空间和外在因素（例如，时间和存储）的限制，使得在学术论文的评审内容与评价等级之间的关系挖掘方面存在样本不平衡的问题，从而导致目前的深度学习模型在基于专家给出的评审内容对学术论文进行评分时，输出的评分的准确性也较差。

技术实现思路

[0004]为了解决上述技术问题，本申请提供了一种基于弱监督深度学习的不平衡短评语义识别方法，能够基于评审文本得到干净的预测标签，并基于种子单词集得到嘈杂的伪标签，之后基于成本敏感矩阵、预测标签和伪标签，调节样本不平衡，从而提高模型的准确性。
[0005]本申请的技术方案如下：本申请提供一种基于弱监督深度学习的不平衡短评语义识别方法，包括：获取评审文本；基于预设语料库和所述评审文本，得到预测标签；基于所述评审文本和种子单词集，得到伪标签；基于成本敏感矩阵、所述伪标签和所述预测标签，确定目标标签；其中，所述成本敏感矩阵基于第一矩阵、第二矩阵确定。
[0006]在一些实施例中，所

【技术保护点】

【技术特征摘要】
1.一种基于弱监督深度学习的不平衡短评语义识别方法，其特征在于，包括：获取评审文本；基于预设语料库和所述评审文本，得到预测标签；基于所述评审文本和种子单词集，得到伪标签；基于成本敏感矩阵、所述伪标签和所述预测标签，确定目标标签。2.根据权利要求1所述的方法，其特征在于，所述基于预设语料库和所述评审文本，得到预测标签，包括：对预设语料库中的多个单次分别进行向量化处理，得到多个向量后的单词；基于所述多个向量后的单词进行特征提取处理，得到多个评审数据特征；基于各所述评审数据特征和所述评审文本，得到预测标签。3.根据权利要求2所述的方法，其特征在于，所述基于各所述评审数据特征和所述评审文本，得到预测标签，包括：根据HAN模型和各所述评审数据特征，确定目标评审数据特征；基于所述目标评审数据特征和所述评审文本，得到所述预测标签。4.根据权利要求1所述的方法，其特征在于，所述基于所述评审文本和种子单词集，得到伪标签，包括：根据所述种子单词集中的多个种子单词，确定各所述种子单词在所述评审文本中的出现频率；根据各所述种子单词在所述评审文本中的出现频率，得到所述伪标签。5.根据权利要求1所述的方法，其特征在...

【专利技术属性】
技术研发人员：张育培，伍智广，周娅娅，刘树慧，尚学群，
申请(专利权)人：西北工业大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人