基于弱监督深度学习的不平衡短评语义识别方法技术

技术编号:38761330 阅读:15 留言:0更新日期:2023-09-10 10:34
本公开提供了一种基于弱监督深度学习的不平衡短评语义识别方法,涉及文本识别技术领域;上述基于弱监督深度学习的不平衡短评语义识别方法,包括:获取评审文本;基于预设语料库和所述评审文本,得到预测标签;基于所述评审文本和种子单词集,得到伪标签;基于成本敏感矩阵、所述伪标签和所述预测标签,确定目标标签;其中,所述成本敏感矩阵基于第一矩阵、第二矩阵确定。如此,基于评审文本能够得到干净的预测标签,并基于种子单词集能够得到嘈杂的伪标签,之后,基于伪标签进行弱监督学习,以得到目标标签;这样能够调节样本不平衡,从而提高模型的准确性。模型的准确性。模型的准确性。

【技术实现步骤摘要】
基于弱监督深度学习的不平衡短评语义识别方法


[0001]本公开涉及文本识别
,尤其涉及一种基于弱监督深度学习的不平衡短评语义识别方法。

技术介绍

[0002]随着研究生教育规模不断发展、教育质量不断提升,学术论文在检验学生学术水平与科研能力等方面的作用愈发重要,其中专家对学术论文的评审内容很大程度影响毕业生能否获得硕博学位的决定,因此利用文本分类技术对教育评审文本挖掘具有重要意义与实际应用价值。
[0003]然而,在学术论文的评审内容与评价等级之间的关系挖掘方面,由于内在数据空间和外在因素(例如,时间和存储)的限制,使得在学术论文的评审内容与评价等级之间的关系挖掘方面存在样本不平衡的问题,从而导致目前的深度学习模型在基于专家给出的评审内容对学术论文进行评分时,输出的评分的准确性也较差。

技术实现思路

[0004]为了解决上述技术问题,本申请提供了一种基于弱监督深度学习的不平衡短评语义识别方法,能够基于评审文本得到干净的预测标签,并基于种子单词集得到嘈杂的伪标签,之后基于成本敏感矩阵、预测标签和伪标签,调节样本不平衡,从而提高模型的准确性。
[0005]本申请的技术方案如下:本申请提供一种基于弱监督深度学习的不平衡短评语义识别方法,包括:获取评审文本;基于预设语料库和所述评审文本,得到预测标签;基于所述评审文本和种子单词集,得到伪标签;基于成本敏感矩阵、所述伪标签和所述预测标签,确定目标标签;其中,所述成本敏感矩阵基于第一矩阵、第二矩阵确定。
[0006]在一些实施例中,所述基于预设语料库和所述评审文本,得到预测标签,包括:对预设语料库中的多个单次分别进行向量化处理,得到多个向量后的单词;基于多个向量后的单词进行特征提取处理,得到多个评审数据特征;基于各所述评审数据特征和评审文本,得到预测标签。
[0007]在一些实施例中,所述基于各所述评审数据特征和评审文本,得到预测标签,包括:根据HAN模型和各所述评审数据特征,确定目标评审数据特征;基于所述目标评审数据特征和所述评审文本,得到所述预测标签。
[0008]在一些实施例中,所述基于所述评审文本和种子单词集,得到伪标签,包括:根据所述种子单词集中的多个种子单词,确定各所述种子单词在所述评审文本中的出现频率;
根据各所述种子单词在所述评审文本中的出现频率,得到所述伪标签。
[0009]在一些实施例中,所述基于成本敏感矩阵和所述预测标签,确定目标标签,包括:拼接所述伪标签和所述预测标签,得到初始标签;基于所述成本敏感矩阵以及所述初始标签,确定所述目标标签。
[0010]在一些实施例中,所述第一矩阵,包括:
[0011]其中,为所述第一矩阵,为第i个所述初始标签在所述评审文本中的比例;为第j个所述初始标签在所述评审文本中的比例。
[0012]在一些实施例中,所述第二矩阵,包括:
[0013]其中,为所述第二矩阵,为第i个所述初始标签的类内距离;为第i个所述初始标签和第j个所述初始标签的类间距离,为第i个所述伪标签。
[0014]在一些实施例中,所述方法还包括:基于种子单词集排序规则和所述评审文本,得到新的种子单词;基于所述新的种子单词,迭代更新所述种子单词集。
[0015]在一些实施例中,所述种子单词集排序规则,包括:
[0016]其中,为第k个伪标签,为所述新的种子单词,D为所述预设语料库,为包含的评审文本映射到中的概率;为对应的评审文本中包含的词频;为D中的评审文本中包含的概率。
[0017]本申请还提供一种基于弱监督深度学习的不平衡短评语义识别装置,包括:获取模块,用于获取评审文本;处理模块,用于基于预设语料库和评审文本,得到预测标签;基于所述评审文本和种子单词集,得到伪标签;基于成本敏感矩阵、所述伪标签和所述预测标签,确定目标标签。
[0018]本申请实施例提供了一种基于弱监督深度学习的不平衡短评语义识别方法,上述基于弱监督深度学习的不平衡短评语义识别方法,包括:获取评审文本;基于预设语料库和所述评审文本,得到预测标签;基于所述评审文本和种子单词集,得到伪标签;基于成本敏感矩阵、所述伪标签和所述预测标签,确定目标标签;其中,所述成本敏感矩阵基于第一矩阵、第二矩阵确定。如此,基于评审文本能够得到干净的预测标签,并基于种子单词集能够得到嘈杂的伪标签;之后,基于伪标签进行弱监督学习,以得到目标标签;这样能够调节样本不平衡,从而提高模型的准确性。
附图说明
[0019]此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本申请的实施
例,并与说明书一起用于解释本申请的原理。
[0020]为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
[0021]图1为本申请实施例提供的一种基于弱监督深度学习的不平衡短评语义识别方法流程示意图;图2为本申请实施例提供的又一种基于弱监督深度学习的不平衡短评语义识别方法流程示意图;图3为本申请实施例提供的另一种基于弱监督深度学习的不平衡短评语义识别方法流程示意图;图4为本申请实施例提供的另一种基于弱监督深度学习的不平衡短评语义识别方法流程示意图;图5为本申请实施例提供的另一种基于弱监督深度学习的不平衡短评语义识别方法流程示意图;图6为本申请实施例提供的另一种基于弱监督深度学习的不平衡短评语义识别方法流程示意图;图7为本申请实施例提供的一种基于弱监督深度学习的不平衡短评语义识别装置的结构示意图。
实施方式
[0022]为使本申请的目的和实施方式更加清楚,下面将结合本申请示例性实施例中的附图,对本申请示例性实施方式进行清楚、完整地描述,显然,描述的示例性实施例仅是本申请一部分实施例,而不是全部的实施例。
[0023]需要说明的是,本申请中对于术语的简要说明,仅是为了方便理解接下来描述的实施方式,而不是意图限定本申请的实施方式。除非另有说明,这些术语应当按照其普通和通常的含义理解。
[0024]本申请中说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”等是用于区别类似或同类的对象或实体,而不必然意味着限定特定的顺序或先后次序,除非另外注明。应该理解这样使用的用语在适当情况下可以互换。
[0025]本申请中术语“包括”和“具有”以及他们的任何变形,意图在于覆盖但不排他的包含,例如,包含了一系列组件的产品或设备不必限于清楚地列出的所有组件,而是可包括没有清楚地列出的或对于这些产品或设备固有的其它组件。
[0026]本申请中术语
“ꢀ
和/或”,仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,本申请中字符
“ꢀ
/”,一般表示前后关联对象是一种...

【技术保护点】

【技术特征摘要】
1.一种基于弱监督深度学习的不平衡短评语义识别方法,其特征在于,包括:获取评审文本;基于预设语料库和所述评审文本,得到预测标签;基于所述评审文本和种子单词集,得到伪标签;基于成本敏感矩阵、所述伪标签和所述预测标签,确定目标标签。2.根据权利要求1所述的方法,其特征在于,所述基于预设语料库和所述评审文本,得到预测标签,包括:对预设语料库中的多个单次分别进行向量化处理,得到多个向量后的单词;基于所述多个向量后的单词进行特征提取处理,得到多个评审数据特征;基于各所述评审数据特征和所述评审文本,得到预测标签。3.根据权利要求2所述的方法,其特征在于,所述基于各所述评审数据特征和所述评审文本,得到预测标签,包括:根据HAN模型和各所述评审数据特征,确定目标评审数据特征;基于所述目标评审数据特征和所述评审文本,得到所述预测标签。4.根据权利要求1所述的方法,其特征在于,所述基于所述评审文本和种子单词集,得到伪标签,包括:根据所述种子单词集中的多个种子单词,确定各所述种子单词在所述评审文本中的出现频率;根据各所述种子单词在所述评审文本中的出现频率,得到所述伪标签。5.根据权利要求1所述的方法,其特征在...

【专利技术属性】
技术研发人员:张育培伍智广周娅娅刘树慧尚学群
申请(专利权)人:西北工业大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1