文本情感分析模型的训练方法及装置制造方法及图纸

技术编号:31563901 阅读:15 留言:0更新日期:2021-12-25 10:49
本公开提供了一种文本情感分析模型的训练方法及装置。所述方法包括:获取第一样本语句;对所述第一样本语句中的目标分词进行处理,得到所述第一样本语句对应的第二样本语句;所述第一样本语句和所述第二样本语句对应于目标情感类别;将所述第一样本语句和所述第二样本语句输入至初始文本情感分析模型,以获取由所述初始文本情感分析模型输出的所述第一样本语句和所述第二样本语句为所述目标情感类别的预测概率;根据目标情感类别和预测概率,确定初始文本情感分析模型的损失值;在损失值处于预设范围内的情况下,将训练后的初始文本情感分析模型作为目标文本情感分析模型。本公开可以提高违法文本识别的准确率,减少违法信息的错判和漏判。法信息的错判和漏判。法信息的错判和漏判。

【技术实现步骤摘要】
文本情感分析模型的训练方法及装置


[0001]本公开的实施例涉及模型训练
,尤其涉及一种文本情感分析 模型的训练方法及装置。

技术介绍

[0002]近年来,人工智能技术的飞速发展,在计算机视觉、自然语言处理、 语音识别等多个领域展现出其强大的应用价值,人工智能技术的安全性问 题也随着这些应用的推广变得越来越受到重视。
[0003]目标,多数大型互联网企业通常是基于自身业务安全管理过程中所积 累的海量标准样本库,开展对违法信息识别的建模训练,纷纷推出了基于 人工智能的违法信息检测服务。
[0004]然而,现在很多恶意评论等文本通过添加特殊字符(如大小字母等), 导致现有的情感分析模型对恶意评论等文本中违法信息识别的准确率较 低,造成违法信息的错判和漏判。

技术实现思路

[0005]本公开的实施例提供一种文本情感分析模型的训练方法及装置,用以 可以提高文本违反信息识别的准确率,降低违法信息的错判和漏判。
[0006]根据本公开的实施例的第一方面,提供了一种文本情感分析模型的训 练方法,包括:
[0007]获取第一样本语句;
[0008]对所述第一样本语句中的目标分词进行处理,得到所述第一样本语句 对应的第二样本语句;所述第一样本语句和所述第二样本语句对应于目标 情感类别;
[0009]将所述第一样本语句和所述第二样本语句输入至初始文本情感分析模 型,以获取由所述初始文本情感分析模型输出的所述第一样本语句和所述 第二样本语句为所述目标情感类别的预测概率;
[0010]根据所述目标情感类别和所述预测概率,确定所述初始文本情感分析 模型的损失值;
[0011]在所述损失值处于预设范围内的情况下,将训练后的初始文本情感分 析模型作为目标文本情感分析模型。
[0012]可选地,所述对所述第一样本语句中的目标分词进行处理,得到所述 第一样本语句对应的第二样本语句,包括:
[0013]对所述第一样本语句进行分词处理,得到所述第一样本语句对应的多 个分词;
[0014]获取所述多个分词对应的分词重要指数;
[0015]根据所述分词重要指数,确定所述多个分词中的目标分词;
[0016]对所述第一样本语句中的目标分词进行处理,得到所述第一样本语句 对应的第
二样本语句。
[0017]可选地,所述对所述第一样本语句中的目标分词进行处理,得到所述 第一样本语句对应的第二样本语句,包括:
[0018]根据所述目标分词对应的情感类别,确定所述目标分词对应的候选词 集合;
[0019]获取所述目标分词与所述候选词集合中的每个候选词之间的相似度;
[0020]根据所述相似度,确定所述候选词集合中的所述目标分词对应的目标 候选词;
[0021]基于所述目标候选词,对所述第一样本语句中的目标分词进行替换处 理,得到所述第二样本语句。
[0022]可选地,所述对所述第一样本语句中的目标分词进行处理,得到所述 第一样本语句对应的第二样本语句,包括:
[0023]在所述第一样本语句中所述目标分词关联的位置处添加目标字符,生 成所述第一样本语句对应的第二样本语句。
[0024]可选地,所述初始文本情感分析模型包括:情感分析层和字符识别 层,
[0025]所述获取由所述初始文本情感分析模型输出的所述第一样本语句和所 述第二样本语句为所述目标情感类别的预测概率,包括:
[0026]调用所述情感分析层对所述第一样本语句和所述第二样本语句进行处 理,得到所述第一样本语句和所述第二样本语句为所述目标情感类别的第 一预测概率;
[0027]调用所述字符识别层对所述第一样本语句和所述第二样本语句进行处 理,得到所述第一样本语句和所述第二样本语句为所述目标情感类别的第 二预测概率。
[0028]可选地,所述根据所述目标情感类别和所述预测概率,确定所述初始 文本情感分析模型的损失值,包括:
[0029]根据所述目标情感类别和所述第一预测概率,计算得到所述情感分析 层的第一损失值;
[0030]根据所述目标情感类别和所述第二预测概率,计算得到所述字符识别 层的第二损失值;
[0031]获取所述第一损失值和所述第二损失值的和值,并将该和值作为所述 初始文本情感分析模型的损失值。
[0032]根据本公开的实施例的第二方面,提供了一种文本情感分析模型的训 练装置,包括:
[0033]第一样本语句获取模块,用于获取第一样本语句;
[0034]第二样本语句获取模块,用于对所述第一样本语句中的目标分词进行 处理,得到所述第一样本语句对应的第二样本语句;所述第一样本语句和 所述第二样本语句对应于目标情感类别;
[0035]预测概率获取模块,用于将所述第一样本语句和所述第二样本语句输 入至初始文本情感分析模型,以获取由所述初始文本情感分析模型输出的 所述第一样本语句和所述第二样本语句为所述目标情感类别的预测概率;
[0036]损失值确定模块,用于根据所述目标情感类别和所述预测概率,确定 所述初始文本情感分析模型的损失值;
[0037]目标模型获取模块,用于在所述损失值处于预设范围内的情况下,将 训练后的初
始文本情感分析模型作为目标文本情感分析模型。
[0038]可选地,所述第二样本语句获取模块包括:
[0039]多个分词获取单元,用于对所述第一样本语句进行分词处理,得到所 述第一样本语句对应的多个分词;
[0040]分词重要指数获取单元,用于获取所述多个分词对应的分词重要指 数;
[0041]目标分词确定单元,用于根据所述分词重要指数,确定所述多个分词 中的目标分词;
[0042]第二样本语句获取单元,用于对所述第一样本语句中的目标分词进行 处理,得到所述第一样本语句对应的第二样本语句。
[0043]可选地,所述第二样本语句获取单元包括:
[0044]候选词集合确定子单元,用于根据所述目标分词对应的情感类别,确 定所述目标分词对应的候选词集合;
[0045]相似度获取子单元,用于获取所述目标分词与所述候选词集合中的每 个候选词之间的相似度;
[0046]目标候选词确定子单元,用于根据所述相似度,确定所述候选词集合 中的所述目标分词对应的目标候选词;
[0047]第二样本语句获取子单元,用于基于所述目标候选词,对所述第一样 本语句中的目标分词进行替换处理,得到所述第二样本语句。
[0048]可选地,所述第二样本语句获取单元包括:
[0049]第二样本语句生成子单元,用于在所述第一样本语句中所述目标分词 关联的位置处添加目标字符,生成所述第一样本语句对应的第二样本语 句。
[0050]可选地,所述初始文本情感分析模型包括:情感分析层和字符识别 层,
[0051]所述预测概率获取模块包括:
[0052]第一预测概本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种文本情感分析模型的训练方法,其特征在于,包括:获取第一样本语句;对所述第一样本语句中的目标分词进行处理,得到所述第一样本语句对应的第二样本语句;所述第一样本语句和所述第二样本语句对应于目标情感类别;将所述第一样本语句和所述第二样本语句输入至初始文本情感分析模型,以获取由所述初始文本情感分析模型输出的所述第一样本语句和所述第二样本语句为所述目标情感类别的预测概率;根据所述目标情感类别和所述预测概率,确定所述初始文本情感分析模型的损失值;在所述损失值处于预设范围内的情况下,将训练后的初始文本情感分析模型作为目标文本情感分析模型。2.根据权利要求1所述的方法,其特征在于,所述对所述第一样本语句中的目标分词进行处理,得到所述第一样本语句对应的第二样本语句,包括:对所述第一样本语句进行分词处理,得到所述第一样本语句对应的多个分词;获取所述多个分词对应的分词重要指数;根据所述分词重要指数,确定所述多个分词中的目标分词;对所述第一样本语句中的目标分词进行处理,得到所述第一样本语句对应的第二样本语句。3.根据权利要求2所述的方法,其特征在于,所述对所述第一样本语句中的目标分词进行处理,得到所述第一样本语句对应的第二样本语句,包括:根据所述目标分词对应的情感类别,确定所述目标分词对应的候选词集合;获取所述目标分词与所述候选词集合中的每个候选词之间的相似度;根据所述相似度,确定所述候选词集合中的所述目标分词对应的目标候选词;基于所述目标候选词,对所述第一样本语句中的目标分词进行替换处理,得到所述第二样本语句。4.根据权利要求2所述的方法,其特征在于,所述对所述第一样本语句中的目标分词进行处理,得到所述第一样本语句对应的第二样本语句,包括:在所述第一样本语句中所述目标分词关联的位置处添加目标字符,生成所述第一样本语句对应的第二样本语句。5.根据权利要求1所述的方法,其特征在于,所述初始文本情感分析模型包括:情感分析层和字符识别层,所述获取由所述初始文本情感分析模型输出的所述第一样本语句和所述第二样本语句为所述目标情感类别的预测概率,包括:调用所述情感分析层对所述第一样本语句和所述第二样本语句进行处理,得到所述第一样本语句和所述第二样本语句为所述目标情感类别的第一预测概率;调用所述字符识别层对所述第...

【专利技术属性】
技术研发人员:王凯王金刚任磊郑爽张富峥武威
申请(专利权)人:北京三快在线科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1