基于度量情感学习的标签表示方法、终端设备及存储介质技术

技术编号:30234784 阅读:29 留言:0更新日期:2021-09-29 10:14
本发明专利技术公开了一种基于度量情感学习的标签表示方法、终端设备及存储介质,方法包括:获取包括多个三元组的标签集,三元组包括第一词汇,第一词汇的反义词和第一词汇的近义词;确定转换矩阵,利用转换矩阵将标签集中三元组转换为向量空间中的三元组;根据似然比函数和向量空间中的三元组,确定待表示文本中每一个标签的标签词。本发明专利技术利用转换矩阵修正了词向量之间的相对位置,解决了向量空间中的词向量重叠问题,使得生成的标签词对模型在下游任务的表现有较为明显的提升;同时,本发明专利技术还使用了情感转移操作获取能够有效代表中间类别的标签词,使得最终所得标签词的准确度接近手动设置标签词的准确度,准确度得到大幅提升。准确度得到大幅提升。准确度得到大幅提升。

【技术实现步骤摘要】
基于度量情感学习的标签表示方法、终端设备及存储介质


[0001]本专利技术属于一种标签表示方法,具体是涉及到一种基于度量情感学习的标签表示方法、终端设备及计算机可读存储介质。

技术介绍

[0002]标签表示(Label Representation)实质上是通过将类别的标签用具体的单词进行替换用以提升模型对于文本语义的理解程度。这一方法被广泛运用于很多最前沿的迁移学习模型来将其他自然语言处理任务转换为推理任务,并给很多训练样本较少的任务带来了重大改进。标签词的生成依赖于特定任务的输入数据,例如Yelp

Review数据集中所包含的标签集合为{1, 2, 3, 4, 5},可以人为地为每个标签匹配一个单词,即{“Great”,
ꢀ“
Good”,
ꢀ“
Okey”,
ꢀ“
Bad”,
ꢀ“
Terrible”},并依据这样的设置将分类模型从对数字标签进行预测转换为对标签词进行预测。实验证明,标签词的质量对于下游任务的表现有着较大的影响,特别是在训练数据较少的情况下效果更为显著。
[0003]较早对于标签表示的研究主要依靠固定的模式实现标签与词之间的匹配,即通过常识确定一个静态的、语义差异较大的单词列表(基本上为反义词)来逐个对应数据集中的标签。这种方法符合人类对于不同类别文本的认知,但是较难适应不同自然语言处理任务的灵活变化。近期的研究提出了一种标签词自动生成的方法,通过计算词与输入语句之间的匹配程度确定每一个类别的标签词。r/>[0004]然而自动生成的标签词存在着以下两点问题:首先,标签词无法确保语义相反的语境获取足够高对比度的词。其次,自动生成的标签词常常无法准确表达语义较为相似的过渡类。造成这种现象的原因在于以往的研究忽略了基于词共现理论得到的词向量中存在的向量重叠问题。所谓的词向量重叠为:互为反义词的一对词在向量空间中的距离较近。而正确的反义词对关系应当是相互远离的。我们认为正是这种重叠使得基于匹配的模型无法生成正确的标签词。其中向量重叠表示的是处于相似语境中的词常常有着较为相似的特征表示,正是这种重叠使得基于匹配的模型无法生成正确的标签词。

技术实现思路

[0005]本专利技术提供了一种基于度量情感学习的标签表示方法、终端设备及计算机可读存储介质,从而解决现有技术中自动生成的标签词不准确的技术问题。
[0006]本
技术实现思路
的第一方面公开了一种基于度量情感学习的标签表示方法,包括:获取包括多个三元组的标签集,所述三元组包括第一词汇,所述第一词汇的反义词和所述第一词汇的近义词;将所述标签集中的三元组输入至利用全连接神经网路训练好的转换矩阵中,得到向量空间中的三元组;根据似然比函数和所述向量空间中的三元组,确定待表示文本中每一个标签的标签词,具体为:
根据似然比函数和所述向量空间中的三元组,确定待表示文本中第一个标签和最后一个标签的标签词;根据第一个标签的标签词和最后一个标签的标签词的差值,确定情感梯度;根据所述情感梯度确定待表示文本中其余标签的标签词。
[0007]优选地,将所述标签集中的三元组输入至利用全连接神经网路训练好的转换矩阵中,得到向量空间中的三元组,具体为:所述转换矩阵根据第一公式确定,所述第一公式为:式中,和分别是全连接神经网络中多层感知层的权重矩阵和偏置,为所述全连接神经网络的激活函数,,其中为所述第一词汇,为所述第一词汇的近义词,为所述第一词汇的反义词;利用所述第一公式将所述标签集中的三元组转换为向量空间中的三元组。
[0008]优选地,所述全连接神经网络的约束函数根据第二公式确定,所述第二公式为:式中,为两个向量之间的负余弦相似度。
[0009]优选地,所述全连接神经网络的损失函数根据第三公式确定,所述第三公式为:所述第三公式为:式中,为设定阈值,且,为所述标签集。
[0010]优选地,所述根据似然比函数和所述向量空间中的三元组,确定待表示文本中第一个标签和最后一个标签的标签词,具体为:根据似然比函数和所述向量空间中的三元组,确定待表示文本中第一个标签和最后一个标签的标签词;根据第一个标签的标签词和最后一个标签的标签词的差值,确定情感梯度;根据所述情感梯度确定待表示文本中其余标签的标签词。
[0011]优选地,所述根据似然比函数和所述向量空间中的三元组,确定待表示文本中第一个标签和最后一个标签的标签词,具体为:根据第四公式确定待表示文本中第一个标签的标签词,所述第四公式为:式中,为数据集和第个标签的标签词之间的交叉熵,所述
,中标签为的为正样本,其余为负样本,为第个标签对应的文本,为预设文本模式中的第个模式,是给定产生标签的可能性,根据第五公式确定,所述第五公式为:;根据第六公式确定,所述第六公式为:式中,是中的样本数;确定所述第一个标签的标签词后,从所述向量空间的三元组中确定所述第一个标签的标签词对应的反义词作为候选词,将所述候选词输入至所述第四公式至所述第六公式,确定待表示文本的最后一个标签的标签词。
[0012]优选地,根据第一个标签的标签词和最后一个标签的标签词的差值,确定情感梯度,具体为:根据第七公式确定情感转移矢量,所述第七公式为:式中,和分别为第一个标签的标签词和最后一个标签的标签词,为所述情感转移矢量;根据所述情感转移矢量确定情感梯度,具体为:根据第八公式确定所述情感梯度,所述第八公式为:式中,为所述标签的数量。
[0013]优选地,根据所述情感梯度确定待表示文本中其余标签的标签词,具体为:根据第九公式确定待表示文本中其余标签的标签词,所述第九公式为:式中,,为词汇量,。
[0014]本
技术实现思路
的第二方面公开了一种终端设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述方法的步骤。
[0015]本专利技术的第三方面,公开了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述方法的步骤。
[0016]本专利技术首先对词汇集降维,获取仅包含三元组的标签集;然后利用转换矩阵将标签集中三元组转换为向量空间中的三元组,该向量空间为具有反义词感知的向量空间。利用转换矩阵修正了词向量之间的相对位置,解决了向量空间中的词向量重叠问题,使得生成的标签词对模型在下游任务的表现有较为明显的提升;同时,本专利技术还使用了情感转移操作获取能够有效代表中间类别的标签词,使得最终所得标签词的准确度接近手动设置标签词的准确度,准确度得到大幅提升。
附图说明
[0017]附图1为本专利技术的基于度量情感学习的标签表示方法的流程图;附图2为本专利技术的基于度量情感学习的标签表示方法中情感度量学习整体框架;附图3为本专利技术的基于度量情感学习的标签表示方法中用于抽取近义词

反义词区分信息的三胞胎网络结构示意图;附图4为本专利技术的基于度量情感学习的标签表示方法中的准确度平均增长率示意图;附图5为本专利技术的基于度量情感学习本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种基于度量情感学习的标签表示方法,其特征是,包括:获取包括多个三元组的标签集,所述三元组包括第一词汇,所述第一词汇的反义词和所述第一词汇的近义词;将所述标签集中的三元组输入至利用全连接神经网路训练好的转换矩阵中,得到向量空间中的三元组;根据似然比函数和所述向量空间中的三元组,确定待表示文本中每一个标签的标签词,具体为:根据似然比函数和所述向量空间中的三元组,确定待表示文本中第一个标签和最后一个标签的标签词;根据第一个标签的标签词和最后一个标签的标签词的差值,确定情感梯度;根据所述情感梯度确定待表示文本中其余标签的标签词。2.如权利要求1所述的方法,其特征是,将所述标签集中的三元组输入至利用全连接神经网路训练好的转换矩阵中,得到向量空间中的三元组,具体为:所述转换矩阵根据第一公式确定,所述第一公式为:式中,和分别是全连接神经网络中多层感知层的权重矩阵和偏置,为所述全连接神经网络的激活函数,,其中为所述第一词汇,为所述第一词汇的近义词,为所述第一词汇的反义词;利用所述第一公式将所述标签集中的三元组转换为向量空间中的三元组。3.如权利要求2所述的方法,其特征是,所述全连接神经网络的约束函数根据第二公式确定,所述第二公式为:式中,为两个向量之间的负余弦相似度。4.如权利要求3所述的方法,其特征是,所述全连接神经网络的损失函数根据第三公式确定,所述第三公式为:所述第三公式为:式中,为设定阈值,且,为所述标签集。5.如权利要求1所述的方法,其特征是,所述根据似然比函数和所述向量空间中的三元组,确定待表示文本中第一个标签和最后一个标签的标签词,具体为:根据第四公式确...

【专利技术属性】
技术研发人员:蔡飞宋城宇王祎童刘登峰王思远张维明张鑫陈洪辉
申请(专利权)人:中国人民解放军国防科技大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1