当前位置: 首页 > 专利查询>中山大学专利>正文

一种基于prompt的文本情感原因分析方法和系统技术方案

技术编号:33290093 阅读:23 留言:0更新日期:2022-05-01 00:07
本发明专利技术公开一种基于prompt的文本情感原因分析方法和系统,方法包括以下步骤:S1:收集文本数据并进行预处理;S2:在预处理后的文本中先后添加文本提示词和文本待预测词,并针对文本待预测词,设置目标候选词集;S3:对文本添加子句分割符号和文本起始符号与结尾符号;S4:使用BERT预训练模型,对文本和目标候选词集进行特征向量编码,得到文本特征向量和目标候选词集向量;S5:计算文本特征向量和目标候选词集向量之间的编码距离,利用softmax函数计算每个待预测词的编码距离向量的概率,得到待预测词的预测结果;S6:基于具体任务进行预测模块组合,得到适用于具体文本情感原因分析任务的方法。本发明专利技术引入prompt解决了微调任务和预训练任务之间的差异性。和预训练任务之间的差异性。和预训练任务之间的差异性。

【技术实现步骤摘要】
一种基于prompt的文本情感原因分析方法和系统


[0001]本专利技术涉及文本情感原因分析领域,更具体地,涉及一种基于prompt的文本情感原因分析方法和系统。

技术介绍

[0002]情感原因分析旨在识别情感文本中的情感信息和导致情感的原因。该领域中,具体的子任务包括情感原因提取、情感原因匹配对提取,条件因果关系分类等。情感原因提取作为一个子任务,首先被提出并定义为一个词级的序列标注问题,其目的是探究子句中某一情绪表达背后的原因。然而,在某些情况下,文本的情感信息或原因信息会横跨整个子句序列。为了解决这个问题,情感原因提取被重新定义为一个子句级的分类问题。然而,在情感原因提取任务中,对于原因的提取要基于已有的情感信息标注,所以,在现实场景中,情感原因提取相关技术的应用十分有限。针对这一问题,情感原因匹配对提取任务被提出。通过该任务中的技术与方法,可以直接从未标注情感的文本中识别出所有的情感和对应的原因。除此之外,在情感原因分析领域中,还有诸如条件关系分类等任务被提出,从而进一步探讨情感文本中的因果关系。
[0003]随着互联网的发展,社交舆论、售后评论、朋友圈留言等文字信息无处不在。伴随文字的往往是内在的情绪表达和潜在的原因。通过分析和利用各平台上产生的文字信息,无论是对社交平台中舆论的定位与控制,还是对买家售后评价进行原因分析与改进服务,又或者是根据时局和原因的不同进行决策变换,都有重大意义。这对情感原因分析领域的相关技术有极大的要求。
[0004]现有的情感原因分析工作主要通过建立新颖的深度神经网络模型,在不同任务的数据集下取得很好的效果。这些方法大多采用统一的微调结构,该结构首先从预训练模型中获取输入文本序列的词表示,然后利用注意机制,从词级特征编码获得子句级特征。然后,利用交互模块生成子句的上下文特征表示,用于的最终分类。然而,这些方法存在明显的缺陷。首先,这些方法仅仅使用预训练语言模型作为词嵌入层,没能充分发挥预训练语言模型的能力;其次,对位置信息的引入,使得这些方法存在偏置现象,同时忽视了重要的指示信息;再者,设计适合上下文和文本交互学习的特征融合模块很困难,而且这些算法模块的通用性和鲁棒性不足。
[0005]针对现有情感原因分析工作中的不足,我们引入prompt方法有针对性地解决情感原因分析问题。更详细的,prompt方法就是将具体的微调任务形式转换为和预训练任务相同的形式。面向针对情感原因分析任务,prompt方法即为将情感原因分析任务中涉及到的分类、匹配、识别等任务形式转换为预训练任务形式,使得在任务训练过程中,预训练模型的性能可以得到充分的发挥。相应的,prompt方法也被称为即微调范式之后的第四训练范式。
[0006]现有技术中公开了一种文本情感内容分析方法、装置、设备及存储介质,该方法包括:通过BERT模型对待分析文本进行分析,以获得所述待分析文本的词向量;对所述词向量
对应的子句信息添加全局注意力机制,得到全局文本信息;通过预设注意力机制对所述词向量对应的子句信息进行分析,获得结合注意力信息的子句信息;通过自注意力机制结合所述全局文本信息和所述结合注意力信息的子句信息,得到目标文本;根据所述目标文本中子句间的关系通过分类器进行分析,得到情感原因对,并通过所述情感原因得到所述待分析文本的情感分析结果。该方法同样寻在没能充分发挥预训练语言模型的能力和忽视了重要的指示信息,使得该方法通用性和鲁棒性不足。

技术实现思路

[0007]本专利技术的首要目的是提供一种基于prompt的文本情感原因分析方法,有效地利用了文本中情感和原因之间的指示信息,解决了现有技术中的偏置现象,具备更为优异的性能
[0008]本专利技术的进一步目的是提供一种基于prompt的文本情感原因分析系统。
[0009]为解决上述技术问题,本专利技术的技术方案如下:
[0010]一种基于prompt的文本情感原因分析方法,包括以下步骤:
[0011]S1:收集文本数据并进行预处理;
[0012]S2:在预处理后的文本中先后添加文本提示词和文本待预测词,并针对所述文本待预测词,设置目标候选词集;
[0013]S3:对步骤S2处理后的文本添加子句分割符号和文本起始符号与结尾符号;
[0014]S4:使用BERT预训练模型,对步骤S3处理后的文本和步骤S2设置的目标候选词集进行特征向量编码,得到文本特征向量和目标候选词集向量;
[0015]S5:计算所述文本特征向量和目标候选词集向量之间的编码距离,利用softmax函数计算每个待预测词的编码距离向量的概率,得到待预测词的预测结果,即得到文本情感原因预测结果。
[0016]S6:基于具体任务进行预测模块组合,得到适用于具体文本情感原因分析任务的方法。
[0017]进一步地,所述步骤S1中预处理包括去除标点符号、合并文本子句、分词操作和去除编码错误词汇。
[0018]进一步地,所述步骤S2中文本提示词包括:
[0019]当为了引导BERT预训练模型理解情感识别任务时,在原始文本中添加的情感提示词;
[0020]当为了引导BERT预训练模型理解原因识别任务时,在原始文本中添加的原因提示词;
[0021]当为了引导BERT预训练模型理解情感原因之间的匹配任务时,在原始文本中添加的匹配提示词。
[0022]进一步地,所述步骤S2中添加文本待预测词,并针对所述文本待预测词,设置目标候选词集,具体分为:
[0023]1)基于情感识别任务,对情感子句识别设置情感待预测词,得到情感指示模块,所述情感指示模块的文本构建模版和候选词集为:
[0024][0025][0026]其中,函数表示情感指示模块的文本构建模版,函数表示情感指示模块中的待预测词的候选词集,c
I
表示文本中的第i个子句,<
·
>表示加入文本中的情感提示词,[MASK]emo
表示情感待预测词;
[0027]2)基于情感原因分析任务要求,对原因子句识别设置原因待预测词,得到原因指示模块,所述原因指示模块的文本构建模版和候选词集为:
[0028][0029][0030]其中函数表示原因指示模块的文本构建模版,函数表示原因指示模块中的待预测词的候选词集,c
i
表示文本中的第i个子句,<
·
>表示加入文本中的原因提示词,[MASK]cau
表示原因待预测词;
[0031]3)基于情感原因之间的匹配任务要求,对情感原因子句之间的匹配工作设置匹配待预测词,得到指向约束模块,所述指向约束模块的文本构建模版和候选词集为:
[0032][0033][0034]其中函数表示指向约束模块的文本构建模版,函数表示指向约束模块中的待预测词的候选词集,c
i
表示文本中的第i个子句,<
·
>本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于prompt的文本情感原因分析方法,其特征在于,包括以下步骤:S1:收集文本数据并进行预处理;S2:在预处理后的文本中先后添加文本提示词和文本待预测词,并针对所述文本待预测词,设置目标候选词集;S3:对步骤S2处理后的文本添加子句分割符号和文本起始符号与结尾符号;S4:使用BERT预训练模型,对步骤S3处理后的文本和步骤S2设置的目标候选词集进行特征向量编码,得到文本特征向量和目标候选词集向量;S5:计算所述文本特征向量和目标候选词集向量之间的编码距离,利用softmax函数计算每个待预测词的编码距离向量的概率,得到待预测词的预测结果;S6:基于具体任务进行预测模块组合,得到适用于具体文本情感原因分析任务的方法。2.根据权利要求1所述的基于prompt的文本情感原因分析方法,其特征在于,所述步骤S1中预处理包括去除标点符号、合并文本子句、分词操作和去除编码错误词汇。3.根据权利要求2所述的基于prompt的文本情感原因分析方法,其特征在于,所述步骤S2中的文本提示词包括:当为了引导BERT预训练模型理解情感识别任务时,在原始文本中添加的情感提示词;当为了引导BERT预训练模型理解原因识别任务时,在原始文本中添加的原因提示词;当为了引导BERT预训练模型理解情感原因之间的匹配任务时,在原始文本中添加的匹配提示词。4.根据权利要求3所述的基于prompt的文本情感原因分析方法,其特征在于,所述步骤S2中添加文本待预测词,并针对所述文本待预测词,设置目标候选词集,具体分为:1)基于情感识别任务,对情感子句识别设置情感待预测词,得到情感指示模块,所述情感指示模块的文本构建模版和候选词集为:感指示模块的文本构建模版和候选词集为:其中,函数表示情感指示模块的文本构建模版,函数表示情感指示模块中的待预测词的候选词集,c
i
表示文本中的第i个子句,<
·
>表示加入文本中的情感提示词,[MASK]
emo
表示情感待预测词;2)基于情感原因分析任务要求,对原因子句识别设置原因待预测词,得到原因指示模块,所述原因指示模块的文本构建模版和候选词集为:块,所述原因指示模块的文本构建模版和候选词集为:其中函数表示原因指示模块的文本构建模版,函数表示原因指示模块中的待预测词的候选词集,c
i
表示文本中的第i个子句,<
·
>表示加入文本中的原因提示词,[MASK]
cau
表示原因待预测词;3)基于情感原因之间的匹配任务要求,对情感原因子句之间的匹配工作设置匹配待预测词,得到指向约束模块,所述指向约束模块的文本构建模版和候选词集为:测词,得到指向约束模块,所述指向约束模块的文本构建模版和候选词集为:
其中函数表示指向约束模块的文本构建模版,函数表示指向约束模块中的待预测词的候选词集,c
i
表示文本中的第i个子句,<
·
>表示加入文本中的匹配提示词,[MASK]
dir
表示匹配待预测词,n表示当前文本的子句数量,“None”表示没有与当前子句相关联的其他子句。5.根据权利要求4所述的基于prompt的文本情感原因分析方法,其特征在于,步骤S2中,为了让预训练模型完成子句序列特征的学习任务,通过在文本中加入序列待预测词,构建了序列学习模块,序列学习模块的文本构建模版和候选词集为:建了序列学习模块,序列学习模块的文本构建模版和候选词集为:其中函数表示序列学习模块的文本构建模版,函数表示指序列学习模块中的待预测词的候选词集,d表示输入的文本,c
i
表示文本中的第i个子句,[MASK]
dir
表示序列待预测词,n表示当前文本的子句数量。6.根据权利要求5所述的基于prompt的文本情感原因分析方法,其特征在于,所述步骤S3具体包括以下步骤:S3.1:对经步骤S2处理后的...

【专利技术属性】
技术研发人员:王甲海郑晓鹏
申请(专利权)人:中山大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1