【技术实现步骤摘要】
一种基于prompt的文本情感原因分析方法和系统
[0001]本专利技术涉及文本情感原因分析领域,更具体地,涉及一种基于prompt的文本情感原因分析方法和系统。
技术介绍
[0002]情感原因分析旨在识别情感文本中的情感信息和导致情感的原因。该领域中,具体的子任务包括情感原因提取、情感原因匹配对提取,条件因果关系分类等。情感原因提取作为一个子任务,首先被提出并定义为一个词级的序列标注问题,其目的是探究子句中某一情绪表达背后的原因。然而,在某些情况下,文本的情感信息或原因信息会横跨整个子句序列。为了解决这个问题,情感原因提取被重新定义为一个子句级的分类问题。然而,在情感原因提取任务中,对于原因的提取要基于已有的情感信息标注,所以,在现实场景中,情感原因提取相关技术的应用十分有限。针对这一问题,情感原因匹配对提取任务被提出。通过该任务中的技术与方法,可以直接从未标注情感的文本中识别出所有的情感和对应的原因。除此之外,在情感原因分析领域中,还有诸如条件关系分类等任务被提出,从而进一步探讨情感文本中的因果关系。
[0003]随着互联网的发展,社交舆论、售后评论、朋友圈留言等文字信息无处不在。伴随文字的往往是内在的情绪表达和潜在的原因。通过分析和利用各平台上产生的文字信息,无论是对社交平台中舆论的定位与控制,还是对买家售后评价进行原因分析与改进服务,又或者是根据时局和原因的不同进行决策变换,都有重大意义。这对情感原因分析领域的相关技术有极大的要求。
[0004]现有的情感原因分析工作主要通过建立新颖的深度神经 ...
【技术保护点】
【技术特征摘要】
1.一种基于prompt的文本情感原因分析方法,其特征在于,包括以下步骤:S1:收集文本数据并进行预处理;S2:在预处理后的文本中先后添加文本提示词和文本待预测词,并针对所述文本待预测词,设置目标候选词集;S3:对步骤S2处理后的文本添加子句分割符号和文本起始符号与结尾符号;S4:使用BERT预训练模型,对步骤S3处理后的文本和步骤S2设置的目标候选词集进行特征向量编码,得到文本特征向量和目标候选词集向量;S5:计算所述文本特征向量和目标候选词集向量之间的编码距离,利用softmax函数计算每个待预测词的编码距离向量的概率,得到待预测词的预测结果;S6:基于具体任务进行预测模块组合,得到适用于具体文本情感原因分析任务的方法。2.根据权利要求1所述的基于prompt的文本情感原因分析方法,其特征在于,所述步骤S1中预处理包括去除标点符号、合并文本子句、分词操作和去除编码错误词汇。3.根据权利要求2所述的基于prompt的文本情感原因分析方法,其特征在于,所述步骤S2中的文本提示词包括:当为了引导BERT预训练模型理解情感识别任务时,在原始文本中添加的情感提示词;当为了引导BERT预训练模型理解原因识别任务时,在原始文本中添加的原因提示词;当为了引导BERT预训练模型理解情感原因之间的匹配任务时,在原始文本中添加的匹配提示词。4.根据权利要求3所述的基于prompt的文本情感原因分析方法,其特征在于,所述步骤S2中添加文本待预测词,并针对所述文本待预测词,设置目标候选词集,具体分为:1)基于情感识别任务,对情感子句识别设置情感待预测词,得到情感指示模块,所述情感指示模块的文本构建模版和候选词集为:感指示模块的文本构建模版和候选词集为:其中,函数表示情感指示模块的文本构建模版,函数表示情感指示模块中的待预测词的候选词集,c
i
表示文本中的第i个子句,<
·
>表示加入文本中的情感提示词,[MASK]
emo
表示情感待预测词;2)基于情感原因分析任务要求,对原因子句识别设置原因待预测词,得到原因指示模块,所述原因指示模块的文本构建模版和候选词集为:块,所述原因指示模块的文本构建模版和候选词集为:其中函数表示原因指示模块的文本构建模版,函数表示原因指示模块中的待预测词的候选词集,c
i
表示文本中的第i个子句,<
·
>表示加入文本中的原因提示词,[MASK]
cau
表示原因待预测词;3)基于情感原因之间的匹配任务要求,对情感原因子句之间的匹配工作设置匹配待预测词,得到指向约束模块,所述指向约束模块的文本构建模版和候选词集为:测词,得到指向约束模块,所述指向约束模块的文本构建模版和候选词集为:
其中函数表示指向约束模块的文本构建模版,函数表示指向约束模块中的待预测词的候选词集,c
i
表示文本中的第i个子句,<
·
>表示加入文本中的匹配提示词,[MASK]
dir
表示匹配待预测词,n表示当前文本的子句数量,“None”表示没有与当前子句相关联的其他子句。5.根据权利要求4所述的基于prompt的文本情感原因分析方法,其特征在于,步骤S2中,为了让预训练模型完成子句序列特征的学习任务,通过在文本中加入序列待预测词,构建了序列学习模块,序列学习模块的文本构建模版和候选词集为:建了序列学习模块,序列学习模块的文本构建模版和候选词集为:其中函数表示序列学习模块的文本构建模版,函数表示指序列学习模块中的待预测词的候选词集,d表示输入的文本,c
i
表示文本中的第i个子句,[MASK]
dir
表示序列待预测词,n表示当前文本的子句数量。6.根据权利要求5所述的基于prompt的文本情感原因分析方法,其特征在于,所述步骤S3具体包括以下步骤:S3.1:对经步骤S2处理后的...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。