一种基于prompt的文本情感原因分析方法和系统技术方案

技术编号：33290093 阅读：23 留言：0更新日期：2022-05-01 00:07

本发明专利技术公开一种基于prompt的文本情感原因分析方法和系统，方法包括以下步骤：S1：收集文本数据并进行预处理；S2：在预处理后的文本中先后添加文本提示词和文本待预测词，并针对文本待预测词，设置目标候选词集；S3：对文本添加子句分割符号和文本起始符号与结尾符号；S4：使用BERT预训练模型，对文本和目标候选词集进行特征向量编码，得到文本特征向量和目标候选词集向量；S5：计算文本特征向量和目标候选词集向量之间的编码距离，利用softmax函数计算每个待预测词的编码距离向量的概率，得到待预测词的预测结果；S6：基于具体任务进行预测模块组合，得到适用于具体文本情感原因分析任务的方法。本发明专利技术引入prompt解决了微调任务和预训练任务之间的差异性。和预训练任务之间的差异性。和预训练任务之间的差异性。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于prompt的文本情感原因分析方法和系统

[0001]本专利技术涉及文本情感原因分析领域，更具体地，涉及一种基于prompt的文本情感原因分析方法和系统。

技术介绍

[0002]情感原因分析旨在识别情感文本中的情感信息和导致情感的原因。该领域中，具体的子任务包括情感原因提取、情感原因匹配对提取，条件因果关系分类等。情感原因提取作为一个子任务，首先被提出并定义为一个词级的序列标注问题，其目的是探究子句中某一情绪表达背后的原因。然而，在某些情况下，文本的情感信息或原因信息会横跨整个子句序列。为了解决这个问题，情感原因提取被重新定义为一个子句级的分类问题。然而，在情感原因提取任务中，对于原因的提取要基于已有的情感信息标注，所以，在现实场景中，情感原因提取相关技术的应用十分有限。针对这一问题，情感原因匹配对提取任务被提出。通过该任务中的技术与方法，可以直接从未标注情感的文本中识别出所有的情感和对应的原因。除此之外，在情感原因分析领域中，还有诸如条件关系分类等任务被提出，从而进一步探讨情感文本中的因果关系。
[0003]随着互联网的发展，社交舆论、售后评论、朋友圈留言等文字信息无处不在。伴随文字的往往是内在的情绪表达和潜在的原因。通过分析和利用各平台上产生的文字信息，无论是对社交平台中舆论的定位与控制，还是对买家售后评价进行原因分析与改进服务，又或者是根据时局和原因的不同进行决策变换，都有重大意义。这对情感原因分析领域的相关技术有极大的要求。
[0004]现有的情感原因分析工作主要通过建立新颖的深度神经...

【技术保护点】

【技术特征摘要】
1.一种基于prompt的文本情感原因分析方法，其特征在于，包括以下步骤：S1：收集文本数据并进行预处理；S2：在预处理后的文本中先后添加文本提示词和文本待预测词，并针对所述文本待预测词，设置目标候选词集；S3：对步骤S2处理后的文本添加子句分割符号和文本起始符号与结尾符号；S4：使用BERT预训练模型，对步骤S3处理后的文本和步骤S2设置的目标候选词集进行特征向量编码，得到文本特征向量和目标候选词集向量；S5：计算所述文本特征向量和目标候选词集向量之间的编码距离，利用softmax函数计算每个待预测词的编码距离向量的概率，得到待预测词的预测结果；S6：基于具体任务进行预测模块组合，得到适用于具体文本情感原因分析任务的方法。2.根据权利要求1所述的基于prompt的文本情感原因分析方法，其特征在于，所述步骤S1中预处理包括去除标点符号、合并文本子句、分词操作和去除编码错误词汇。3.根据权利要求2所述的基于prompt的文本情感原因分析方法，其特征在于，所述步骤S2中的文本提示词包括：当为了引导BERT预训练模型理解情感识别任务时，在原始文本中添加的情感提示词；当为了引导BERT预训练模型理解原因识别任务时，在原始文本中添加的原因提示词；当为了引导BERT预训练模型理解情感原因之间的匹配任务时，在原始文本中添加的匹配提示词。4.根据权利要求3所述的基于prompt的文本情感原因分析方法，其特征在于，所述步骤S2中添加文本待预测词，并针对所述文本待预测词，设置目标候选词集，具体分为：1)基于情感识别任务，对情感子句识别设置情感待预测词，得到情感指示模块，所述情感指示模块的文本构建模版和候选词集为：感指示模块的文本构建模版和候选词集为：其中，函数表示情感指示模块的文本构建模版，函数表示情感指示模块中的待预测词的候选词集，c
i
表示文本中的第i个子句，<
·
>表示加入文本中的情感提示词，[MASK]
emo
表示情感待预测词；2)基于情感原因分析任务要求，对原因子句识别设置原因待预测词，得到原因指示模块，所述原因指示模块的文本构建模版和候选词集为：块，所述原因指示模块的文本构建模版和候选词集为：其中函数表示原因指示模块的文本构建模版，函数表示原因指示模块中的待预测词的候选词集，c
i
表示文本中的第i个子句，<
·
>表示加入文本中的原因提示词，[MASK]
cau
表示原因待预测词；3)基于情感原因之间的匹配任务要求，对情感原因子句之间的匹配工作设置匹配待预测词，得到指向约束模块，所述指向约束模块的文本构建模版和候选词集为：测词，得到指向约束模块，所述指向约束模块的文本构建模版和候选词集为：
其中函数表示指向约束模块的文本构建模版，函数表示指向约束模块中的待预测词的候选词集，c
i
表示文本中的第i个子句，<
·
>表示加入文本中的匹配提示词，[MASK]
dir
表示匹配待预测词，n表示当前文本的子句数量，“None”表示没有与当前子句相关联的其他子句。5.根据权利要求4所述的基于prompt的文本情感原因分析方法，其特征在于，步骤S2中，为了让预训练模型完成子句序列特征的学习任务，通过在文本中加入序列待预测词，构建了序列学习模块，序列学习模块的文本构建模版和候选词集为：建了序列学习模块，序列学习模块的文本构建模版和候选词集为：其中函数表示序列学习模块的文本构建模版，函数表示指序列学习模块中的待预测词的候选词集，d表示输入的文本，c
i
表示文本中的第i个子句，[MASK]
dir
表示序列待预测词，n表示当前文本的子句数量。6.根据权利要求5所述的基于prompt的文本情感原因分析方法，其特征在于，所述步骤S3具体包括以下步骤：S3.1：对经步骤S2处理后的...

【专利技术属性】
技术研发人员：王甲海，郑晓鹏，
申请(专利权)人：中山大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人