一种基于情感强度和Bi-GRU双通道的金融领域情感分析方法技术

技术编号:38469126 阅读:9 留言:0更新日期:2023-08-11 14:46
本发明专利技术公开了一种基于情感强度和Bi

【技术实现步骤摘要】
一种基于情感强度和Bi

GRU双通道的金融领域情感分析方法


[0001].本专利技术属于自然语言处理
,具体涉及一种基于情感强度和Bi

GRU双通道的金融领域情感分析方法。

技术介绍

[0002].随着金融领域专业股评报告、研究报告和投资者个人观点的大量涌出,研究者们对金融文本的情感分析展开了深入的研究。无论是新闻报道还是针对相关主题的评论文本,都具有丰富的投资和监管参考价值。因此全面了解金融领域评论信息有助于投资者从评价中发现潜藏的问题,同时金融市场监管者也可以更好地掌握市场动态,对辅助投资决策有着重要意义。
[0003].如今随着科学技术的不断发展更新,情感分析在自然语言处理中已有较深入研究,主要有基于情感词典、基于机器学习和基于深度学习三种。
[0004].已有的情感分析方法对情感词清晰的文本处理效果较好,但难以挖掘低情感词文本中的情感信息。对于未处理的数据集,方法更加聚焦于提取其中的显式情感特征,而忽视隐式情感特征对情感分析准确性的影响。而在金融领域中,用户更倾向于以一种含蓄的方式来表达自己的观点,文本中没有明显的情感词,很难直接判定情感极性。
[0005].本专利技术提出的SFSG根据文本情感强度的区别划分数据集,并对隐式情感集进行细粒度情感分析,提取隐式文本词级别和词类级别特征信息,同时借助多级注意力机制挖掘不同情感极性环境下语义特征的区别,提高了分类的准确率。

技术实现思路

[0006].本专利技术解决的技术问题在于针对现有技术的不足,提出一种基于情感强度和Bi

GRU双通道的金融领域情感分析方法(SFSG),用于提升情感分析的准确率,方法结构如图1所示。
[0007].为了达到上述目的,本专利技术提供的一种基于情感强度和Bi

GRU双通道的金融领域情感分析方法(SFSG)是按以下步骤进行的:
[0008].步骤1:构建金融领域情感词库。具体如图2情感词库的构建流程所示。
[0009].步骤1.1:使用词频

逆文本频率(TF

IDF)算法选取金融领域基准种子词。根据基础情感词典,统计文本中出现的情感词词频,选出文本中TF

IDF值较大的情感词加入到基准种子词中。此类情感词对文本的情感倾向性影响较大,其情感极性由多人投票决定。
[0010].步骤1.2:采用情感倾向点互信息算法(SO

PMI)扩展情感词典。依次计算候选情感情感词与基准词的PMI值,并按照结果加入到情感词典中相应的位置,得到更多金融领域潜在的情感词。
[0011].步骤1.3:基于SO

PMI扩充种子词。依次计算候选情感情感词与基准词的PMI值,并按照结果加入到情感词典中相应的位置,得到更多金融领域潜在的情感词。
[0012].
[0013].其中,N表示数据集中的文档总数,Pw代表褒义词,Nw代表贬义词,df(w)表示数据集中词语w的文档频次,df(w&Pw)或df(w&Nw
i
)表示两个词语在语料库中共同出现的文档频次。
[0014].步骤2:计算候选情感词的情感值。
[0015].步骤2.1:情感值的正负表示情感积极或消极,情感强度是情感值的绝对值,文本情感值通过所有子句的情感值相加求和进行计算。
[0016].
[0017].其中,Total(score)表示整个金融文本的情感值,Sub
l
(score)表示子句l的情感值,L表示子句的数量。根据一般句子的规律,对可能出现的三种组合情况做出分类计算。
[0018].步骤2.2:Sen(w)是仅有情感词的情况。
[0019].
[0020].其中,Sub(score)表示句子分数,Sen(w)表示每个情感词的情感分数,n表示子句中情感词的个数。
[0021].步骤2.3:情感词前有否定词的情况。否定词可以使得整个句子的情感极性发生反转,需要考虑其特殊性计算情感分数。
[0022].
[0023].其中,始终为

1,f为情感词前否定词个数。
[0024].步骤2.4:情感词前有程度副词的情况:(1)为程度副词在情感词之前;(2)为情感词前有否定词,且否定词前有程度副词;(3)为情感词前有程度副词,且程度副词前有否定词。
[0025].
[0026].
[0027].其中,Q*为程度副词对应的权重,a,b,c分别表示三种情况的个数分布。
[0028].
[0029].步骤3:数据集划分。
[0030].本专利技术根据情感强度将数据集划分为显式情感集和隐式情感集两部分,划分比例为1:1,以便更好的判定隐式情感文本的情感极性。
[0031].步骤3.1:将数据集根据情感分数的绝对值从小到大排列为(S1,S2,...,S
N
),其中,N为数据集中的文本数。
[0032].步骤3.2:若N为偶数,则选取的划分标准为S
N/2
,若数据集中N为奇数,则选取的划分标准为S
(N+1
)
/2

[0033].步骤3.3:高于划分标准的文本被划分到显式情感集,低于或等于划分标准的文本被划分到隐式情感集。
[0034].步骤4:构建隐式情感分析方法。具体结构如图3所示。
[0035].步骤4.1:采用Bi

GRU对词级别的信息进行提取,获取到特征表示更加符合当前语境的文本语义信息。
[0036].步骤4.2:词类级别的表示使模型获取更宏观的文本信息,并对词级别细粒度级别信息进行补充。为了具体说明词类级别的表示方法,利用“华为公司股票近期上涨”这句话举一个例子,例子中“华为”和“公司”为金融实体,“股票”和“最近”为其他词汇,“上涨”为积极类情感词,对句子组成进行分析后获得词类级别表示[Entity,Entity,Other,Other,Neu],每个类别对应相同的词向量。
[0037].将经过词嵌入表示的向量输入另一个Bi

GRU

,进而提取词类级别语义特征。Bi

GRU

的隐状态输出序列[h
’0,h
’2,K,h

n
]为当前文本的词类特征的表示,其中的h

n
对应于第n个词类的特征。
[0038].步骤4.3:将情感极性不同的情感词嵌入作为注意力的初始化,使模型可以更好地捕捉每个情感极性的下词级别特征。对于每种情感极性,引入一个单独的查询向量,用于在特定的情感取向场景下捕捉单词的特征。多极注意力使得每个查询向量更加关注对应情感极性的特征。
[003本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于情感强度和Bi

GRU双通道的金融领域情感分析方法,其特征在于包括如下步骤:步骤1:构建金融领域情感词库。具体如图2情感词库的构建流程所示。步骤2:计算候选情感词的情感值。步骤3:数据集划分。步骤4:构建隐式情感分析方法。具体结构如图3所示。2.根据权利要求1所述一种基于情感强度和Bi

GRU双通道的金融领域情感分析方法,其特征在于步骤1包括:(1.1):使用词频

逆文本频率(TF

IDF)算法选取金融领域基准种子词。根据基础情感词典,统计文本中出现的情感词词频,选出文本中TF

IDF值较大的情感词加入到基准种子词中。此类情感词对文本的情感倾向性影响较大,其情感极性由多人投票决定。(1.2):采用情感倾向点互信息算法(SO

PMI)扩展情感词典。依次计算候选情感情感词与基准词的PMI值,并按照结果加入到情感词典中相应的位置,得到更多金融领域潜在的情感词。(1.3):基于SO

PMI扩充种子词。依次计算候选情感情感词与基准词的PMI值,并按照结果加入到情感词典中相应的位置,得到更多金融领域潜在的情感词。其中,N表示数据集中的文档总数,Pw代表褒义词,Nw代表贬义词,df(w)表示数据集中词语w的文档频次,df(w&Pw)或df(w&Nw
i
)表示两个词语在语料库中共同出现的文档频次。3.根据权利要求1所述一种基于情感强度和Bi

GRU双通道的金融领域情感分析方法,其特征在于步骤2包括:(2.1):情感值的正负表示情感积极或消极,情感强度是情感值的绝对值,文本情感值通过所有子句的情感值相加求和进行计算。其中,Total(score)表示整个金融文本的情感值,Sub
l
(score)表示子句l的情感值,L表示子句的数量。根据一般句子的规律,对可能出现的三种组合情况做出分类计算。(2.2):Sen(w)是仅有情感词的情况。其中,Sub(score)表示句子分数,Sen(w)表示每个情感词的情感分数,n表示子句中情感词的个数。(2.3):情感词前有否定词的情况。否定词可以使得整个句子的情感极性发生反转,需要考虑其特殊性计算情感分数。其中,始终为

1,f为情感词前否定词个数。(2.4):情感词前有程度副词的情况:(1)为程度副词在情感词之前;(2)为情感词前有否定词,且否定词前有程度副词;(3)为情感词前有程度副词,且程度副词前有否定词。
其中,Q*为程度副词对应的权重,a,b,c分别表示三种情况的个数分布。4.根据权...

【专利技术属性】
技术研发人员:黄金炜张玉莹
申请(专利权)人:安徽理工大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1