【技术实现步骤摘要】
一种基于情感强度和Bi
‑
GRU双通道的金融领域情感分析方法
[0001].本专利技术属于自然语言处理
,具体涉及一种基于情感强度和Bi
‑
GRU双通道的金融领域情感分析方法。
技术介绍
[0002].随着金融领域专业股评报告、研究报告和投资者个人观点的大量涌出,研究者们对金融文本的情感分析展开了深入的研究。无论是新闻报道还是针对相关主题的评论文本,都具有丰富的投资和监管参考价值。因此全面了解金融领域评论信息有助于投资者从评价中发现潜藏的问题,同时金融市场监管者也可以更好地掌握市场动态,对辅助投资决策有着重要意义。
[0003].如今随着科学技术的不断发展更新,情感分析在自然语言处理中已有较深入研究,主要有基于情感词典、基于机器学习和基于深度学习三种。
[0004].已有的情感分析方法对情感词清晰的文本处理效果较好,但难以挖掘低情感词文本中的情感信息。对于未处理的数据集,方法更加聚焦于提取其中的显式情感特征,而忽视隐式情感特征对情感分析准确性的影响。而在金融领域中,用户更倾向于以一种含蓄的方式来表达自己的观点,文本中没有明显的情感词,很难直接判定情感极性。
[0005].本专利技术提出的SFSG根据文本情感强度的区别划分数据集,并对隐式情感集进行细粒度情感分析,提取隐式文本词级别和词类级别特征信息,同时借助多级注意力机制挖掘不同情感极性环境下语义特征的区别,提高了分类的准确率。
技术实现思路
[0006].本专利技术解决的技术问题在于针 ...
【技术保护点】
【技术特征摘要】
1.一种基于情感强度和Bi
‑
GRU双通道的金融领域情感分析方法,其特征在于包括如下步骤:步骤1:构建金融领域情感词库。具体如图2情感词库的构建流程所示。步骤2:计算候选情感词的情感值。步骤3:数据集划分。步骤4:构建隐式情感分析方法。具体结构如图3所示。2.根据权利要求1所述一种基于情感强度和Bi
‑
GRU双通道的金融领域情感分析方法,其特征在于步骤1包括:(1.1):使用词频
‑
逆文本频率(TF
‑
IDF)算法选取金融领域基准种子词。根据基础情感词典,统计文本中出现的情感词词频,选出文本中TF
‑
IDF值较大的情感词加入到基准种子词中。此类情感词对文本的情感倾向性影响较大,其情感极性由多人投票决定。(1.2):采用情感倾向点互信息算法(SO
‑
PMI)扩展情感词典。依次计算候选情感情感词与基准词的PMI值,并按照结果加入到情感词典中相应的位置,得到更多金融领域潜在的情感词。(1.3):基于SO
‑
PMI扩充种子词。依次计算候选情感情感词与基准词的PMI值,并按照结果加入到情感词典中相应的位置,得到更多金融领域潜在的情感词。其中,N表示数据集中的文档总数,Pw代表褒义词,Nw代表贬义词,df(w)表示数据集中词语w的文档频次,df(w&Pw)或df(w&Nw
i
)表示两个词语在语料库中共同出现的文档频次。3.根据权利要求1所述一种基于情感强度和Bi
‑
GRU双通道的金融领域情感分析方法,其特征在于步骤2包括:(2.1):情感值的正负表示情感积极或消极,情感强度是情感值的绝对值,文本情感值通过所有子句的情感值相加求和进行计算。其中,Total(score)表示整个金融文本的情感值,Sub
l
(score)表示子句l的情感值,L表示子句的数量。根据一般句子的规律,对可能出现的三种组合情况做出分类计算。(2.2):Sen(w)是仅有情感词的情况。其中,Sub(score)表示句子分数,Sen(w)表示每个情感词的情感分数,n表示子句中情感词的个数。(2.3):情感词前有否定词的情况。否定词可以使得整个句子的情感极性发生反转,需要考虑其特殊性计算情感分数。其中,始终为
‑
1,f为情感词前否定词个数。(2.4):情感词前有程度副词的情况:(1)为程度副词在情感词之前;(2)为情感词前有否定词,且否定词前有程度副词;(3)为情感词前有程度副词,且程度副词前有否定词。
其中,Q*为程度副词对应的权重,a,b,c分别表示三种情况的个数分布。4.根据权...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。