一种结合主题挖掘和情感分析的金融舆情分析方法技术

技术编号:32210514 阅读:21 留言:0更新日期:2022-02-09 17:16
本发明专利技术公开了一种结合主题挖掘和情感分析的金融舆情分析方法,主要步骤包括:通过爬虫技术获取金融文本并进行预处理;将预处理后的金融文本导入PLDA主题模型,获取主题及每个主题下的关键词,以确定热门主题;对各个热门主题的金融文本进行词嵌入,将金融文本中的词进行向量化表示,并每个词的位置信息加到对应的词向量中,得到金融文本的句子表示;利用混合神经网络模型采集金融文本的句子表示的全局特征和局部特征,用来表示金融文本的句子结构信息;使用Softmax分类函数对金融文本的句子结构信息进行情感分类,获得金融文本的情感类别。本发明专利技术能够获取股吧热门主题及其情感极性,监测潜在舆情,为金融舆情管理提供有效方法和模型。法和模型。法和模型。

【技术实现步骤摘要】
一种结合主题挖掘和情感分析的金融舆情分析方法


[0001]本专利技术属于金融舆情分析领域,具体涉及一种结合主题挖掘和情感分析的金融舆情分析方法。

技术介绍

[0002]随着互联网技术的迅速发展,在金融领域每天都能产生大量的资讯信息,如何对大量的信息进行甄别、抽取显得特别重要。各种金融文本反应了投资者的情绪,投资者情绪决定了投资者的行为,最终影响整个市场的走向。通过对这些金融文本进行舆情分析,能够了解金融市场的发展趋势,有利于金融市场的监控和股价的异常处理。因此,对金融文本进行舆情分析具有重要意义。
[0003]传统的金融舆情分析方法主要基于情感词典和机器学习,情感词典通过金融文本中正负情感词的数目来分析对应的情感极性,机器学习的方法包括支持向量机、朴素贝叶斯和逻辑回归等等。然而,传统方法高度依赖于特征工程,成本较高而且特征工程的效果直接决定分类的精度,同时传统模型难以完整的提取到金融文本的语义信息以及多尺度信息。由于神经网络能够自动提取文本的特征,当前许多基于神经网络的方法被应用于金融舆情分析,其中较为常用并且效果较好的是卷积神经网络和长短期记忆网络。卷积神经网络可以捕捉金融文本的局部连续短语信息,但由于卷积操作本身是线性的,无法充分建模文本中非连续的短语结构,例如一些情感转折的表达。长短期记忆网络可以有效建模金融文本的序列信息,然而长短期记忆网络是一个有偏模型,会倾向文本末尾的信息,同时无法建模金融文本中的多尺度信息。由于有标签的金融舆情文本数据集有限,当前的模型参数规模相对较大,容易造成模型过拟合和特征冗余,降低舆情分析的准确率。
[0004]通常金融舆情具有时效性、主观性以及传播性广等特点,传统方法仅限于对金融舆情内容的情感分析上,缺乏对热点金融舆情进行提取和甄别的能力。综上,现有的舆情分析方法存在以下缺陷:热点话题不够明确,情感分析准确性不高。目前亟待提出一种更有时效性和主题性的金融舆情分析方法。

技术实现思路

[0005]本专利技术针对现有技术中的不足,提供一种结合主题挖掘和情感分析的金融舆情分析方法。
[0006]为实现上述目的,本专利技术采用以下技术方案:
[0007]一种结合主题挖掘和情感分析的金融舆情分析方法,包括以下步骤:
[0008]步骤1:通过爬虫技术获取金融文本,并对获取的金融文本进行预处理;
[0009]步骤2:将预处理后的金融文本导入PLDA主题模型,获取每个金融文本的主题及每个主题下的关键词,以确定热门主题;
[0010]步骤3:对各个热门主题的金融文本进行词嵌入,将金融文本中的词进行向量化表示,并对每个词的位置信息进行编码,将每个词的位置信息加到对应的词向量中,得到金融
文本的句子表示;
[0011]步骤4:利用混合神经网络模型采集金融文本的句子表示的全局特征和局部特征,用来表示金融文本的句子结构信息;
[0012]步骤5:使用Softmax分类函数对金融文本的句子结构信息进行情感分类,获得金融文本的情感类别。
[0013]进一步地,步骤1中所述预处理为:删除评论数少于一定阈值的金融文本,对剩余的金融文本进行清洗以去除无意义的符号并进行分词处理。
[0014]进一步地,步骤2中,PLDA主题模型在确定金融文本主题时,对每个金融文本根据其发布节点的重要性赋予其重要性权重,首先根据Page

Rank算法计算金融文本发布节点的PR值,PR值越高代表发布节点越重要,重要的发布节点发布的信息越重要,将发布节点的PR值作为金融文本的重要性权重,再将金融文本的主题分布乘以该金融文本的重要性权重,从而得到对每个发布节点需要增强的新的主题以加强发布节点的主题分布。
[0015]进一步地,步骤3中对每个词的位置信息进行编码的方法为:
[0016]S3.1、计算每个词的位置向量:
[0017][0018][0019]式中,pos表示词在句子中的位置索引,i表示词嵌入向量的维度索引,d表示词向量的维度;
[0020]S3.2、加入位置信息后的词向量rv
i
为rv
i
=wv
i
+pv
i
,wv
i
表示句子中第i个词的词向量,pv
i
表示句子中第i个词的位置向量。
[0021]进一步地,所述混合神经网络模型为自注意力机制和卷积神经网络的相结合,步骤4具体包括:
[0022]S4.1、使用多个自注意力模块提取句子的语义和全局结构信息:将加入位置信息后的词向量分别输入到多个自注意力模块中,然后将所得结果进行向量拼接组成文本全局结构信息特征向量Z;
[0023]S4.2、使用不同窗口大小的卷积核对加入位置信息后的词向量进行一维卷积,将卷积获得的每个特征图进行最大池化,得到文本短语级特征向量C;
[0024]S4.3、将文本全局结构信息特征向量Z和文本短语级特征向量C进行拼接得到特征向量Y,用特征向量Y表示金融文本的句子结构信息。
[0025]进一步地,步骤5具体包括以下步骤:
[0026]S5.1、构建并训练Softmax分类器,包括全连接层和Softmax分类层,Softmax分类器的损失函数Loss为
[0027][0028]式中,N、Cl分别表示样本总数和情感类别数,y
ij
表示第i个样本属于第j个情感类别的真实概率值,p
ij
表示第i个样本属于第j个情感类别的预测概率值;
[0029]S5.2、将特征向量Y通过全连接层输入Softmax分类层,获取情感分类结果:
[0030]p=Soft max(W
c
Y+b
c
),
[0031]式中,W
c
、b
c
分别表示Softmax分类器的权重和偏置,p为结果向量,表示金融文本属于每个情感类别的概率,最大的概率值对应的情感类别为金融文本的情感类别。
[0032]本专利技术相对于现有技术,具有如下的优点及效果:
[0033](1)本专利技术提出一种基于主题挖掘和混合神经网络模型进行金融舆情分析,首先使用PLDA主题模型对爬取的金融文本信息进行主题筛选,可以快速准确的找出热点金融话题。
[0034](2)本专利技术为了更好的建模金融文本语义信息和结构信息,结合了卷积神经网络局部短语特征建模的能力和自注意力机制的全局结构和语义建模能力,能够在金融文本分析上取得更好的准确率。
附图说明
[0035]图1为本专利技术方法的流程示意图。
具体实施方式
[0036]现在结合附图对本专利技术作进一步详细的说明。
[0037]如图1所示,本专利技术主要包括以下步骤:
[0038](1)通过爬虫技术获取金融文本,并对获取的金融文本进行预处理。
[0039]首先根据东方财富网股吧网页结构,利用Python中的asyncio模块搭本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种结合主题挖掘和情感分析的金融舆情分析方法,其特征在于,包括以下步骤:步骤1:通过爬虫技术获取金融文本,并对获取的金融文本进行预处理;步骤2:将预处理后的金融文本导入PLDA主题模型,获取每个金融文本的主题及每个主题下的关键词,以确定热门主题;步骤3:对各个热门主题的金融文本进行词嵌入,将金融文本中的词进行向量化表示,并对每个词的位置信息进行编码,将每个词的位置信息加到对应的词向量中,得到金融文本的句子表示;步骤4:利用混合神经网络模型采集金融文本的句子表示的全局特征和局部特征,用来表示金融文本的句子结构信息;步骤5:使用Softmax分类函数对金融文本的句子结构信息进行情感分类,获得金融文本的情感类别。2.如权利要求1所述的一种结合主题挖掘和情感分析的金融舆情分析方法,其特征在于,步骤1中所述预处理为:删除评论数少于一定阈值的金融文本,对剩余的金融文本进行清洗以去除无意义的符号并进行分词处理。3.如权利要求1所述的一种结合主题挖掘和情感分析的金融舆情分析方法,其特征在于,步骤2中,PLDA主题模型在确定金融文本主题时,对每个金融文本根据其发布节点的重要性赋予其重要性权重,首先根据Page

Rank算法计算金融文本发布节点的PR值,PR值越高代表发布节点越重要,重要的发布节点发布的信息越重要,将发布节点的PR值作为金融文本的重要性权重,再将金融文本的主题分布乘以该金融文本的重要性权重,从而得到对每个发布节点需要增强的新的主题以加强发布节点的主题分布。4.如权利要求1所述的一种结合主题挖掘和情感分析的金融舆情分析方法,其特征在于,步骤3中对每个词的位置信息进行编码的方法为:S3.1、计算每个词的位置向量:个词的位置向量:式中,pos表示词在句子中的位置索引,i表示词嵌入向量的维度索引,d表示词向量的维度;S3.2、加入位置信息后的词向量rv
i
为rv

【专利技术属性】
技术研发人员:刘鹏张真高中强张堃龙江严乐乐
申请(专利权)人:南京云创大数据科技股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1