一种结合主题挖掘和情感分析的金融舆情分析方法技术

技术编号：32210514 阅读：21 留言：0更新日期：2022-02-09 17:16

本发明专利技术公开了一种结合主题挖掘和情感分析的金融舆情分析方法，主要步骤包括：通过爬虫技术获取金融文本并进行预处理；将预处理后的金融文本导入PLDA主题模型，获取主题及每个主题下的关键词，以确定热门主题；对各个热门主题的金融文本进行词嵌入，将金融文本中的词进行向量化表示，并每个词的位置信息加到对应的词向量中，得到金融文本的句子表示；利用混合神经网络模型采集金融文本的句子表示的全局特征和局部特征，用来表示金融文本的句子结构信息；使用Softmax分类函数对金融文本的句子结构信息进行情感分类，获得金融文本的情感类别。本发明专利技术能够获取股吧热门主题及其情感极性，监测潜在舆情，为金融舆情管理提供有效方法和模型。法和模型。法和模型。

全部详细技术资料下载

【技术实现步骤摘要】
一种结合主题挖掘和情感分析的金融舆情分析方法

[0001]本专利技术属于金融舆情分析领域，具体涉及一种结合主题挖掘和情感分析的金融舆情分析方法。

技术介绍

[0002]随着互联网技术的迅速发展，在金融领域每天都能产生大量的资讯信息，如何对大量的信息进行甄别、抽取显得特别重要。各种金融文本反应了投资者的情绪，投资者情绪决定了投资者的行为，最终影响整个市场的走向。通过对这些金融文本进行舆情分析，能够了解金融市场的发展趋势，有利于金融市场的监控和股价的异常处理。因此，对金融文本进行舆情分析具有重要意义。
[0003]传统的金融舆情分析方法主要基于情感词典和机器学习，情感词典通过金融文本中正负情感词的数目来分析对应的情感极性，机器学习的方法包括支持向量机、朴素贝叶斯和逻辑回归等等。然而，传统方法高度依赖于特征工程，成本较高而且特征工程的效果直接决定分类的精度，同时传统模型难以完整的提取到金融文本的语义信息以及多尺度信息。由于神经网络能够自动提取文本的特征，当前许多基于神经网络的方法被应用于金融舆情分析，其中较为常用并且效果较好的是卷积神经网络和长短期记忆网络。卷积神经网络可以捕捉金融文本的局部连续短语信息，但由于卷积操作本身是线性的，无法充分建模文本中非连续的短语结构，例如一些情感转折的表达。长短期记忆网络可以有效建模金融文本的序列信息，然而长短期记忆网络是一个有偏模型，会倾向文本末尾的信息，同时无法建模金融文本中的多尺度信息。由于有标签的金融舆情文本数据集有限，当前的模型参数规模相对较大，容易造成模型过拟合和特征冗...

【技术保护点】

【技术特征摘要】
1.一种结合主题挖掘和情感分析的金融舆情分析方法，其特征在于，包括以下步骤：步骤1：通过爬虫技术获取金融文本，并对获取的金融文本进行预处理；步骤2：将预处理后的金融文本导入PLDA主题模型，获取每个金融文本的主题及每个主题下的关键词，以确定热门主题；步骤3：对各个热门主题的金融文本进行词嵌入，将金融文本中的词进行向量化表示，并对每个词的位置信息进行编码，将每个词的位置信息加到对应的词向量中，得到金融文本的句子表示；步骤4：利用混合神经网络模型采集金融文本的句子表示的全局特征和局部特征，用来表示金融文本的句子结构信息；步骤5：使用Softmax分类函数对金融文本的句子结构信息进行情感分类，获得金融文本的情感类别。2.如权利要求1所述的一种结合主题挖掘和情感分析的金融舆情分析方法，其特征在于，步骤1中所述预处理为：删除评论数少于一定阈值的金融文本，对剩余的金融文本进行清洗以去除无意义的符号并进行分词处理。3.如权利要求1所述的一种结合主题挖掘和情感分析的金融舆情分析方法，其特征在于，步骤2中，PLDA主题模型在确定金融文本主题时，对每个金融文本根据其发布节点的重要性赋予其重要性权重，首先根据Page
‑
Rank算法计算金融文本发布节点的PR值，PR值越高代表发布节点越重要，重要的发布节点发布的信息越重要，将发布节点的PR值作为金融文本的重要性权重，再将金融文本的主题分布乘以该金融文本的重要性权重，从而得到对每个发布节点需要增强的新的主题以加强发布节点的主题分布。4.如权利要求1所述的一种结合主题挖掘和情感分析的金融舆情分析方法，其特征在于，步骤3中对每个词的位置信息进行编码的方法为：S3.1、计算每个词的位置向量：个词的位置向量：式中，pos表示词在句子中的位置索引，i表示词嵌入向量的维度索引，d表示词向量的维度；S3.2、加入位置信息后的词向量rv
i
为rv

【专利技术属性】
技术研发人员：刘鹏，张真，高中强，张堃，龙江，严乐乐，
申请(专利权)人：南京云创大数据科技股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人