一种针对财经文本情感倾向分类的深度学习模型融合方法技术

技术编号:36122701 阅读:18 留言:0更新日期:2022-12-28 14:28
本发明专利技术公开了一种针对财经文本情感倾向分类的深度学习模型融合方法,包括以下步骤:S1:获取新闻直播网站发布的历史财经新闻信息;S2:基于已经获取的历史财经新闻信息,在现有财经词典的基础上,构建新的财经词典;S3:用新构建的财经词典,建立新的财经新闻数据集;S4:分别构建利用深度学习方法,用于财经文本情感倾向分类的三个神经网络模型;S5:采用集成学习中bagging的方式,完成对深度神经网络分类模型的训练,得到一种集成多模型财经文本情感倾向分类器。本发明专利技术通过自主采集财经新闻信息,构建新的财经词典,建立新的财经文本数据集,集成训练三个神经网络模型,完成集成多模型财经文本情感倾向分类器的构建工作。模型财经文本情感倾向分类器的构建工作。模型财经文本情感倾向分类器的构建工作。

【技术实现步骤摘要】
一种针对财经文本情感倾向分类的深度学习模型融合方法


[0001]本专利技术属于自然语言处理领域,具体涉及一种针对财经文本情感倾向分类的深度学习模型融合方法。

技术介绍

[0002]目前,作为自然语言处理(NLP)的基础问题之一,文本分类中的情感倾向分析成为了一大研究热点并吸引了众多学者的关注。
[0003]主流的文本情感倾向性分析方法主要有两种,分别为机器学习方法和情感词典方法。前者一般采用的是监督学习方法,主要分成以下几个步骤:首先人工标注数据集,再通过统计学方法发掘文本特征,将文本转化为向量,将数据集传入机器学习模型训练测试,不断优化参数得到最终的分类模型;而后者需提前准备相应的情感词典,相比于上者分析算法较为简单直接,通过在文本中查找情感词并通过一定的算法对情感词赋予一定的情感倾向参数,最终计算出整个文本的情感分值,以此为依据进行文本情感倾向的划分评定。
[0004]但是这两种方法都有各自的不足之处。前者效果很大程度上取决于数据集的质量,在前期数据的准备和标注工作上也往往会耗费大量的人力物力;而后者,情感词典方法的分类效果则十分依赖于情感词典,若文本超出情感词典范围,则会对文本的情感分值评定产生最直接的影响,另外中文表达的多样性,使制作并维护一份高质量的情感词典较为困难。

技术实现思路

[0005]本专利技术的目的是为了解决财经文本情感倾向分类的问题,综合机器学习和情感词典方法,提出了一种集成多模型财经文本情感倾向分类器。
[0006]本专利技术的技术方案是:一种集成多模型财经文本情感倾向分类器包括以下步骤:
[0007]S1:获取新闻直播网站发布的历史财经新闻信息;
[0008]S2:基于已经获取的历史财经新闻信息,在现有财经词典的基础上,构建新的财经词典;
[0009]S3:用新构建的财经词典,建立新的财经新闻数据集;
[0010]S4:分别构建利用深度学习方法,用于财经文本情感倾向分类的三个神经网络模型;
[0011]S5:采用集成学习中bagging的方式,完成对深度神经网络分类模型的训练,得到一种集成多模型财经文本情感倾向分类器。
[0012]进一步地,步骤S1包括以下子步骤:
[0013]S11:将网络爬虫页面page初值赋为0,用于构造请求;将网络爬虫终止条件值outtag初赋为True,用于结束爬虫循环;
[0014]S12:如果终止条件值为False,则完成爬虫程序输出,进入S2步骤;如果终止条件值为True,则网络爬虫页面值递增:page+=1,构造请求头:headers和请求的URL:base_URL
并进入S13步骤;
[0015]S13:通过get_json_data函数得到响应体,获取到含有新闻内容的json文件,返回json文件中蕴含的多条新闻内容;提取保存新闻内容的关键信息;
[0016]S14:休眠3到5秒后,判断page、新闻ID或发布时间是否达到终止条件。如果达到终止条件,则将outtage赋为False,回到步骤S11。
[0017]进一步地,步骤S2包括以下子步骤:
[0018]S21:将步骤S1得到的特定领域语料库(这里特指金融领域)采用Jieba分词工具,完成分词和去停用词处理,形成处理后的语料库;将已有情感词典经过融合和去重处理后,形成融合后的情感词典;
[0019]S22:调用Word2Vec算法对S1中处理后的语料库处理,实现对原语料库的词向量表达,获得词向量模型;
[0020]S23:由基础财经情感词典和S22得到的词向量模型,构建带有情感标签的词向量集合,以此为样本,训练得到情感词的分类模型;
[0021]S24:以基础词典中的词语为种子词,在词向量模型中,从与种子词的词向量余弦相似度最高的前100词中挑选出相似度超过0.65的词,作为候选情感词,从而获得候选情感词集合;
[0022]S25:将候选情感词传入S23得到的情感词分类模型,即可得到待扩充的情感词。
[0023]进一步地,步骤S3包括以下子步骤:
[0024]S31:调用情感分析工具,本文使用senta(百度智能云情感分析API),对获取到的部分财经文本数据进行情感倾向分析。得到senta四种对文本的分类结果如下:
[0025][0026]S32:根据财经情感词典进行文本情感倾向分析,计算出财经文本正负情感倾向的分值:
[0027][0028]用label
dictionary
表示词典匹配方式对文本的分类判决标签:
[0029][0030]S33:将结合senta的分类结果和情感词典的分类结果,对获取到的财经文本数据进行初步情感倾向标注:
[0031]在置信度较低时,认为label
senta
分类结果几乎不可信,将label初步置为label
dictionary
。然而这种情况下文本一般不具有明显情感倾向,需要按照neg
prob
和pos
prob

差值范围进行后续的判决纠正,对于仅含有单一情感倾向词的文本,将二者差值较小的文本标注为中性;对于不含情感词或者含有正负两种情感倾向词的文本,当二者差值较大时则认为label
senta
分类结果更为合理;
[0032]在中等置信度情况下,当neg
prob
和pos
prob
的差值足够大或着文本中不含情感倾向词时,将label初始置为label
senta
,否则置为label
dictionary
。若是文中仅含有单一情感倾向词,将label值纠正为label
dictionary

[0033]在置信度较高时,认为label
senta
分类结果基本可信,且文本的情感倾向较为明显,则将label初步置为label
senta
。在这种情况下对标签进行纠正需靠考虑两方面,若文本中仅含有单一情感倾向词,将label值纠正为label
dictionary
;否则考虑neg
prob
和pos
prob
的差值范围,若二者差值足够小即认为文本为中性;
[0034]S34:综合形成包含24.5万条财经文本数据、带情感标签的金融财经情感数据集。
[0035]进一步地,步骤S4包括以下子步骤:
[0036]S41:采用Word2vec算法预训练词嵌入模型,对超过最大文本长度(这里设置为150)的文本进行截断,反之则将文本进行补齐至最大长度。
[0037]S42:对于TextCNN模型,将分词处理后的文本送入三条通道,采用64个卷积核,其中三个通道的卷积核(convolutionkernel)大小分别设置为5
×
5,4
×
4,本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种针对财经文本情感倾向分类的深度学习模型融合方法,其特征在于,包括以下步骤:S1:获取新闻直播网站发布的历史财经新闻信息;S2:基于已经获取的历史财经新闻信息,在现有财经词典的基础上,构建新的财经词典;S3:用新构建的财经词典,建立新的财经新闻数据集;S4:分别构建利用深度学习方法,用于财经文本情感倾向分类的三个神经网络模型;S5:采用集成学习中bagging的方式,完成对深度神经网络分类模型的训练,得到一种集成多模型财经文本情感倾向分类器。2.根据权利要求1所述的针对财经文本情感倾向分类的深度学习模型融合方法,其特征在于,所述步骤S1包括以下子步骤:S11:将网络爬虫页面page初值赋为0,用于构造请求;将网络爬虫终止条件值outtag初赋为True,用于结束爬虫循环;S12:如果终止条件值为False,则完成爬虫程序输出,进入S2步骤;如果终止条件值为True,则网络爬虫页面值递增:page+=1,构造请求头:headers和请求的URL:base_URL并进入S13步骤;S13:通过get_json_data函数得到响应体,获取到含有新闻内容的json文件,返回json文件中蕴含的多条新闻内容;提取保存新闻内容的关键信息;S14:休眠3到5秒后,判断page、新闻ID或发布时间是否达到终止条件。如果达到终止条件,则将outtage赋为False,回到步骤S11。3.根据权利要求1所述的针对财经文本情感倾向分类的深度学习模型融合方法,其特征在于,所述步骤S2包括以下子步骤:S21:将步骤S1得到的特定领域语料库(这里特指金融领域)采用中文分词工具,完成分词和去停用词处理,形成处理后的语料库;将已有情感词典经过融合和去重处理后,形成融合后的情感词典;S22:调用Word2Vec算法对S1中处理后的语料库处理,实现对原语料库的词向量表达,获得词向量模型;S23:由基础财经情感词典和S22得到的词向量模型,构建带有情感标签的词向量集合,以此为样本,训练得到情感词的分类模型;S24:以基础词典中的词语为种子词,在词向量模型中,按照一定的规则,挑选出与种子词的词向量余弦相似度满足一定条件的词,作为候选情感词,从而获得候选情感词集合;S25:将候选情感词传入S23得到的情感词分类模型,即可得到待扩充的情感词。4.根据权利要求1所述的针对财经文本情感倾向分类的深度学习模型融合方法,其特征在于,所述步骤S3包括以下子步骤:S31:利用文本情感分类工具,对获取到的部分财经文本数据进行情感倾向分析。得到对文本的分类结果如下:
S32:根据财经情感词典进行文本情感倾向分析,计算出财经文本正负情感倾向的分值:用label
dictionary
表示词典匹配方式对文本的分类判决标签:S33:将结合文本情感分类结果和情感词典的分类结果,对获取到的财经文本数据进行初步情感倾向标注:在置信度较低时,认为label
senta
分类结果几乎不可信,将label初步置为label
dictionary
。然而这种情况下文本一般不具有明显情感倾向,需要按照neg
prob
和pos
prob
的差值范围进行后续的判决纠正,对于仅含有单一情感倾向词的文本,将二者差值较小的文本标注为中性;对于不含情感词或者含有正负两种情感倾向词的文本,当二者差值较大时则认为label
senta
分类结果更为合理;在中等置信度情况下,当neg
prob
和pos
prob
的差值足够大或文本中不含情感倾向词时,将label初始置为label
sen...

【专利技术属性】
技术研发人员:武畅王宏
申请(专利权)人:电子科技大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1