基于文本摘要情感挖掘的股票趋势预测方法和系统技术方案

技术编号:27741847 阅读:38 留言:0更新日期:2021-03-19 13:35
本发明专利技术涉及基于文本摘要情感挖掘的股票趋势预测方法和系统,包括以下步骤:S1获取股票相关的若干新闻数据;S2通过新闻数据,获得各新闻的文本摘要;S3根据预建立的情感词库,提取各文本摘要中的情感词,并根据情感词表达情感的强弱,对各文本摘要的情感进行打分;S4将各文本摘要的情感分值作为特征向量与股票历史变化趋势数据输入预建立的股票预测模型中进行计算,若计算结果大于等于零,则股票呈上涨趋势;若计算结果小于零,则股票呈下跌趋势。其通过提取新闻文本摘要,并对文本摘要进行情感挖掘,有效获得对股市波动趋势造成影响的信息,使股票波动预测不仅只局限于往期股票信息,可以从更多方面,更准确的对股票趋势进行预测。

【技术实现步骤摘要】
基于文本摘要情感挖掘的股票趋势预测方法和系统
本专利技术是关于一种基于文本摘要情感挖掘的股票趋势预测方法和系统,属于人工智能

技术介绍
中国股市是一个新兴的证券市场,市场结构和机制尚不成熟,处于不断摸索和完善的过程。相比西方成熟市场,我国股票市场的投资以中小型投资者为主,其信息获取与分析能力和认知能力分布不均匀,投资者之间的信息不对称程度也高于西方成熟资本市场。对于中国这样新生市场,投资者经验相对缺乏、非理性行为较多,主流媒体的过多参与会扩大投资者情绪,加剧股市的波动。已有研究表明,互联网财经新闻的情感倾向会影响投资者的决策和行为,进而引起市场波动。近年来,已有许多研究者将新闻情感作为输入特征参与股票预测。股票投资者阅读新闻资讯时,能人为抽取主要信息、避免无关信息的干扰。然而,当使用文本情感分析技术自动提取新闻情感倾向时,通常会存在偏差。尤其是新闻文本中出现情感极性的变化时,模型无法分辨主次关系,将所有情感一并计算并输出。目前已有不少国内外学者提出了自动文本摘要的解决方案。通过对新闻进行摘要提取,取出新闻中蕴含的有效信息,可以有效解决信息过载和新闻情感极性变化问题,从而能更准确地提取资讯的情感倾向。因此,应用现有的自然语言处理技术和股票预测技术,深入研究新闻资讯摘要对股票波动的影响,对股票波动趋势进行预测,将会对投资者的投资决策和完善市场建设等方面具有理论和现实意义。
技术实现思路
针对上述现有技术的不足,本专利技术的目的是提供了一种基于文本摘要情感挖掘的股票趋势预测方法和系统,其通过提取新闻文本摘要,并对文本摘要进行情感挖掘,有效获得可能对股市波动趋势造成影响的信息,使股票波动预测不仅仅只局限于往期股票信息,可以从更多方面,更准确的对股票趋势进行预测。为实现上述目的,本专利技术提供了一种基于文本摘要情感挖掘的股票趋势预测方法,包括以下步骤:S1获取股票相关的若干新闻数据;S2通过新闻数据,获得各新闻的文本摘要;S3根据预建立的情感词库,提取各文本摘要中的情感词,并根据情感词表达情感的强弱,对各文本摘要的情感进行打分;S4将各文本摘要的情感分值作为特征向量与股票历史变化趋势数据输入预建立的股票预测模型中进行计算,若计算结果大于等于零,则股票呈上涨趋势;若计算结果小于零,则股票呈下跌趋势。进一步,步骤S1中获取股票相关的若干新闻数据包括:选定待研究的股票,获取股票一定时间内的股票代码简称、日期、开盘价、最高价、最低价、收盘价、涨跌幅、成交量、成交金额、换手率、A股流通市值、总市值、市盈率和市销率中至少一种,生成检索关键词,选定可靠的新闻来源,并在新闻来源中检索与股票相关的新闻数据。进一步,步骤S2的具体操作过程为:S2.1对提取的新闻数据做分词处理并去除标点符号,将无关的实体替换成标签,并将新闻数据中的词转换为词典索引;S2.2采用提取的新闻数据训练新闻来源选择模型,得到可靠的新闻来源;S2.3从可靠的新闻来源再次提取新闻数据,并通过Attention机制的Seq2Seq模型获取各新闻的文本摘要。进一步,新闻来源选择模型的训练过程如下:从某一新闻来源处,检索某一历史时间中与待预测股票相关的新闻数据,并获取历史时间内待预测股票的实际变化趋势,用新闻数据预测待预测股票的变化趋势,将预测的变化趋势和实际的变化趋势进行比较,并根据比较结果进行打分;对所有待选的新闻来源进行上面的操作,得到所有待选的新闻来源的分值,将分值超过阈值的新闻来源选定为可靠的新闻来源。进一步,通过Attention机制的Seq2Seq模型获取各新闻的文本摘要的过程为:将新闻数据作为输入向量序列输入Attention机制的Seq2Seq模型获得各个词的生成概率,从而得到所有新闻数据的词的生成概率,选择生成概率高的词,从而生成新闻的文本摘要。进一步,步骤S3中的情感词库包括:情感词,财经新闻中具有趋向性的专业术语,表示否定的词以及程度副词。进一步,步骤S3的具体操作过程为:将情感词库中的情感词和财经新闻中具有趋向性的专业术语分为表达积极情感、表达消极情感两类,设定各情感词库中的情感词和财经新闻中具有趋向性的专业术语的分值,若表达积极情感则加相应分值,若表达消极情感则减去相应分值,将各新闻数据的文本摘要分成若干句簇,结合否定词和程度副词获得各句簇的得分。进一步,结合否定词和程度副词获得各句簇的得分规则为:只出现否定词的得分为Un=(0.1×Cn-1)Cn×S,只出现程度副词的得分为:Us=∏Ls×S,同时存在否定词和程度副词时,若否定词在前,则将否定词的总分数和程度副词的总分数相加;若否定词在后,则将否定词的总分数和程度副词的总分数相乘,Un是否定词总分数,Us是程度副词的总分数,Cn是否定词的得分,Ls是程度副词的得分,S是不包括情感词和财经新闻中具有趋向性的专业术语的得分。进一步,步骤S4的具体操作步骤为:4.1选择时间窗口,并采集时间窗口内的股票历史变化趋势数据;4.2各文本摘要的情感分值作为特征向量与股票历史变化趋势数据输入LSTM模型,对LSTM模型进行训练,获得包含情感特征的股票训练模型;4.3在包含情感特征的股票训练模型中输入用于判断股票趋势的文本摘要的情感分值作为特征向量与股票历史变化趋势数据,并计算出股票带预测时间段内的变化量;4.4判断变化量是否大于零,若变化量大于等于零,则股票呈上涨趋势;若变化量小于零,则股票呈下跌趋势。本专利技术还公开了一种基于文本摘要情感挖掘的股票趋势预测系统,包括:获取模块,用于获取股票相关的若干新闻数据;摘要生成模块,用于通过新闻数据,获得各新闻的文本摘要;情感打分模块,用于根据预建立的情感词库,提取各文本摘要中的情感词,并根据情感词表达情感的强弱,对各文本摘要的情感进行打分;趋势判断模块,用于将各文本摘要的情感分值作为特征向量与股票历史变化趋势数据输入预建立的股票预测模型中进行计算,若计算结果大于等于零,则股票呈上涨趋势;若计算结果小于零,则股票呈下跌趋势。本专利技术由于采取以上技术方案,其具有以下优点:1、本专利技术通过对基于股票的新闻文本进行收集和整理,构建了大型文本摘要数据库,并计算该摘要的情感值;将自动文本摘要和情感值计算应用于深度学习预测模型中,完善了模型多种输入信息,提升了模型的表征能力。2、本专利技术结合文本摘要情感值,通过LSTM网络进行股票波动预测,提升了预测效果的准确性。因此,本专利技术可以广泛应用于股票预测应用领域。附图说明图1是本专利技术一实施例中基于自动文本摘要和情感挖掘进行股票波动趋势预测方法流程图;图2是本专利技术一实施例中基于attention机制的Seq2Seq模型的结构示意图;图3是本专利技术一实施例中LSTM预测模型的结构示意图。具体实施方式为了使本领域技术人员更好的理解本专利技术的技术方向,通过具体实施例对本专利技术进行详细的描绘。然而应当理解,具体实施方式的提供仅为了更好地理解本专利技术,它们不应该理解成对本专利技术的限制。在本专利技术的描述中,需要理解的是,所本文档来自技高网...

【技术保护点】
1.一种基于文本摘要情感挖掘的股票趋势预测方法,其特征在于,包括以下步骤:/nS1获取股票相关的若干新闻数据;/nS2通过所述新闻数据,获得各新闻的文本摘要;/nS3根据预建立的情感词库,提取各所述文本摘要中的情感词,并根据所述情感词表达情感的强弱,对各所述文本摘要的情感进行打分;/nS4将各所述文本摘要的情感分值作为特征向量与股票历史变化趋势数据输入预建立的股票预测模型中进行计算,若计算结果大于等于零,则股票呈上涨趋势;若计算结果小于零,则股票呈下跌趋势。/n

【技术特征摘要】
20200609 CN 20201051665111.一种基于文本摘要情感挖掘的股票趋势预测方法,其特征在于,包括以下步骤:
S1获取股票相关的若干新闻数据;
S2通过所述新闻数据,获得各新闻的文本摘要;
S3根据预建立的情感词库,提取各所述文本摘要中的情感词,并根据所述情感词表达情感的强弱,对各所述文本摘要的情感进行打分;
S4将各所述文本摘要的情感分值作为特征向量与股票历史变化趋势数据输入预建立的股票预测模型中进行计算,若计算结果大于等于零,则股票呈上涨趋势;若计算结果小于零,则股票呈下跌趋势。


2.如权利要求1所述的基于文本摘要情感挖掘的股票趋势预测方法,其特征在于,所述步骤S1中获取股票相关的若干新闻数据包括:选定待研究的股票,获取所述股票一定时间内的股票代码简称、日期、开盘价、最高价、最低价、收盘价、涨跌幅、成交量、成交金额、换手率、A股流通市值、总市值、市盈率和市销率中至少一种,生成检索关键词,选定可靠的新闻来源,并在所述新闻来源中检索与股票相关的新闻数据。


3.如权利要求1所述的基于文本摘要情感挖掘的股票趋势预测方法,其特征在于,所述步骤S2的具体操作过程为:
S2.1对提取的新闻数据做分词处理并去除标点符号,将无关的实体替换成标签,并将新闻数据中的词转换为词典索引;
S2.2采用提取的新闻数据训练新闻来源选择模型,得到可靠的新闻来源;
S2.3从所述可靠的新闻来源再次提取新闻数据,并通过Attention机制的Seq2Seq模型获取各新闻的文本摘要。


4.如权利要求3所述的基于文本摘要情感挖掘的股票趋势预测方法,其特征在于,所述新闻来源选择模型的训练过程如下:从某一新闻来源处,检索某一历史时间中与待预测股票相关的新闻数据,并获取所述历史时间内待预测股票的实际变化趋势,用所述新闻数据预测所述待预测股票的变化趋势,将预测的变化趋势和实际的变化趋势进行比较,并根据比较结果进行打分;对所有待选的新闻来源进行上面的操作,得到所有待选的新闻来源的分值,将所述分值超过阈值的新闻来源选定为可靠的新闻来源。


5.如权利要求3所述的基于文本摘要情感挖掘的股票趋势预测方法,其特征在于,所述通过Attention机制的Seq2Seq模型获取各新闻的文本摘要的过程为:将所述新闻数据作为输入向量序列输入Attention机制的Seq2Seq模型获得各个词的生成概率,从而得到所有所述新闻数据的词的生成概率,选择生成概率高的词,从而生成新闻的文本摘要。


6.如权利要求1-5任一项所述...

【专利技术属性】
技术研发人员:齐甜方蒋洪迅
申请(专利权)人:中国人民大学
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1