当前位置: 首页 > 专利查询>浙江大学专利>正文

一种基于舆论数据的股票异动分析方法技术

技术编号:18554890 阅读:103 留言:0更新日期:2018-07-28 11:33
本发明专利技术公开了一种基于舆论数据的股票异动分析方法,其建立了一套文本情感分析的模型,通过自然语言处理技术,提取海量的舆论数据的特征,挖掘出与特定的股票异常波动类型的特征,帮助领域专家和数据分析师分析股票的行情,帮助投资者获取关键信息,改善投资策略,并给定通用的方法,大大提高金融文本数据分析的效率,符合领域专家及投资者的需要。此外,本发明专利技术对于不同的股票异动结果类型均适用,能够指导领域专家对舆论的情感特征进行提取,给出情感分析所需要的数据及信息,使得领域专家在股票异动检测的工作中尽量发挥其领域知识方面的优势,更加全面准确地掌握有效信息,有助于改善投资策略。

【技术实现步骤摘要】
一种基于舆论数据的股票异动分析方法
本专利技术属于自然语言处理及数据挖掘
,具体涉及一种基于舆论数据的股票异动分析方法。
技术介绍
随着互联网技术的飞速发展,信息化与金融行业的深度融合,专家和权威机构在互联网上发布的海量有价值的评论、重要金融事件的报道和公司披露等,已成为领域专家和投资者了解金融市场的重要的信息来源。然而,与股票行情走势和投资相关性较强的关键信息被隐藏在庞大的文本中,另人眼花缭乱,不能及时地获取有效信息。行为经济学表明情绪会深刻地影响个人的行为和决策,这是否也适用于股票行业,即股民的情绪状态可能对其交易行为产生影响;股民的情感信息是否与股票的行情走势相关,甚至能否基于异常波动趋势之前的相关文本内容预测股票的异常波动?因此,基于趋势之前的舆论数据对股票异常波动进行分析具有相当重要的价值意义。现阶段的金融数据分析,主要是金融专家基于相关的理论基础,对于海量的金融信息报道,结合国家的宏观经济政策、投资环境与理念、上市公司及其产品服务等因素,对股市的行情进行全面的分析,对股市可能发生的异常波动作出分析和预警。但由于股票相关文本的数量庞大、实时性强,人工逐条阅读分析需要消耗巨大的人力资源,需要金融分析人员长时间、高频率地进行文本阅读,不仅效率低下,而且由于工作状态、个体情绪等人为因素,会对异动分析的准确度造成影响。显然,如果能够对股票文本的情感特征进行自动提取,挖掘情感特征与股票异常波动的关系,无疑将会对证券行业和股民的投资行为给予非常有意义的帮助。
技术实现思路
鉴于上述,本专利技术提供了一种基于舆论数据的股票异动分析方法,其建立了一套文本情感分析的模型,通过自然语言处理技术,提取海量的舆论数据的特征,挖掘出与特定的股票异常波动类型的特征,帮助领域专家和数据分析师分析股票的行情,帮助投资者获取关键信息,改善投资策略,并给定通用的方法,大大提高金融文本数据分析的效率,符合领域专家及投资者的需要。一种基于舆论数据的股票异动分析方法,包括如下步骤:(1)对舆论数据进行采集并通过预处理得到多个样本集,所述样本集为固定时间段内关于股票的所有文章及其评论集合,其中的样本即为关于任一股票的一篇文章及其评论;(2)根据股票龙虎榜中的股票异动类型对样本进行类别标注,并将具有类别标注信息的样本分为训练集、验证集和测试集;(3)获取金融领域词典、情感词典以及程度副词词典,根据上述词典或通过word2vec方法对样本进行分词,即将样本中的每个词转换成词向量形式,从而得到每个句子由词向量所组成的词向量矩阵;(4)将一个样本中长度不同的句子所对应的词向量矩阵统一转换成固定维度大小的特征向量,进而将所有句子对应的特征向量合并后作为样本的特征向量;(5)将同一天内关于同一股票的所有样本的特征向量级联拼接成一个特征向量X,进而将所有特征向量X输入至CNN(ConvolutionalNeuralNetworks,卷积神经网络)中,CNN的输出为对应一个日期戳(即一天)的特征向量Y;(6)对于任一发生异动的股票,将该股票异动发生前一定时间段内的所有特征向量Y级联拼接成一个特征向量Z,进而将所有特征向量Z输入至LSTM(LongShort-TermMemory,长短期记忆网络)中,LSTM的输出为对应一种异动类型的特征向量W;(7)将特征向量W、关于单股发帖量的特征信息以及大盘发帖量的变化特征信息共同输入至SVM(SupportVectorMachine,支持向量机)中进行训练,得到用于股票异动分析的模型,进而利用该模型对股票异动提前做出分析预判。进一步地,所述步骤(1)中通过爬虫采集得到大量舆论数据,在对这些舆论数据做预处理时,根据模型中定义的句子长度的取值范围去除异常值或将超出范围值整理到正常范围中,根据文本的长度分布信息对舆论数据进行特定的预处理,预处理后即得到规整的舆论数据。进一步地,所述步骤(2)中根据最近一段时间的龙虎榜,对于其中存在异动的任一股票,获取该股票的异动类型及其异动发生时间,从样本集中查找异动发生时间之前的一定时间段内对应该股票的所有样本,并以该股票的异动类型对这些样本进行类别标注。进一步地,所述步骤(3)中对样本的结构化表示,即用数字向量的形式有效地表达一个非结构化的句子;方案一(即word2vec方法)中对于每个句子,根据语义把句子中的词语转化为高维的词向量,将语义相近的词语置于相近的位置;方案二则基于金融领域词典、情感词典以及程度副词词典将句子中的词语表示为数据向量。进一步地,所述步骤(4)中采用RNN(RecurrentNeuralNetworks,循环神经网络)算法将一个样本中长度不同的句子所对应的词向量矩阵统一转换成固定维度大小的特征向量。进一步地,所述步骤(7)中得到用于股票异动分析的模型后,利用验证集对该模型进行性能评估及调试,最后将测试集样本输入至调试后最终的模型中进行测试,对应生成关于股票异动类型的分类结果。基于上述技术方案,本专利技术具有以下有益技术效果:(1)本专利技术给出了一个有效的文本分布式表示方法,对于不同文本的处理过程均适用。(2)本专利技术提供了一种提取舆论数据中与股票异动有关的特征的方法,能有效地提取异动发生前的特征,当出现包含这些特征的舆论时,领域专家可以结合其他特征,对股票可能出现的异常波动作出分析和及时的预警,使得领域专家在股票异动分析的工作中尽量发挥其领域知识方面的优势。(3)本专利技术提供了一个有效的文本特征提取模型,方便数据分析师对股票异常波动进行有效的分析,为数据分析师提供了分析所需的必要数据及信息,使得数据分析师在能正确理解数据意义的基础上做出高效的分析。(4)本专利技术针对舆论数据的关键信息高维且稀疏的问题,提供了一个通用的数据分析方案,提高了数据分析师的分析效率。附图说明图1为本专利技术挖掘舆论中与股票异动相关的情感特征的过程示意图。图2为爬虫采集数据的流程示意图。图3为文本分布式表示及CNN网络的连接示意图。图4为词向量表示的文本特征提取过程示意图。图5为异动发生前的发帖量变化示意图。具体实施方式为了更为具体地描述本专利技术,下面结合附图及具体实施方式对本专利技术的技术方案进行详细说明。本实施方式以提取舆论中与异动类型为“跌幅偏离值达7%的证券”相关的特征为例子,如图1所示,该提取过程包括文本的采集和标注、词语的分布式表示与情感特征提取、发帖量统计和大盘变化统计等步骤,具体实现过程如下:(1)对舆论数据进行采集,并根据股票异动类型对样本进行类别标注,将数据集分为训练集、验证集和测试集。根据步骤(1)对舆论和异动类型、异动发生的日期进行采集,并根据异动类型对样本进行标注。其中舆论数据和股票异动类型与异动时间通过图2所示的爬虫结构进行采集,对原始文本数据做预处理时,根据文本的句子长度的分布信息,定义涵盖98%以上的句子长度的一个句子长度值的取值范围,去除异常值或将超出范围值整理到正常范围中,预处理后得到规整的数据,可以选择不同的词嵌入方法,不同的算法进行灵活的分析。(2)构建文本分词时所需的金融领域的词典和词语情感表示时所需的情感字典和程度副词词典。为了充分考虑文本的情感和语义,根据步骤(2)构建所需的词典,其中证券字典如表1所示,部分情感字典如表2所示:表1成交数量成交笔数跌势本文档来自技高网...

【技术保护点】
1.一种基于舆论数据的股票异动分析方法,包括如下步骤:(1)对舆论数据进行采集并通过预处理得到多个样本集,所述样本集为固定时间段内关于股票的所有文章及其评论集合,其中的样本即为关于任一股票的一篇文章及其评论;(2)根据股票龙虎榜中的股票异动类型对样本进行类别标注,并将具有类别标注信息的样本分为训练集、验证集和测试集;(3)获取金融领域词典、情感词典以及程度副词词典,根据上述词典或通过word2vec方法对样本进行分词,即将样本中的每个词转换成词向量形式,从而得到每个句子由词向量所组成的词向量矩阵;(4)将一个样本中长度不同的句子所对应的词向量矩阵统一转换成固定维度大小的特征向量,进而将所有句子对应的特征向量合并后作为样本的特征向量;(5)将同一天内关于同一股票的所有样本的特征向量级联拼接成一个特征向量X,进而将所有特征向量X输入至CNN中,CNN的输出为对应一个日期戳的特征向量Y;(6)对于任一发生异动的股票,将该股票异动发生前一定时间段内的所有特征向量Y级联拼接成一个特征向量Z,进而将所有特征向量Z输入至LSTM中,LSTM的输出为对应一种异动类型的特征向量W;(7)将特征向量W、关于单股发帖量的特征信息以及大盘发帖量的变化特征信息共同输入至SVM中进行训练,得到用于股票异动分析的模型,进而利用该模型对股票异动提前做出分析预判。...

【技术特征摘要】
1.一种基于舆论数据的股票异动分析方法,包括如下步骤:(1)对舆论数据进行采集并通过预处理得到多个样本集,所述样本集为固定时间段内关于股票的所有文章及其评论集合,其中的样本即为关于任一股票的一篇文章及其评论;(2)根据股票龙虎榜中的股票异动类型对样本进行类别标注,并将具有类别标注信息的样本分为训练集、验证集和测试集;(3)获取金融领域词典、情感词典以及程度副词词典,根据上述词典或通过word2vec方法对样本进行分词,即将样本中的每个词转换成词向量形式,从而得到每个句子由词向量所组成的词向量矩阵;(4)将一个样本中长度不同的句子所对应的词向量矩阵统一转换成固定维度大小的特征向量,进而将所有句子对应的特征向量合并后作为样本的特征向量;(5)将同一天内关于同一股票的所有样本的特征向量级联拼接成一个特征向量X,进而将所有特征向量X输入至CNN中,CNN的输出为对应一个日期戳的特征向量Y;(6)对于任一发生异动的股票,将该股票异动发生前一定时间段内的所有特征向量Y级联拼接成一个特征向量Z,进而将所有特征向量Z输入至LSTM中,LSTM的输出为对应一种异动类型的特征向量W;(7)将特征向量W、关于单股发帖量的特征信息以及大盘发帖量的变化特征信息共同输入至SVM中进行训练,得到用于股票异动分析的模型,进而利用该模型对股票异动提前做出分析预判。2.根据权利要求1所述的股票异动分析方法,其特征在于:...

【专利技术属性】
技术研发人员:罗智凌靳婷李莹尹建伟邓水光吴朝晖
申请(专利权)人:浙江大学
类型:发明
国别省市:浙江,33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1