一种个股股吧热度分析方法技术

技术编号:23764885 阅读:13 留言:0更新日期:2020-04-11 19:18
本发明专利技术公开了一种个股股吧热度分析方法,爬取财经网站和个股股吧,获取相应的数据;拟定热度指数,建立关于热度序列的BOLL带,BOLL带涉及三条线:中轨线,上轨线,下轨线,热度在正常波动情况下,介于上轨线和下轨线形成的阴影带内,跳出上或下轨线的热度点是热度异常点;基于热度序列,找出一段时间的热度变点,对于两个变点之间的热度序列进行拟合,得到趋势图。本发明专利技术通过对个股股吧热度进行分析,能够参考热度指数,反应出大众对具体个股的关注程度,同时可以监测热度过高或过低的时刻,又可以探索引起热度高的主题或热点,为个股推荐、热门个股等特色服务的开展提供推荐依据,为管理或投资人的日常决策提供更好的服务。

An analysis method of bar heat of stock

【技术实现步骤摘要】
一种个股股吧热度分析方法
本专利技术涉及一种社交媒体对证券市场的影响分析方法,尤其涉及的是一种个股股吧热度分析方法。
技术介绍
社交媒体对股市波动的影响越来越大.投资者通过社交媒体可以实时获取证券市场的相关资讯,与他人交流对证券市场和个股的看法和感受,并且参与到社区的各类讨论和交流中。与此同时,不同渠道的信息通过社交媒体对信息的分享、聚集和放大等功能在社区中迅速传播,为投资者的投资决策行为提供了丰富的决策参考信息。深入分析涉及媒体与证券市场之间的相互影响,总结社交媒体对证券市场的预测作用,能够帮助投资者去掉投机心理、树立投资理念。当前对于个股相关资讯的获取主要通过搜索引擎工具检索,这种方法存在以下缺点:1、噪音大:广告推广链接多,一般情况下广告的搜索结果都是排在靠前位置;语义错误,搜索引擎主要根据关键字获取搜索结果,不是语义层次的,当有歧义时,有很多不准确的结果。2、重复度高:对于热点新闻资讯,各大网站都会有报导;很多情况下标题和内容都是一模一样的,但是搜索引擎不会帮忙去除重复。3、缺少关键指标:搜索引擎的结果一般只能说明文章中含有用户搜索的关键字(这里是个股),并没有说明个股与文章的关联度有多大,情感信息(是利好还是利空),投资者还需要发大量时间和精力取阅读分析才能做出投资决策。4、没有时间轨迹:搜索引擎没有时间维度,对于投资者关注的股票,只是能获取当前的文章,不能查阅历史热度,不利于投资者的决策选择。
技术实现思路
本专利技术所要解决的技术问题在于:对于社交媒体信息的有效利用,提供了一种个股股吧热度分析方法。本专利技术是通过以下技术方案解决上述技术问题的,本专利技术包括以下步骤:(1)爬取财经网站和个股股吧,获取相应的数据;(2)拟定热度指数,基于条件的热度指数计算公式:i=1,2,…,m,某段时间内的发帖量为m,i=1,2,…,m,某段时间内的发帖量为m,yj表示第j个帖子的发帖人是否被网站认证;yj=0表示该发帖人未被网站认证,yj=1表示发帖人被网站认证,li表示第i条帖子的浏览量,ci表示第i条帖子的回复量;(3)建立关于热度序列的BOLL带,BOLL带涉及三条线:中轨线,上轨线,下轨线,其中:中轨线:前N日序列的滑动均线上轨线:中轨线+2*前N日序列的标准差的IQR修正下轨线:中轨线-2*前N日序列的标准差的IQR修正热度在正常波动情况下,介于上轨线和下轨线形成的阴影带内,跳出上或下轨线的热度点是热度异常点;(4)基于热度序列,找出一段时间的热度变点,对于两个变点之间的热度序列进行拟合,得到趋势图。所述步骤(1)中,获取浏览量、评论量、帖子标题、发帖人认证情况、发帖时间的相关信息。所述数据爬取后,将每个待监测的个股股吧用表格存储,包括相应财经网站的发帖信息和关于该股的日常交易行情信息。某段时间内的发帖量为m,某条帖子Ti(i=1,2,…,m)的浏览量为li,评论量为ci,则将该时期的热度定义为:所述步骤(3)中,当高热度异常点出现时,对当日帖子进行基于标题的热词分析,统计词语出现的频率,绘制相应的词云,以此来展示当日大众对于该股的关注热点。对比各个股吧热度,获得每日热度最高股、热度排名前N支股、热度变化率最高前N支股、涨跌幅最高前N支股,对每日热度排名前N支股进行热度变化率排名,热度相对于前一天讨论增加或减少的百分比能够直接反映出大众对于该股关注度的变化情况。所述步骤(4)中,变点的寻找方法如下:(41)设定热度序列是定义其中:(42)若S1,N(N)≤δ,则存在变点,进入下一步,否则不存在变点,结束,δ为参数;(43)若存在变点,则即为第一个变点,此时也将区间划分为和重复上述操作直至找到所有变点。本专利技术相比现有技术具有以下优点:本专利技术通过对个股股吧热度进行分析,能够参考热度指数,反应出大众对具体个股的关注程度,同时可以监测热度过高或过低的时刻,又可以探索引起热度高的主题或热点,为个股推荐、热门个股等特色服务的开展提供推荐依据,为管理或投资人的日常决策提供更好的服务。附图说明图1是本专利技术热度指数计算得到的个股热度指数图;图2是个股股吧的发帖量/日统计图;图3是基于热度BOLL带的主题分析示意图;图4是个股热度变点图;图5是个股涨跌幅变点图;图6是东方财富网某日热门个股吧示意图;图7是某股吧热度排名示意图。具体实施方式下面对本专利技术的实施例作详细说明,本实施例在以本专利技术技术方案为前提下进行实施,给出了详细的实施方式和具体的操作过程,但本专利技术的保护范围不限于下述的实施例。本实施例首先利用爬虫技术从相关平台上获取数据,其中包括量化数据和文本数据两种。由于数据更新速度快、数量大、种类繁多等特征需要对数据进行合理地存储。对于各个平台上获取到的数据使用Mysql数据库进行存储。爬虫根据既定的抓取目标,有选择地访问互联网的网页与相关的链接,获取所需要的信息,对不同平台上的目标数据进行个性化的分析,以便深入挖掘数据的潜在价值。采用python语言来编写相关的网络爬虫,主要是运用python2.7自带的urllib2库去爬取指定网页的信息,并通过网页链接深入爬取更多的信息。即运用python的正则表达式进行最初的网页信息筛选,保留需要的目标信息;再用清洗代码对爬下来的数据做简单清洗,如去掉html的一些格式符号等,使之变成后续分析可用的数据。对于热门股吧数据的存储:每个待监测的个股股吧使用三张表存储,分别是来自东方财富的发帖信息、来自新浪网的发帖信息以及关于该股的日常交易行情信息;通过网页爬虫技术爬取东方财富网和新浪网上个股股吧,获取到的信息主要包括:浏览量、评论量、帖子标题、发帖人认证情况、发帖时间等。首先,对个股股吧中已量化的数据(如:发帖量/日、浏览量/日、评论量/日)等关注度数据做描述性统计分析,目前可以持续关注375支个股(其中包括沪深300、一线、二线、三线蓝筹股),监督东方财富网和新浪网上共750个个股股吧,监测出每个交易日个股股吧中发帖量、浏览量、评论量的变化情况。基于发帖量、浏览量以及评论量等信息,结合自信息量定义将量化数据做成指数,称其为热度。热度在某种程度上反映出大众对该股的讨论情况,是股吧平台中关于个股的一种关注度指标。对热度指数计算方式的思考来源于信息论中自信息量的描述:一个事件信息量的大小与该事件发生的概率有关,概率小的事件包含的信息量大,概率大的事件包含的信息量小,则事件A的信息量的计算公式为:I(A)=-logP(A)类比于信息量的计算,假设某条帖子T的浏览量为l,评论量为c,则此帖子的热度的计算公式定义为:上式中的1/(l+c+1)理解为:在个股股吧中,l为浏览(或点击)人数,c为评论人数,加上帖子作者本身,便有总人本文档来自技高网...

【技术保护点】
1.一种个股股吧热度分析方法,其特征在于,包括以下步骤:/n(1)爬取财经网站和个股股吧,获取相应的数据;/n(2)拟定热度指数,基于条件的热度指数计算公式:/n

【技术特征摘要】
1.一种个股股吧热度分析方法,其特征在于,包括以下步骤:
(1)爬取财经网站和个股股吧,获取相应的数据;
(2)拟定热度指数,基于条件的热度指数计算公式:



i=1,2,…,m,某段时间内的发帖量为m,yj表示第j个帖子的发帖人是否被网站认证;yj=0表示该发帖人未被网站认证,yj=1表示发帖人被网站认证,li表示第i条帖子的浏览量,ci表示第i条帖子的回复量;
(3)建立关于热度序列的BOLL带,BOLL带涉及三条线:中轨线,上轨线,下轨线,其中:
中轨线:前N日序列的滑动均线
上轨线:中轨线+2*前N日序列的标准差的IQR修正
下轨线:中轨线-2*前N日序列的标准差的IQR修正
热度在正常波动情况下,介于上轨线和下轨线形成的阴影带内,跳出上或下轨线的热度点是热度异常点;
(4)基于热度序列,找出一段时间的热度变点,对于两个变点之间的热度序列进行拟合,得到趋势图。


2.根据权利要求1所述的一种个股股吧热度分析方法,其特征在于,所述步骤(1)中,获取浏览量、评论量、帖子标题、发帖人认证情况、发帖时间的相关信息。


3.根据权利要求1所述的一种个股股吧热度分析方法,其特征在于,所述数据爬取后,将每个待监测的个股股吧用表格存储,包括相应财经...

【专利技术属性】
技术研发人员:张国威胡汤磊杨杰白雪飞
申请(专利权)人:国元证券股份有限公司
类型:发明
国别省市:安徽;34

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1