一种用于监控互联网信息的热点趋势的控制方法技术

技术编号:26171481 阅读:14 留言:0更新日期:2020-10-31 13:44
一种用于监控互联网信息的热点趋势的控制方法,包括:服务端将监控的互联网信息采集到并发送到消息队列中,并将消息队列中的数据落地到HDFS系统上后,从互联网信息获取相应的基础数据以及新闻转载数据;服务端计算当前热度值Pc及当前时间的设定周期之前的热度值Pb;服务端将计算得到的Pc和Pb,通过Pd=(Pc‑Pb)/Pb*100%计算显示热度率Pd;服务端将得到的显示热度率Pd以及相关信息落地到ElasticSearch服务器中;服务端根据数据源的网络地址在ElasticSearch服务器中查询当前时间的设定周期之前的显示热度率Pd,若查询到相应的结果,则显示该结果,完成热点趋势的控制。本发明专利技术解决了当前需要一种可以根据用户自定义站点的互联网信息进行热点排行与热点预测的问题。

【技术实现步骤摘要】
一种用于监控互联网信息的热点趋势的控制方法
本申请涉及计算机信息
,特别涉及一种用于监控互联网信息的热点趋势的控制方法。
技术介绍
近年来随着信息技术的大力发展,网上的信息越来越多,信息的传播速度越来越块,信息传播的渠道越来越广,随着数据量的暴增,以及层出不穷的网络站点。导致人们无法从中快速直观的感知自己所关注的事物动态发展状况。当前各大知名网站虽然都有热点排行或者搜索排行,但他们这一功能都是完全面对所有用户。然而,不同的人群所关注的信息是截然不同的,并且对于信息的传播趋势,也是无法预估的。因此,当前需要一种可以根据用户自定义站点的互联网信息进行热点排行与热点预测的技术方案,可以依据相同的时间切片,以及互联网信息的转载数,将当前时间下,互联网信息与同一时间切片的互联网信息进行对比,获取当前时间的互联网信息所发生的变化。
技术实现思路
本申请实施例提供一种用于监控互联网信息的热点趋势的控制方法,以解决当前需要一种可以根据用户自定义站点的互联网信息进行热点排行与热点预测的技术问题。本专利技术提供了一种用于监控互联网信息的热点趋势的控制方法,包括:服务端将需要监控的互联网信息采集到并发送到消息队列中,并将消息队列中的数据落地到HDFS系统上后,从HDFS系统上所述互联网信息获取相应的基础数据以及新闻转载数据;服务端通过Spark方式计算所述互联网信息的当前热度值Pc,以及所述互联网信息当前时间的设定周期之前的热度值Pb;服务端将计算得到的Pc和Pb,通过公式Pd=(Pc-Pb)/Pb*100%计算得到所述互联网信息的显示热度率Pd;服务端将计算得到的所述互联网信息的显示热度率Pd以及所述互联网信息的相关信息落地到ElasticSearch服务器中;服务端根据预先设定的需要监控互联网信息的数据源的网络地址,在所述ElasticSearch服务器中查询当前时间的设定周期之前的互联网信息的显示热度率Pd,若查询到相应的结果,则显示该结果,完成监控所述互联网信息的热点趋势的控制。与现有技术相比,应用本专利技术,可以对用户自定义站点的互联网信息进行热点排行与热点预测,可以依据相同的时间切片,以及互联网信息的转载数,将当前时间下,互联网信息与同一时间切片的互联网信息进行对比,获取当前时间的互联网信息所发生的变化。附图说明此处所说明的附图用于提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:图1为本申请实施例提供的一种用于监控互联网信息的热点趋势的控制方法的一种具体实施方式的流程示意图;图2为本申请实施例提供的一种本申请中用于监控互联网信息的热点趋势的控制方法的具体实施方式的结构示意图。具体实施方式为使本申请的目的、技术方案和优点更加清楚,下面将结合本申请具体实施例及相应的附图对本申请技术方案进行清楚、完整地描述。显然,所描述的实施例仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。在本申请中主要涉及通过具有中央处理功能的设备(例如计算机或智能终端等设备)进行互联网信息的处理。为了方便描述,在本申请实施例中,主要通过服务端(可以是计算机系统)操作为例进行介绍。请参考图1,如图1所示,本申请实施例提供的一种用于监控互联网信息的热点趋势的控制方法,包括如下步骤:步骤110、服务端将需要监控的互联网信息采集到并发送到消息队列中,并将消息队列中的数据落地到HDFS系统上后,从HDFS系统上所述互联网信息获取相应的基础数据以及新闻转载数据;其中,互联网信息可以是某新闻的信息或者某文章的内容信息等,只要是具有传播特性的互联网信息内容都可以是本申请所指的互联网信息,本申请对此不作任何限定。HDFS系统(Hadoop分布式文件系统)被设计成适合运行在通用硬件(commodityhardware)上的分布式文件系统。HDFS系统是一个高度容错性的系统,适合部署在廉价的机器上。HDFS系统能提供高吞吐量的数据访问,非常适合大规模数据集上的应用。HDFS系统放宽了一部分POSIX约束,来实现流式读取文件系统数据的目的。HDFS系统在最开始是作为ApacheNutch搜索引擎项目的基础架构而开发的。HDFS系统是ApacheHadoopCore项目的一部分。应用HDFS系统可以大规模的降低使用成本。HDFS系统有着高容错性(fault-tolerant)的特点,并且设计用来部署在低廉的(low-cost)硬件上。而且它提供高吞吐量(highthroughput)来访问应用程序的数据,适合那些有着超大数据集(largedataset)的应用程序。HDFS系统放宽了(relax)POSIX的要求(requirements)这样可以实现流的形式访问(streamingaccess)文件系统中的数据。ElasticSearch是一个基于Lucene的搜索服务器。ElasticSearch提供了一个分布式多用户能力的全文搜索引擎,基于RESTfulweb接口。Elasticsearch是当前流行的企业级搜索引擎,设计用于云计算中,能够达到实时搜索,稳定,可靠,快速,安装使用方便。Spark是专为大规模数据处理而设计的快速通用的计算引擎。Spark是开源的类HadoopMapReduce的通用并行框架,Spark拥有HadoopMapReduce所具有的优点;但不同于MapReduce的是——Job中间输出结果可以保存在内存中,从而不再需要读写HDFS,因此Spark能更好地适用于数据挖掘与机器学习等需要迭代的MapReduce的算法。Spark是一种与Hadoop相似的开源集群计算环境,但是两者之间还存在一些不同之处,这些有用的不同之处使Spark在某些工作负载方面表现得更加优越,换句话说,Spark启用了内存分布数据集,除了能够提供交互式查询外,它还可以优化迭代工作负载。Spark与Hadoop不同,Spark和Scala(Scala是类似java的编程语言)能够紧密集成,其中的Scala可以像操作本地集合对象一样轻松地操作分布式数据集。尽管创建Spark是为了支持分布式数据集上的迭代作业,但是实际上它是对Hadoop的补充,可以在Hadoop文件系统中并行运行。通过名为Mesos的第三方集群框架可以支持此行为。Spark可用来构建大型的、低延迟的数据分析应用程序。步骤120、服务端通过Spark方式计算所述互联网信息的当前热度值Pc,以及所述互联网信息当前时间的设定周期之前的热度值Pb;设定周期b可以是30分钟、45分钟、50分钟或60分钟等,只要是可以在该周期b中,所述互联网信息的传播会发生变化都适用于本申请的方法,本申请对此不作任何限定。在实际操作中,设定周期b为30分钟在操作上比本文档来自技高网...

【技术保护点】
1.一种用于监控互联网信息的热点趋势的控制方法,其特征在于,包括:/n服务端将需要监控的互联网信息采集到并发送到消息队列中,并将消息队列中的数据落地到HDFS系统上后,从HDFS系统上所述互联网信息获取相应的基础数据以及新闻转载数据;/n服务端通过Spark方式计算所述互联网信息的当前热度值Pc,以及所述互联网信息当前时间的设定周期之前的热度值Pb;/n服务端将计算得到的Pc和Pb,通过公式Pd=(Pc-Pb)/Pb*100%计算得到所述互联网信息的显示热度率Pd;/n服务端将计算得到的所述互联网信息的显示热度率Pd以及所述互联网信息的相关信息落地到ElasticSearch服务器中;/n服务端根据预先设定的需要监控互联网信息的数据源的网络地址,在所述ElasticSearch服务器中查询当前时间的设定周期之前的互联网信息的显示热度率Pd,若查询到相应的结果,则显示该结果,完成监控所述互联网信息的热点趋势的控制。/n

【技术特征摘要】
1.一种用于监控互联网信息的热点趋势的控制方法,其特征在于,包括:
服务端将需要监控的互联网信息采集到并发送到消息队列中,并将消息队列中的数据落地到HDFS系统上后,从HDFS系统上所述互联网信息获取相应的基础数据以及新闻转载数据;
服务端通过Spark方式计算所述互联网信息的当前热度值Pc,以及所述互联网信息当前时间的设定周期之前的热度值Pb;
服务端将计算得到的Pc和Pb,通过公式Pd=(Pc-Pb)/Pb*100%计算得到所述互联网信息的显示热度率Pd;
服务端将计算得到的所述互联网信息的显示热度率Pd以及所述互联网信息的相关信息落地到ElasticSearch服务器中;
服务端根据预先设定的需要监控互联网信息的数据源的网络地址,在所述ElasticSearch服务器中查询当前时间的设定周期之前的互联网信息的显示热度率Pd,若查询到相应的结果,则显示该结果,完成监控所述互联网信息的热点趋势的控制。


2.根据权利要求1所述的方法,其特征在于,
还包括:所述设定周期是30分钟、45分钟、50分钟或60分钟。


3.根据权利要求2所述的方法,其特征在于,
还包括:所述服务端从HDFS系统上获取所述互联网信息的基础数据、媒体级别数据,以及新闻转载数据;
所述服务端通过Spark方式计算当前时间的所述互联网信息的媒体状况信息与时间切片中所述互联网信息的媒体状...

【专利技术属性】
技术研发人员:李青龙骆飞彭璿韜王雪峰刘家豪
申请(专利权)人:北京智慧星光信息技术有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1