互联网网站群平台系统及其并行隔离流式计算方法技术方案

技术编号:16783375 阅读:27 留言:0更新日期:2017-12-13 02:04
本发明专利技术公开了一种互联网网站群平台系统及其并行隔离流式计算方法,系统包括流式数据接入层,流式数据处理层,中间数据存储层和结果数据归档层;流式数据接入层用于接收采集系统采集的数据,并发送至流式数据处理层,流式数据处理层对到达的数据进行清洗和过滤,根据当前时间进行比对剔除掉过期数据,然后采用并行隔离流式计算方法,计算已上线单位的访问量,结果数据归档层用于存储流式数据处理层的计算结果。本发明专利技术对互联网网站群平台系统的多单位访问量并行统计以及数据分析有助于单位网站的可靠运行以及实时掌控网站的客户群体,及不同客户在不同地域和时间段对网站访问的检测。

【技术实现步骤摘要】
互联网网站群平台系统及其并行隔离流式计算方法
本专利技术涉及一种互联网网站群平台系统及其并行隔离流式计算方法,属于企业门户网站

技术介绍
在传统的数据处理流程中,总是先收集数据,然后将数据放到DB中。当人们需要的时候通过DB对数据做query,得到答案或进行相关的处理。这样看起来虽然非常合理,但是结果却非常的紧凑和,尤其是在一些实时搜索应用环境中的某些具体问题,类似于MapReduce方式的离线处理并不能很好地解决问题。这就引出了一种新的数据计算结构---流计算方式。它可以很好地对大规模流动数据在不断变化的运动过程中实时地进行分析,捕捉到可能有用的信息,并把结果发送到下一计算节点。比较早期代表系统有IBM的SystemS,它是一个完整的计算架构,通过“streamcomputing”技术,可以对stream形式的数据进行real-time的分析。“最初的系统拥有大约800个微处理器,但IBM称,根据需求,这个数字也有可能上万。研究者讲到,其中最关键的部分是SystemS软件,它可以将任务分开,比如分为图像识别和文本识别,然后将处理后的结果碎片组成完整的答案。IBM实验室高性能流运算项目的负责人NaguiHalim谈到:SystemS是一个全新的运算模式,它的灵活性和速度颇具优势。而与传统系统相比,它的方式更加智能化,可以适当转变,以适用其需要解决的问题。商用搜索引擎,像Google、Bing和Yahoo!等,通常在用户查询响应中提供结构化的Web结果,同时也插入基于流量的点击付费模式的文本广告。为了在页面上最佳位置展现最相关的广告,通过一些算法来动态估算给定上下文中一个广告被点击的可能性。上下文可能包括用户偏好、地理位置、历史查询、历史点击等信息。一个主搜索引擎可能每秒钟处理成千上万次查询,每个页面都可能会包含多个广告。为了及时处理用户反馈,需要一个低延迟、可扩展、高可靠的处理引擎。然而,对于这些实时性要求很高的应用,尽管MapReduce作了实时性改进,但仍很难稳定地满足应用需求。因为Hadoop为批处理作了高度优化,MapReduce系统典型地通过调度批量任务来操作静态数据;而流式计算的典型范式之一是不确定数据速率的事件流流入系统,系统处理能力必须与事件流量匹配,或者通过近似算法等方法优雅降级,通常称为负载分流(load-shedding)。当然,除了负载分流,流式计算的容错处理等机制也和批处理计算不尽相同。MR也有自己的实时计算方案,比如说HOP。但是,这类基于MapReduce进行流式处理的方案有三个主要缺点。将输入数据分隔成固定大小的片段,再由MapReduce平台处理,缺点在于处理延迟与数据片段的长度、初始化处理任务的开销成正比。小的分段会降低延迟,增加附加开销,并且分段之间的依赖管理更加复杂(例如一个分段可能会需要前一个分段的信息);反之,大的分段会增加延迟。最优的分段大小取决于具体应用。为了支持流式处理,MapReduce需要被改造成Pipeline的模式,而不是Reduce直接输出;考虑到效率,中间结果最好只保存在内存中等。这些改动使得原有的MapReduce框架的复杂度大大增加,不利于系统的维护和扩展。用户被迫使用MapReduce的接口来定义流式作业,这使得用户程序的可伸缩性降低。综上所述,流式处理的模式决定了要和批处理使用非常不同的架构,试图搭建一个既适合流式计算又适合批处理计算的通用平台,结果可能会是一个高度复杂的系统,并且最终系统可能对两种计算都不理想。
技术实现思路
本专利技术所要解决的技术问题是克服现有技术的缺陷,提供一种互联网网站群平台系统及其并行隔离流式计算方法,采用并行隔离流式算法对网站群的多单位访问量进行在线分析,并将网站群系统每个单位的访问状态的变化实时记录保存,计算出网站群中运行的每个单位在平均每天的运行状态下的偏移系数,有效解决了互联网网站群平台系统多单位运行导致在统计每个单位的访问量时的不准确问题。为解决上述技术问题,本专利技术提供一种互联网网站群平台系统,包括流式数据接入层,流式数据处理层,中间数据存储层和结果数据归档层;所述流式数据接入层用于接收采集系统采集的数据,并发送至流式数据处理层;所述采集系统和流式数据接入层之间有一个消息中间件,用于缓冲采集的数据流入流式数据接入层的速度;所述流式数据处理层对到达的数据进行清洗和过滤,根据当前时间进行比对剔除掉过期数据,然后采用并行隔离流式计算方法,计算已上线单位的访问量;所述结果数据归档层用于存储流式数据处理层的计算结果;所述中间数据存储层用于存储数据处理过程中的中间数据。前述的消息中间件为一个有序队列,采用先进先出的方式将数据从消息中间件往流式数据接入层注入。前述的互联网网站群平台系统可实现指定查询,计算最大值、最小值、平均值,排序,窗口内计数,去重计数,特殊指标过滤,热度统计和排行榜。前述的指定查询是指,进入互联网网站群平台系统的一个元素是一个个字符串对,指定查询就是比较下字符串对的值,符合要求即做下一步的处理,等到需要时统计结果;所述指定查询数据读取次数为:读0写1。前述的计算最大值、最小值、平均值的方法为,在中间数据存储层保存一个中间变量,每次仅需取出来,进行计算后更新即可;计算过程中,数据读取次数为:读1写1。前述的排序的实现方式为,在中间数据存储层保存一个数据结构堆,每次更新在其上进行相应的插入删除;数据读取次数为:读1写1。前述的窗口内计数采用DGIM算法。前述的去重计数采用hash表,搜索树,FM算法或者组合估计法。前述的特殊指标过滤采用bloomfilter。互联网网站群平台系统的并行隔离流式计算方法,包括以下步骤:1)获取所有已上线单位的列表,通过单位的组织机构编码orgCode进行唯一性区分;2)根据网站群服务器的基础配置和步骤1)中获取的已上线单位的数量,计算需要开启的线程数,计算式为:T=U/C,其中,T表示需要开启的线程数,U表示已上线单位的数量,C表示网站群服务器的CPU核数;3)每个线程负责一个或者多个已上线单位的访问量统计,访问量统计互相隔离并且都是并行计算的,一个已上线单位每天的访问流量统计的计算公式如下:Q=FP*0.4+SP*0.3+TP*0.3其中,Q代表一个已上线单位一天的访问流量数,FP代表单位网站的首页一天的访问流量,SP代表单位网站的二级页面的一天访问流量,TP代表单位网站的三级页面的一天访问流量,然后分别乘以对应的系数即可得到访问流量。本专利技术所达到的有益效果:本专利技术将互联网网站群的单系统多单位特点转换成并行隔离流式计算模型,采用并行隔离流式算法对网站群的多单位访问量进行在线分析,并将网站群系统每个单位的访问状态的变化实时记录保存,计算出网站群中运行的每个单位在平均每天的运行状态下的偏移系数,有效解决了互联网网站群平台系统多单位运行导致在统计每个单位的访问量时的不准确问题。本专利技术对互联网网站群平台系统的多单位访问量并行统计以及数据分析有助于单位网站的可靠运行以及实时掌控网站的客户群体,及不同客户在不同地域和时间段对网站访问的检测。附图说明图1为本专利技术的互联网网站群平台系统结构图。具体实施方式下面对本专利技术作进一步描述。以下实施例仅用于更加清楚地说明本发本文档来自技高网
...
互联网网站群平台系统及其并行隔离流式计算方法

【技术保护点】
互联网网站群平台系统,其特征在于,包括流式数据接入层,流式数据处理层,中间数据存储层和结果数据归档层;所述流式数据接入层用于接收采集系统采集的数据,并发送至流式数据处理层;所述采集系统和流式数据接入层之间有一个消息中间件,用于缓冲采集的数据流入流式数据接入层的速度;所述流式数据处理层对到达的数据进行清洗和过滤,根据当前时间进行比对剔除掉过期数据,然后采用并行隔离流式计算方法,计算已上线单位的访问量;所述结果数据归档层用于存储流式数据处理层的计算结果;所述中间数据存储层用于存储数据处理过程中的中间数据。

【技术特征摘要】
1.互联网网站群平台系统,其特征在于,包括流式数据接入层,流式数据处理层,中间数据存储层和结果数据归档层;所述流式数据接入层用于接收采集系统采集的数据,并发送至流式数据处理层;所述采集系统和流式数据接入层之间有一个消息中间件,用于缓冲采集的数据流入流式数据接入层的速度;所述流式数据处理层对到达的数据进行清洗和过滤,根据当前时间进行比对剔除掉过期数据,然后采用并行隔离流式计算方法,计算已上线单位的访问量;所述结果数据归档层用于存储流式数据处理层的计算结果;所述中间数据存储层用于存储数据处理过程中的中间数据。2.根据权利要求1所述的互联网网站群平台系统,其特征在于,所述消息中间件为一个有序队列,采用先进先出的方式将数据从消息中间件往流式数据接入层注入。3.根据权利要求1所述的互联网网站群平台系统,其特征在于,所述互联网网站群平台系统可实现指定查询,计算最大值、最小值、平均值,排序,窗口内计数,去重计数,特殊指标过滤,热度统计和排行榜。4.根据权利要求3所述的互联网网站群平台系统,其特征在于,所述指定查询是指,进入互联网网站群平台系统的一个元素是一个个字符串对,指定查询就是比较下字符串对的值,符合要求即做下一步的处理,等到需要时统计结果;所述指定查询数据读取次数为:读0写1。5.根据权利要求3所述的互联网网站群平台系统,其特征在于,所述计算最大值、最小值、平均值的方法为,在中间数据存储层保存一个中间变量,每次仅需取出来,进行计算后更新即可;计算过程中,数据读取...

【专利技术属性】
技术研发人员:朱海东孙锋黎绍泉罗瑛
申请(专利权)人:南京华盾电力信息安全测评有限公司
类型:发明
国别省市:江苏,32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1